Бизнес-аналитика. Извлечение, преобразование и загрузка данных - страница 4

стр.


Рис. 3.4. Запуск редактора запросов


Задание. Запустите редактор запросов.


Появляется окно редактора запросов (рис. 3.5).

Видим название запроса:

Table_0.

В заголовках всех колонок указано, что тип данных – текст:

ABC

В верхнем меню тоже говорится, что здесь данные текстового типа:

Home – Transform – Data Type – Text.


Рис. 3.5. Редактор запросов


Задание. Обратите внимание на название запроса и тип данных.


Начнём исправления загруженной таблицы.

Зададим новое название запроса:

Дивиденды Газпрома.

Изменим тип данных для первого столбца:

Home – Transform – Data Type – Decimal Number.


Рис. 3.6. Изменение типа данных


Задание. Измените тип данных.


Появляется диалоговое окно

Change Column Type.

Нам предлагают определиться, как именно делать преобразование. Если добавить новый этап работы с данными, изменения можно будет откатить при желании.

Нам не потребуется возвращаться к текстовому типу номера года. Поэтому выбираем первый вариант:

Replace current.


Рис. 3.7. Параметры преобразования типа


Задание. Выберите замену преобразования.


Рассмотрим результаты преобразования типа данных (рис. 3.8).

Тип данных для первого столбца теперь установлен ка числовой:

Data Type – Decimal Number.

В заголовке столбца тоже указано, что здесь находятся числа:

1.2.

Сами числа в первой колонке теперь прижаты вправо. Это формат числа по умолчанию.

В разделе Применённые шаги указано преобразование типа:

Query Settings – Applied Steps – Changed Type.


Рис. 3.8. Результаты преобразования типа


Задание. Рассмотрите результаты преобразования типа данных в первом столбце.


Первая строка, которая дублирует заголовок, содержит текст. Поэтому преобразование завершилось ошибкой, о чём нам и сообщают:

Error.

Щёлкнем по этой ячейке и получим более подробное пояснение (рис. 3.9).

В разделе Применённые шаги появляется новая строка:

Год.

Щёлкаем по красному крестику и возвращаемся к предыдущему шагу.


Рис. 3.9. Сообщение об ошибке


Задание. Изучите сообщение об ошибке формата данных.


Удалим первую строку таблицы, в которой появилась ошибка преобразования типа.

Выбираем в верхнем меню

Home – Reduce Rows – Remove Rows – Remove Errors.

Всплывающая подсказка намекает, что программа удалит все строки, в которых есть ошибки. У нас одна такая строка.


Рис. 3.10. Удаление строк с ошибками


После удаления строк с ошибками получаем более красивую таблицу (рис. 3.11).

Кроме в разделе Применённые шаги добавилась строка

Removed Errors.

Обратим внимание на количество строк в таблице до и после удаления ошибок. Для этого мы можем откатить последний шаг, нажав красный крестик в разделе Применённые шаги. Потом снова вызываем удаление строк с ошибками.


Рис. 3.11. Таблица после удаления ошибок


Задание. Удалите строки с ошибками и обратите внимание на количество строк.


Переходим ко второму столбцу – величине дивидендов.

Зададим числовой тип данных.

Содержимое действительно стало числовым (рис. 3.12).

Сравним с оригиналом – числа стали гораздо больше. Программа просто проигнорировала запятые. Это искажает данные. Откатим изменения.


Рис. 3.12. Результаты преобразования второго столбца


Задание. Задайте целый тип данных для второго столбца и обратите внимание на изменения.


Попробуем заменить запятые на точки.

Находим инструмент поиска и замены в меню (рис. 3.13):

Home – Transform – Replace Values


Рис. 3.13. Функция замены значений


Задание. Прочитайте всплывающую подсказку для кнопки Замена значений.


Нажимаем кнопку Замена значений:

Replace Values.

Заменим запятые на точки (рис. 3.14).


Рис. 3.14. Поиск и замена


Задание. Замените запятые на точки.


Рассмотрим результаты поиска и замены (рис. 3.15).

Действительно, теперь у нас во втором столбце точки вместо запятых.

При этом тип данных по-прежнему текстовый.


Рис. 3.15. Результаты поиска и замены


Задание. Замените запятые на точки во втором столбце.


Изменим тип данных во втором столбце с текстового на числовой:

Decimal Number.

Обращаем внимание на изменение форматирования и сообщение о типе в заголовке столбца.

В одной ячейке за 1998 год был прочерк. Возможно, это означает, что дивиденды не выплачивались. То есть равны нулю.

Теперь в этой ячейке выводится сообщение об ошибке (рис. 3.16).