ETL это процесс извлечения данных из ERP систем, баз данных, файлов или других источников информации

Трансформация данных с целью обработки их для следующего этапа

Загрузка данных в центральное хранилище информации ( хранилище данных или data warehouse) таким образом, чтобы информацию можно было в последующем использовать разными подразделениями для разных целей.

ETL процесс трансформирует оперативные данные в субъектно-ориентированые данные. После этого информация может использоваться руководителями бизнеса для принятия решений.

Процесс ETL состоит из множества суб-процессов: фильтрация, гармонизация, концентрация и обогащение данных.

Фильтрация

На этом этапе происходят две основные операции: извлечение информации и ее очистка. Необходимые данные извлекаются из внешних и внутренних источников. Прежде чем информации будет перемещена в хранилище данных, она хранится в так называемой промежуточной области. Здесь происходит «очистка» данных. Определяется поврежденная и неточная информация и исправляется.

Гармонизация

После того как данные были отфильтрованы и их необходимо гармонизировать. На этом этапе офильтрованные данные объединяются. Здесь необходим принять во внимание следующие два аспекта. Существует синтаксическая и операционная гармонизация.

синтаксическая гармонизация (синхронизация)

операционные и внешние данные могут быть разными по структуре, поэтому они должны быть гармонизированы. Для достижения этого проводятся следующие процедуры

  • координация кодирования: информация может быть по разному кодирована,  это значит что назначение различных таблиц должно быть урегулировано.

  • необходимо решить проблему синонимов:  когда колонки с разными названиями включают в себя однотипную информацию. Все такие колонки должны иметь одинаковые названия.

  • так же необходим решить проблему с одинаковыми названиями: когда колонки имеют одинаковое название, но разное содержание. Для этого колонкам присваиваются новые имена

  • решение проблемы с разной индексацией: когда отфильтрованные и очищенные данные по разному проиндексированы в той системе из которой они получены, их необходимо переиндексировать

операционная гармонизация

Операционная гармонизация необходима для оптимальной передачи операционных данных в систему поддержки принятия решений. На этом этапе полученые данные сопоставляются и определяется необходимая детализация.

  • сопоставление данных. Происходит унификация данных, например курсы валют трансформируют финансовую информацию в соответствии и территориальными условиями

  • определение необходимой детализации. Чем меньше единица информации, тем она будет детальнее, что позволит производить более глубокий анализ информации. Чем выше уровень детализации, тем больше трансформационных правил нужно использовать.

Концентрация (агрегирование)

Отфильтрованные и гармонизированные данные передаются на следующий этап, где данные концентрируются и консолидируются. Здесь применяются несколько агрегационных алгоритмов. Особой детализации это не требует. Сумарные расчеты помогают вычислить необходимые цифры для бизнеса.  В процессе концентрации выстраивается необходимая структура и иерарархия измерений.  На этом этапе создаются такие элементы как «Всего», «Итого» , которые суммируют определенные данные.

Обогащение

На этом этапе над бизнес-данными производятся вычисления и их интеграция. Обогащение имеет важное значение для данных, которые используются различными конечными пользователями. Разные показатели рассчитываются для разных типов пользователей. Продукт менеджера будет интересовать прибыльность по его группе продуктов, в то время как директора филиала прибыльность его подразделения.

После того как процесс трансформации завершен, данные готовы для перемещения в хранилище данных. Этот процесс носит название – Загрузка ( Loading). После перемещения данных в основное хранилище, они могут быть использованы для аналитических целей.