- Что такое облачные вычисления?›
- Центр концепций в сфере облачных вычислений›
- Базы данных›
- Что такое платформа интеграции данных?
Что такое платформа интеграции данных?
Что такое платформа интеграции данных?
Современные организации создают и используют данные в десятках и тысячах систем и форматов. Интеграция данных – это процесс объединения данных из разных систем и разных форматов и их нормализации для повышения их полезности. Интеграция данных обеспечивает единое унифицированное представление всех данных. Это помогает составлять отчеты, анализировать данные и, следовательно, принимать более обоснованные решения.
Компаниям нужны консолидированные данные для поддержки бизнес-аналитики, настройки моделей машинного обучения, а также для других корпоративных приложений и бизнес-процессов. Интеграция данных включает сбор, преобразование и консолидацию необработанных данных, чтобы компании могли извлечь выгоду из их совокупной формы. Например, данные о транзакциях, количестве и типах счетов, а также записи об обслуживании клиентов помогают банку создать единое представление данных о клиентах.
Что такое процесс интеграции данных?
Организации понимают преимущества интеграции данных для повышения производительности рабочих процессов. Определив процесс интеграции данных, организации смогут получать более надежные и воспроизводимые результаты.
1. Определение различных источников данных
Определите несколько источников данных, которые необходимо интегрировать автоматически или вручную. Организации создают и хранят данные в самых разных типах систем и форматах данных. Например, организация может использовать различные типы баз данных SQL, кэши памяти и хранилища документов. Приложения в организации могут хранить данные в собственных форматах без прямого доступа к внешним данным.
2. Определение стратегии интеграции
Изучите соответствующие носители и форматы данных, а также организационные требования, чтобы определить наилучшие способы извлечения и преобразования данных в нормализованный формат. Ниже представлены несколько распространенных стратегий интеграции данных.
- Процесс извлечения, преобразования и загрузки (ETL), при котором данные извлекаются из существующих систем, преобразуются и загружаются в целевую систему. ETL – распространенный процесс для хранения в хранилище данных.
- Процесс извлечения, загрузки и преобразования (ELT), при котором данные извлекаются из существующих систем, загружаются в целевую систему и преобразуются. Процесс ELT позволяет оставлять данные в неструктурированном виде до тех пор, пока они не понадобятся для аналитики. ELT – распространенный процесс для хранения в озере данных.
- Получение потоковых данных в реальном времени, при котором выполняется сбор данных из потоков и их интеграция практически в реальном времени.
- Отслеживание измененных данных (CDC) – процесс обнаружения изменений в данных и публикации этих изменений в потоке событий для получения данных.
На этом этапе также необходимо определить целевую систему хранения или репозиторий данных, например хранилище данных или озеро данных.
3. Разработка схемы
Опишите схему данных или тип хранилища без схемы для конечного состояния данных. Схема должна быть расширяемой, поддерживать версионность и соответствовать требованиям к корпоративным носителям данных. Новая схема должна сохранять качество и точность данных, а также соответствующие правила управления данными для будущей интеграции.
4. Извлечение данных
Определите наилучшие методы извлечения данных, чтобы свести к минимуму перебои в деятельности компании. Например, многие организации в конце рабочего дня выполняют пакетное извлечение данных, чтобы интегрировать данные не в реальном времени. Для извлечения данных в целях интеграции собственных приложений организациям может понадобиться использовать API, а для передачи данных между приложениями типа «программное обеспечение как услуга» (SaaS) и облаком – такие сервисы, как Amazon AppFlow.
5. Перемещение данных в централизованное хранилище
Переместите данные в централизованное хранилище. Иногда источник данных и его место назначения удалены друг от друга, например, при переносе данных из локальной среды в облако. Перемещение данных может потребовать дополнительных мер безопасности, увеличения пропускной способности или учета требований к локализации данных.
6. Преобразование данных
Может потребоваться преобразовать данные в окончательный вид в централизованном хранилище. Преобразование данных может подразумевать не просто изменение формата, а, к примеру, расчет среднего значения по нескольким точкам данных.
Что такое бессерверная интеграция данных?
Компании переносят рабочие процессы обработки данных из локальных инфраструктур на современные облачные платформы данных. Облачные архитектуры помогают организациям преодолеть физические аппаратные ограничения и предлагают передовые интегрируемые облачные сервисы аналитики данных, такие как бизнес-аналитика и искусственный интеллект.
Бессерверность – это концепция облачных вычислений, которая предоставляет полностью эластичные и отказоустойчивые облачные сервисы и устраняет сложности, связанные с выделением серверов. Обычно при создании конвейера данных необходимо предоставлять и обслуживать серверы и службы кода для приема, преобразования и обработки данных. Бессерверный продукт для интеграции данных обеспечивает полную масштабируемость без дополнительных затрат на управление. Задания выполняются до завершения, а сервис снова бездействует до тех пор, пока он не понадобится в следующий раз.
Бессерверная система полезна для задач интеграции данных по требованию, а модель оплаты по факту использования помогает компаниям снизить затраты на инфраструктуру.
AWS Glue является примером бессерверного решения для интеграции данных. AWS Glue позволяет обнаруживать более 100 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры данных для загрузки информации в озера, хранилища и хранилища озер данных.
С помощью AWS Glue вы можете использовать подходящий движок интеграции данных для любой рабочей нагрузки, исходя из ее характеристик, а также предпочтений ваших разработчиков и аналитиков. Задания AWS Glue можно вызывать по расписанию, по запросу или при наступлении события.
Бессерверная интеграция данных ETL с помощью AWS Glue
Для того чтобы начать использовать AWS Glue, запустите консоль AWS Glue Studio. Прежде чем начать использовать AWS Glue, настройте необходимые политики и роли IAM в консоли.
Шаг 1. Добавьте определения таблиц в каталог данных AWS Glue
Перейдите в каталог данных. Выберите «Добавить таблицу» с помощью поискового бота, а затем выберите исходные хранилища данных для сканирования, чтобы обеспечить сопоставление данных схем и метаданных, создать определения данных и таблицы в каталоге данных.
Шаг 2. Определите свою задачу по трансформации
Выберите задания ETL на панели навигации и выберите создание задания с помощью визуального инструмента ETL. Добавьте источник данных и целевые узлы данных в визуальном редакторе и настройте данные. Glue Studio создает код на вкладке «Скрипт», который преобразует данные из исходной таблицы в схему целевой таблицы.
Шаг 3. Запустите задание AWS Glue
Параметры выполнения задания можно задать с помощью инструментов управления данными на вкладке сведений о задании. После настройки параметров нажмите «Сохранить», а затем активируйте выполнение, чтобы запустить процессы преобразования и интеграции данных.
Шаг 4. Изучите выходные данные
На вкладке визуализации выберите целевой узел для предварительного просмотра данных и убедитесь в том, что в узле представлены точные данные.
Дополнительные сведения см. в руководстве пользователя AWS Glue.
Что такое интеграция с нулевым использованием ETL?
Интеграция с нулевым использованием ETL – это набор интеграций, который сводит к минимуму необходимость создания конвейеров данных ETL. Обычно конвейер ETL создается, настраивается и запускается при передаче данных из источников данных в места назначения. Однако при использовании метода интеграции данных без ETL процесс ETL становится автоматизированным и скрывается в программном процессе.
После первой загрузки данных из источника в место назначения дальнейшая репликация данных происходит автоматически при каждом обновлении данных в источнике. Этот процесс без ETL позволяет использовать конвейеры аналитики практически в режиме реального времени.
У AWS есть множество сервисов поддерживающих интеграцию без ETL, включая Amazon Redshift, Amazon RDS для MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Сервис Amazon OpenSearch, Amazon Security Lake и Amazon Aurora.
Интеграция с нулевым использованием ETL для Amazon Redshift и Amazon Aurora
Amazon Redshift – это облачное хранилище данных, которое позволяет компаниям в доступной манере масштабировать аналитические рабочие нагрузки. Amazon Aurora – это высокопроизводительная реляционная база данных, совместимая с MySQL и PostgreSQL.
Шаг 1. Настройка источника интеграции
Убедитесь в том, что база данных Amazon Aurora поддерживает интеграцию с нулевым использованием ETL с Amazon Redshift. На момент написания статьи Amazon Redshift поддерживает перечисленные ниже интеграции с нулевым использованием ETL с Amazon Aurora.
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
Настройте двоичное ведение журнала в Aurora, чтобы сохранить изменения данных для репликации. Выберите варианты шифрования хранимых и передаваемых данных в соответствии с требованиями безопасности. Наконец, настройте необходимые политики и роли IAM для предоставления разрешений на интеграцию с Amazon Redshift.
Amazon Redshift также поддерживает нулевое использование ETL с помощью Amazon RDS для MySQL, Amazon DynamoDB и таких приложений, как Salesforce, SAP, ServiceNow и Zendesk.
Шаг 2. Настройка места назначения
Запустите новый кластер Redshift (если он не создавался ранее) с соответствующими конфигурациями хранения и вычислительных ресурсов. Убедитесь в том, что кластер Amazon Redshift имеет необходимые настройки доступа к сети и шифрования. Измените группы безопасности и настройки VPC, чтобы разрешить подключение между Aurora и Redshift.
Шаг 3. Подтверждение интеграции
Amazon Redshift выполняет первоначальную загрузку данных из Amazon Aurora. После этого решение автоматически отслеживает источник и реплицирует обновленные данные в режиме реального времени. В Amazon Redshift можно выполнять запросы, чтобы убедиться соответствии данных источнику.
Как AWS может удовлетворить ваши потребности в интеграции данных?
Интеграция данных играет ключевую роль в предоставлении компаниям полной картины данных из нескольких источников данных, которая затем используется в визуализациях и расширенной аналитике. Управлять сложными интеграционными конвейерами в условиях растущего количества неструктурированных, полуструктурированных и структурированных источников данных может быть непростой задачей. Интеграция облачных данных помогает упростить рабочие процессы управления данными с помощью инновационных инструментов и сервисов интеграции данных, таких как бессерверные интеграции и интеграции без ETL. С сервисами AWS, которые отвечают современным требованиям интеграции данных, можно ознакомиться здесь.