- O que é a computação em nuvem?›
- Hub de conceitos de computação em nuvem›
- Bancos de dados›
- O que é uma plataforma de integração de dados?
O que é uma plataforma de integração de dados?
O que é uma plataforma de integração de dados?
As organizações modernas criam e usam dados em dezenas a milhares de sistemas e formatos. A integração de dados refere-se ao processo de combinar dados de diferentes sistemas e formatos e normalizá-los para que fiquem mais úteis. Com dados integrados, você pode acessar uma visão única e unificada de todos os dados para o apoio à decisão e geração de relatórios, continuar analisando dados e, consequentemente, ter mais informações para a tomada de decisões.
As empresas precisam de dados consolidados para apoiar o analytics dos negócios, personalizar modelos de machine learning e para outras aplicações corporativas e processos de negócios. A integração de dados envolve coletar, transformar e consolidar dados brutos para que as empresas possam se beneficiar de sua forma coletiva. Por exemplo, dados de transações, número e tipo de contas e registros de atendimento ao cliente ajudam a criar uma visão unificada dos dados do cliente para um banco.
Qual é o processo de integração de dados?
As organizações entendem os benefícios da integração de dados para fluxos de trabalho mais produtivos. Definir o processo de integração de dados ajuda as organizações a alcançar resultados com maior confiabilidade e consistência.
1. Identificar as diferentes fontes de dados
Identifique as várias fontes de dados que precisarão ser integradas, automática ou manualmente. As organizações criam e armazenam dados em vários tipos diferentes de sistemas e formatos de dados. Por exemplo, uma organização pode usar vários tipos de bancos de dados SQL, caches de memória e armazenamentos de documentos. As aplicações dentro da organização podem armazenar dados em formatos proprietários sem acesso direto aos dados externos.
2. Determinar a estratégia de integração
Examine o armazenamento e os formatos de dados relevantes, juntamente com seus requisitos organizacionais, para determinar as melhores maneiras de extrair e transformar os dados em um formato normalizado. Confira algumas estratégias comuns de integração de dados:
- O padrão Extração, Transformação e Carregamento (ETL) extrai dados dos sistemas atuais, transforma os dados e carrega os dados no sistema de destino. O ETL é um padrão comum para armazenamento de data warehouse.
- O padrão Extração, Transformação e Carregamento (ETL) extrai dados dos sistemas atuais, carrega os dados no sistema de destino e transforma os dados. O ETL permite que os dados sejam deixados em um formato não estruturado até que você precise deles para analytics. O ETL é um padrão comum para armazenamento de data lake.
- A ingestão de streaming em tempo real captura dados de fluxos e realiza a ingestão de dados para integração de dados quase em tempo real.
- A captura de dados de alteração (CDC) é o processo de descobrir alterações nos dados e publicá-las em um fluxo de eventos para a ingestão de dados.
Nesse estágio, você também precisará determinar o sistema de armazenamento ou repositório de dados de destino, por exemplo, um data warehouse ou data lake.
3. Projetar o esquema
Descreva o esquema de dados, ou o tipo de armazenamento sem esquema, para o estado final dos dados. O esquema deve ser extensível, versionável e se adequar às expectativas de armazenamento de dados corporativos. O novo esquema deve preservar a qualidade e a precisão dos dados, com as regras de governança de dados correspondentes para integração futura.
4. Extrair os dados
Determine os melhores métodos de extração de dados para minimizar as interrupções nas operações comerciais. Por exemplo, muitas organizações usam a extração em lote após o fechamento dos negócios todos os dias para integrar dados que não são em tempo real. As organizações podem precisar usar APIs para extrair dados para a integração de aplicações proprietárias ou usar serviços como o Amazon AppFlow para transferir dados entre aplicações de software como serviço (SaaS) e a nuvem.
5. Mover os dados para uma loja centralizada
Transporte os dados para uma loja centralizada. Às vezes, a fonte de dados e seu destino estão em locais diferentes, por exemplo, movendo dados de on-premises para a nuvem. A movimentação de dados pode exigir medidas extras de segurança, largura de banda extra ou considerações sobre residência de dados.
6. Transformar os dados
Talvez os dados precisem ser transformados em sua forma final no armazenamento centralizado. Os dados transformados podem ser mais do que uma alteração de formato, por exemplo, calcular uma média de vários pontos de dados.
O que é integração de dados sem servidor?
As empresas estão transferindo seus fluxos de trabalho de dados de infraestruturas locais para plataformas modernas de dados em nuvem. As arquiteturas de nuvem ajudam as organizações a superar as restrições de hardware físico e a oferecer serviços avançados e integráveis de data analytics em nuvem, como business intelligence e IA.
Tecnologia sem servidor é um conceito de computação em nuvem que fornece serviços em nuvem totalmente elásticos e tolerantes a falhas e remove as complexidades do provisionamento de servidores. Tradicionalmente, ao criar um pipeline de dados, você provisiona e mantém servidores e serviços de código para ingestão, transformação e manipulação de dados. Com um produto de integração de dados sem servidor, você tem escalabilidade total sem a sobrecarga de gerenciamento. Os trabalhos são executados até a conclusão, e o serviço fica inativo novamente até a próxima necessidade.
A tecnologia sem servidor é útil para trabalhos de integração de dados sob demanda, com um modelo de pagamento conforme o uso que pode ajudar a reduzir os custos de infraestrutura para empresas.
Por exemplo, o AWS Glue é uma solução de integração de dados sem servidor. O AWS Glue permite que você descubra e se conecte a mais de cem fontes de dados diversas, gerencie seus dados em um catálogo de dados centralizado e crie, execute e monitore visualmente pipelines de dados para carregar dados em seus data lakes, data warehouses e lakehouses.
Com o AWS Glue, você pode usar o mecanismo apropriado de integração de dados para qualquer workload, com base nas características da sua workload e nas preferências dos seus desenvolvedores e analistas. Os trabalhos do AWS Glue podem ser invocados por agendamento, sob demanda ou com base em um evento.
Integração de dados ETL sem servidor com o AWS Glue
Para começar a usar o AWS Glue, inicie o console do AWS Glue Studio. Antes de começar a usar o AWS Glue, configure as políticas e perfis do IAM necessários no console.
Etapa 1: adicionar definições de tabela ao Catálogo de Dados do AWS Glue
Navegue até o Catálogo de Dados. Escolha Adicionar tabela usando o crawler e depois os armazenamentos de dados de origem que você deseja rastrear para fornecer mapeamento de dados de seus esquemas e metadados, a fim de criar definições de dados e tabelas no Catálogo de Dados.
Etapa 2: definir seu trabalho de transformação
Escolha trabalhos ETL no painel de navegação e selecione Criar trabalho usando o ETL Visual. Adicione os nós da fonte e do destino de dados no editor visual e configure os dados. O Glue Studio gera um código na guia Script que transformará os dados na tabela de origem no esquema da tabela de destino.
Etapa 3: executar o trabalho do AWS Glue
Você pode definir os parâmetros para a execução do trabalho com as ferramentas de governança de dados na guia Detalhes do trabalho. Depois de configurar os parâmetros, selecione Salvar e, em seguida, Executar para iniciar os processos de dados para transformação e integração.
Etapa 4: examinar a saída
Na guia Visual, selecione o nó de destino para observar a visualização prévia dos dados, a fim de garantir que dados precisos estejam no nó.
Para obter mais informações, consulte o AWS Glue: guia do usuário.
O que é integração ETL zero?
ETL zero corresponde a um conjunto de integrações que minimiza a necessidade de desenvolver pipelines de dados de ETL. Normalmente, você cria, configura e executa um pipeline de ETL ao transferir dados de fontes de dados para destinos. No entanto, com o método de integração de dados ETL zero, o processo de ETL é automatizado e oculto em um processo de software.
Depois de carregar os dados da origem para o destino pela primeira vez, a replicação adicional dos dados acontece automaticamente sempre que os dados na fonte são atualizados. Esse processo de ETL zero permite pipeline de analytics quase em tempo real.
A AWS tem vários serviços compatíveis com ETL zero, incluindo o Amazon Redshift, o Amazon RDS para MySQL, o Amazon DynamoDB, o Amazon DocumentDB, o Amazon SageMaker, o Amazon CloudWatch, o Amazon OpenSearch Service, o Amazon Security Lake e o Amazon Aurora.
Integração ETL zero com o Amazon Redshift e o Amazon Aurora
O Amazon Redshift é um data warehouse em nuvem que permite às empresas escalar suas workloads de analytics de forma acessível. Enquanto isso, o Amazon Aurora é um banco de dados relacional de alta performance compatível com MySQL e PostgreSQL.
Etapa 1: configurar a fonte de integração
Verifique se seu banco de dados do Amazon Aurora é compatível com a integração ETL zero com o Amazon Redshift. O Amazon Redshift, no momento em que este artigo foi escrito, é compatível com as integrações ETL zero a seguir com o Amazon Aurora .
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
Configure o registro em log binário no Aurora para garantir que você capture as alterações de dados para replicação. Escolha opções de criptografia para dados em repouso e em trânsito para atender aos requisitos de segurança. Por fim, configure as políticas e perfis do IAM necessários para conceder permissões para integração com o Amazon Redshift.
O Amazon Redshift também é compatível com ETL zero com o Amazon RDS para MySQL, Amazon DynamoDB e aplicações como Salesforce, SAP, ServiceNow e Zendesk.
Etapa 2: configurar o destino
Se você não tiver um, inicie um novo cluster do Redshift com as configurações apropriadas de armazenamento e computação. Certifique-se de que o cluster do Amazon Redshift tenha as configurações necessárias de acesso à rede e criptografia. Modifique os grupos de segurança e as configurações da VPC para permitir a conectividade entre o Aurora e o Redshift.
Etapa 3: validar a integração
O Amazon Redshift executa um carregamento inicial de dados do Amazon Aurora. Depois disso, ele monitora automaticamente a fonte e replica os dados atualizados em tempo real. Você pode executar consultas no Amazon Redshift para verificar se os dados correspondem à fonte.
Como a AWS pode atender às suas necessidades de integração de dados?
A integração de dados é fundamental para fornecer às empresas uma visão completa dos dados de várias fontes de dados, alimentando visualizações e analytics avançado. Gerenciar pipelines de integração complexos em fontes de dados não estruturadas, semiestruturadas e estruturadas em crescimento pode ser difícil. A integração de dados na nuvem ajuda a simplificar os fluxos de trabalho de gerenciamento de dados com ferramentas e serviços inovadores de integração de dados, como tecnologia sem servidor e ETL zero. Analise os serviços da AWS que atendem às necessidades modernas de integração de dados aqui.