- Qu’est-ce que le cloud computing ?›
- Hub des concepts de cloud computing›
- Bases de données›
- Qu’est-ce qu’une plateforme d’intégration de données ?
Qu’est-ce qu’une plateforme d’intégration de données ?
Sujets de la page
Qu’est-ce qu'une plateforme d’intégration de données ?
Les organisations modernes créent et utilisent des données sur des dizaines, voire des milliers de systèmes et de formats. L’intégration des données fait référence au processus qui consiste à combiner des données provenant de différents systèmes et formats et à les normaliser pour les rendre plus utiles. Grâce aux données intégrées, vous pouvez accéder à une vue unique et unifiée de toutes les données à des fins d’aide à la décision et de reporting, puis analyser les données et, par conséquent, être mieux informé pour la prise de décisions.
Les entreprises ont besoin de données consolidées pour prendre en charge les analytiques commerciales, personnaliser les modèles de machine learning et pour d’autres applications et processus métier d’entreprise. L’intégration des données implique la collecte, la transformation et la consolidation des données brutes afin que les entreprises puissent bénéficier de leur forme collective. Par exemple, les données relatives aux transactions, au nombre et au type de comptes, ainsi que les enregistrements du service client permettent de créer une vue unifiée des données clients pour une banque.
En quoi consiste le processus d’intégration des données ?
Les entreprises comprennent les avantages de l’intégration des données pour des flux de travail plus productifs. La définition du processus d’intégration des données aide les organisations à produire des résultats plus fiables et reproductibles.
1. Identifier les différentes sources de données
Identifiez les multiples sources de données qui devront être intégrées, automatiquement ou manuellement. Les organisations créent et stockent des données dans de nombreux types de systèmes et de formats de données. Par exemple, une organisation peut utiliser différents types de bases de données SQL, de caches mémoire et de magasins de documents. Les applications au sein de l’organisation peuvent stocker des données dans des formats propriétaires sans accès direct aux données externes.
2. Déterminer la stratégie d’intégration
Examinez le stockage et les formats de données pertinents, ainsi que les exigences de votre organisation, afin de déterminer les meilleurs moyens d’extraire et de transformer les données dans un format normalisé. Voici quelques stratégies courantes d’intégration de données :
- Le modèle extraction, transformation et chargement (ETL) extrait les données des systèmes actuels, les transforme et les charge dans le système cible. L’ETL est un modèle courant pour le stockage des entrepôts de données.
- Le modèle extraction, transformation et chargement (ELT) extrait les données des systèmes actuels, charge les données dans le système cible et les transforme. L’ELT permet de conserver les données sous une forme non structurée jusqu’à ce que vous en ayez besoin à des fins d’analytique. L’ELT est un modèle courant pour le stockage des lacs de données.
- L’ingestion de flux en temps réel capture les données des flux et effectue l’ingestion de données pour une intégration des données en temps quasi réel.
- La capture des données sur les modifications (CDC) est le processus qui permet de découvrir les modifications apportées aux données et de publier ces modifications dans un flux d’événements à des fins d’ingestion de données.
Au cours de cette étape, vous devrez également déterminer le système de stockage ou le référentiel de données cible, par exemple un entrepôt de données ou un lac de données.
3. Concevoir le schéma
Décrivez le schéma de données, ou le type de stockage sans schéma, pour l’état final des données. Le schéma doit être extensible, versionnable et correspondre aux attentes de l’entreprise en matière de stockage des données. Le nouveau schéma devrait préserver la qualité et la précision des données, avec les règles de gouvernance des données correspondantes pour l’intégration future.
4. Extraire les données
Déterminez les meilleures méthodes d’extraction des données afin de minimiser les perturbations des opérations commerciales. Par exemple, de nombreuses organisations utilisent l’extraction par lots chaque jour après la fermeture des bureaux pour intégrer des données non en temps réel. Les entreprises peuvent avoir besoin d’utiliser des API pour extraire des données afin d’intégrer des applications propriétaires, ou d’utiliser des services tels qu’Amazon AppFlow pour transférer des données entre des applications logiciel en tant que service (SaaS) et le cloud.
5. Transférer les données vers un magasin centralisé
Transportez les données vers un magasin centralisé. Parfois, la source de données et sa destination se trouvent à des emplacements différents, par exemple lorsqu’il s’agit de déplacer des données depuis sur site vers le cloud. Le transfert de données peut nécessiter des mesures de sécurité supplémentaires, une bande passante supplémentaire ou des considérations relatives à la résidence des données.
6. Transformer les données
Les données peuvent avoir besoin d’être transformées dans leur forme finale dans le magasin centralisé. Les données transformées peuvent être plus qu’un simple changement de format, par exemple le calcul d’une moyenne à partir de plusieurs points de données.
Qu’est-ce que l’intégration de données sans serveur ?
Les entreprises font passer leurs flux de données d’infrastructures sur site à des plateformes de données cloud modernes. Les architectures cloud aident les entreprises à surmonter les contraintes matérielles physiques et proposent des services d’analytique des données cloud avancés et intégrables, tels que la business intelligence et l’IA.
Sans serveur est un concept de cloud computing qui fournit des services cloud totalement élastiques et tolérants aux pannes et élimine les complexités liées à l’approvisionnement des serveurs. Généralement, lors de la création d’un pipeline de données, vous provisionnez et gérez des serveurs et des services de code pour l’ingestion, la transformation et la manipulation des données. Avec un produit d’intégration de données sans serveur, vous bénéficiez d’une capacité de mise à l’échelle totale sans frais de gestion. Les tâches sont exécutées jusqu’à leur achèvement, et le service est de nouveau inactif jusqu’à ce que vous en ayez besoin.
Sans serveur est utile pour les tâches d’intégration de données à la demande, grâce à un modèle de paiement à l’utilisation qui peut contribuer à réduire les coûts d’infrastructure pour les entreprises.
Par exemple, AWS Glue est une solution d’intégration de données sans serveur. AWS Glue vous permet de découvrir et de vous connecter à plus de 100 sources de données différentes, de gérer vos données dans un catalogue de données centralisé et de créer, exécuter et surveiller visuellement des pipelines de données pour charger des données dans vos lacs de données, entrepôts de données et lakehouses.
Avec AWS Glue, vous pouvez utiliser le moteur d’intégration de données adapté à chaque charge de travail, en fonction des caractéristiques de votre charge de travail et des préférences de vos développeurs et analystes. Les tâches AWS Glue peuvent être invoquées de manière planifiée, à la demande, ou en fonction d’un événement.
Intégration de données ETL sans serveur avec AWS Glue
Pour commencer à utiliser AWS Glue, démarrez la console AWS Glue Studio. Avant de commencer à utiliser AWS Glue, configurez les politiques et les rôles IAM nécessaires dans la console.
Étape 1 - Ajouter des définitions de tables au catalogue de données AWS Glue
Accédez au catalogue de données. Choisissez Ajouter une table à l’aide d’un robot d’exploration et choisissez les magasins de données source que vous souhaitez analyser pour fournir un mappage des données de vos schémas et de vos métadonnées, afin de créer des définitions de données et des tables dans le catalogue de données.
Étape 2 - Définir votre tâche de transformation
Choisissez des tâches ETL dans le volet de navigation et sélectionnez Créer une tâche à l’aide de l’ETL visuel. Ajoutez les nœuds de source de données et de cible de données dans l’éditeur visuel et configurez les données. Glue Studio génère du code dans l’onglet Script qui transformera les données de la table source en schéma de la table cible.
Étape 3 - Exécuter la tâche AWS Glue
Vous pouvez définir les paramètres de la tâche exécutée à l’aide des outils de gouvernance des données dans l’onglet Détails de la tâche. Lorsque vous avez configuré les paramètres, sélectionnez Enregistrer, puis sélectionnez Exécuter pour lancer les processus de transformation et d’intégration des données.
Étape 4 - Examiner la sortie
Dans l’onglet Visuel, sélectionnez le nœud cible pour observer l’aperçu des données, afin de vous assurer que des données précises se trouvent dans le nœud.
Pour plus d’informations, consultez le guide de l’utilisateur d’AWS Glue.
Qu’est-ce que l'intégration zéro ETL ?
Sans extraction, transformation ni chargement (sans ETL) est un ensemble d’intégrations qui minimise la nécessité de créer des pipelines de données ETL. Généralement, vous créez, configurez et exécutez un pipeline ETL lorsque vous transférez des données depuis des sources de données vers des destinations. Cependant, avec la méthode d’intégration de données sans extraction, transformation ni chargement (sans ETL), le processus ETL est automatisé et masqué dans un processus logiciel.
Après avoir chargé les données de la source vers la destination pour la première fois, la réplication des données se poursuit automatiquement chaque fois que les données de la source sont mises à jour. Ce processus sans extraction, transformation ni chargement (sans ETL) permet des pipelines d’analytique en temps quasi réel.
AWS propose de nombreux services prenant en charge sans extraction, transformation ni chargement (sans ETL), notamment Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake et Amazon Aurora.
Intégration zéro ETL avec Amazon Redshift et Amazon Aurora
Amazon Redshift est un entrepôt de données dans le cloud qui permet aux entreprises de mettre à l’échelle leurs charges de travail analytiques de manière abordable. Amazon Aurora est quant à elle une base de données relationnelle performante compatible avec MySQL et PostgreSQL.
Étape 1 : configuration de la source d’intégration
Vérifiez que votre base de données Amazon Aurora prend en charge l’intégration zéro ETL avec Amazon Redshift. Au moment de la rédaction de cet article, Amazon Redshift prend en charge les intégrations zéro ETL suivantes avec Amazon Aurora.
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
Configurez la journalisation binaire dans Aurora pour vous assurer de capturer les modifications de données pour la réplication. Choisissez des options de chiffrement pour les données au repos et en transit afin de répondre aux exigences de sécurité. Enfin, configurez les politiques et les rôles IAM nécessaires pour accorder les autorisations nécessaires à l’intégration avec Amazon Redshift.
Amazon Redshift ne prend également en charge zéro ETL avec Amazon RDS for MySQL, Amazon DynamoDB et des applications telles que Salesforce, SAP, ServiceNow et Zendesk.
Étape 2 : configuration de la destination
Si vous n’en avez pas, lancez un nouveau cluster Redshift avec des configurations de stockage et de calcul appropriées. Assurez-vous que le cluster Amazon Redshift possède les paramètres d’accès réseau et de chiffrement nécessaires. Modifiez les groupes de sécurité et les paramètres VPC pour autoriser la connectivité entre Aurora et Redshift.
Étape 3 : valider l’intégration
Amazon Redshift effectue un chargement initial de données depuis Amazon Aurora. Ensuite, il surveille automatiquement la source et réplique les données mises à jour en temps réel. Vous pouvez exécuter des requêtes dans Amazon Redshift pour vérifier que les données correspondent à la source.
Comment AWS peut-il répondre à vos besoins en matière d’intégration de données ?
L’intégration des données est essentielle pour fournir aux entreprises une image complète des données provenant de plusieurs sources de données, afin d’alimenter les visualisations et les analytiques avancées. La gestion de pipelines d’intégration complexes entre des sources de données non structurées, semi-structurées et structurées de plus en plus nombreuses peut s’avérer difficile. L’intégration des données dans le cloud permet de simplifier les flux de gestion des données grâce à des outils et services d’intégration de données innovants, tels que sans serveur et sans extraction, transformation ni chargement (sans ETL). Découvrez ici les services AWS qui répondent aux besoins modernes en matière d’intégration de données.