Überspringen zum Hauptinhalt

Was ist eine Datenintegrationsplattform?

Was ist eine Datenintegrationsplattform?

Moderne Unternehmen erstellen und verwenden Daten in Dutzenden bis Tausenden von Systemen und Formaten. Datenintegration bezeichnet den Prozess der Zusammenführung von Daten aus verschiedenen Systemen und Formaten und deren Normalisierung, um die Daten nutzbarer zu machen. Mit integrierten Daten können Sie auf eine einzige, einheitliche Ansicht aller Daten für die Entscheidungsunterstützung und Berichterstellung zugreifen, die Daten analysieren und somit fundiertere Entscheidungen treffen.

Unternehmen benötigen konsolidierte Daten zum Support von Geschäftsanalytik, zur Anpassung von Machine-Learning-Modellen und für andere Unternehmensanwendungen und Geschäftsprozesse. Die Datenintegration umfasst das Sammeln, Transformieren und Konsolidieren von Rohdaten, damit Unternehmen von deren Gesamtform profitieren können. Beispielsweise helfen Daten aus Transaktionen, Anzahl und Art der Konten sowie Kundendienstaufzeichnungen dabei, eine einheitliche Ansicht der Kundendaten für eine Bank zu erstellen.

Was ist der Datenintegrationsprozess?

Unternehmen sind sich der Vorteile der Datenintegration für produktivere Workflows bewusst. Die Definition des Datenintegrationsprozesses hilft Unternehmen, zuverlässigere und wiederholbare Ergebnisse zu erzielen. 

1. Identifizieren Sie die verschiedenen Datenquellen

Identifizieren Sie die verschiedenen Datenquellen, die automatisch oder manuell integriert werden müssen. Unternehmen erstellen und speichern Daten in vielen verschiedenen Systemen und Datenformaten. Beispielsweise kann ein Unternehmen verschiedene Arten von SQL-Datenbanken, Speicher-Caches und Dokumentenspeichern verwenden. Anwendungen innerhalb des Unternehmens speichern Daten möglicherweise in proprietären Formaten, ohne dass auf diese direkt extern zugegriffen werden kann.

2. Legen Sie die Integrationsstrategie fest

Untersuchen Sie die relevanten Datenspeicher und -formate sowie Ihre Unternehmensanforderungen, um die besten Möglichkeiten zur Extraktion und Umwandlung der Daten in ein normalisiertes Format zu ermitteln. Hier sind einige gängige Datenintegrationsstrategien:

  • Das Extract, Transform, Load (ETL)-Muster extrahiert Daten aus aktuellen Systemen, transformiert die Daten und lädt sie in das Zielsystem. ETL ist ein gängiges Muster für die Data-Warehouse-Speicherung.
  • Das Extract, Load, Transform (ELT)-Muster extrahiert Daten aus aktuellen Systemen, lädt die Daten in das Zielsystem und transformiert die Daten. Mit ELT können die Daten in unstrukturierter Form belassen werden, bis Sie sie für Analytik benötigen. ELT ist ein gängiges Muster für Data Lake Speicher.
  • Die Echtzeit-Streaming-Erfassung erfasst Daten aus Streams und führt die Datenerfassung für eine nahezu Echtzeit-Datenintegration durch.
  • Change Data Capture (CDC) ist der Prozess, bei dem Änderungen an Daten erkannt und diese Änderungen zur Datenerfassung in einem Ereignis-Stream veröffentlicht werden.

In dieser Stufe müssen Sie auch das Zielspeichersystem oder Datenrepository festlegen, beispielsweise ein Data Warehouse oder einen Data Lake.

3. Entwerfen Sie das Schema

Skizzieren Sie das Datenschema oder den schemalosen Speichertyp für den Endzustand der Daten. Das Schema muss erweiterbar und versionierbar sein und den Erwartungen an den Datenspeicher im Unternehmen entsprechen. Das neue Schema sollte die Datenqualität und -genauigkeit bewahren und entsprechende Daten-Governance-Regeln für die zukünftige Integration enthalten.

4. Extrahieren Sie die Daten

Legen Sie die besten Methoden für die Datenextraktion fest, um Störungen des Geschäftsbetriebs zu minimieren. Beispielsweise verwenden viele Unternehmen die Batch-Extraktion nach Geschäftsschluss, um Nicht-Echtzeitdaten zu integrieren. Unternehmen müssen möglicherweise APIs verwenden, um Daten für die Integration proprietärer Anwendungen zu extrahieren, oder Dienste wie Amazon AppFlow nutzen, um Daten zwischen Software-as-a-Service-Anwendungen (SaaS) und der Cloud zu übertragen.

5. Verschieben Sie die Daten in einen zentralen Speicher

Transportieren Sie die Daten in einen zentralen Speicher. Manchmal befinden sich die Datenquelle und ihr Ziel an unterschiedlichen Orten, beispielsweise beim Verschieben von Daten von On-Premises in die Cloud. Die Verschiebung von Daten kann zusätzliche Sicherheitsmaßnahmen, zusätzliche Bandbreite oder Überlegungen zur Datenresidenz erfordern.

6. Transformieren Sie die Daten

Möglicherweise müssen die Daten in den zentralen Speicher in ihre endgültige Form transformiert werden. Die Transformation der Daten kann über eine reine Formatänderung hinausgehen, beispielsweise die Berechnung eines Durchschnittswerts aus mehreren Datenpunkten.

Was ist Serverless-Datenintegration?

Unternehmen verlagern ihren Daten-Workflow von lokalen Infrastrukturen auf moderne Cloud-Datenplattformen. Cloud-Architekturen helfen Unternehmen, physische Hardware-Beschränkungen zu überwinden und bieten fortschrittliche, integrierbare Cloud-Datenanalytik-Services wie Business Intelligence und KI. 

Serverless ist ein Cloud Computing-Konzept, das vollständig elastische, fehlertolerante Cloud-Services bereitstellt und die Komplexität der Serverbereitstellung beseitigt. Traditionell werden bei der Erstellung einer Datenpipeline Server und Code-Dienste für die Datenerfassung, -transformation und -bearbeitung bereitgestellt und gewartet. Mit einem Serverless-Datenintegrationsprodukt verfügen Sie über volle Skalierbarkeit ohne Verwaltungsaufwand. Aufträge werden bis zur Fertigstellung ausgeführt, und der Service bleibt wieder inaktiv, bis er das nächste Mal benötigt wird.

Serverless ist nützlich für On-Demand-Datenintegrationsjobs mit einem Pay-per-Use-Modell, das Unternehmen dabei helfen kann, ihre Infrastrukturkosten zu senken. 

Beispielsweise ist AWS Glue eine Serverless-Datenintegrationslösung. Mit AWS Glue können Sie mehr als 100 verschiedene Datenquellen entdecken und verbinden, Ihre Daten in einem zentralen Datenkatalog verwalten und Datenpipelines visuell erstellen, ausführen und überwachen, um Daten in Ihre Data Lakes, Data Warehouses und Lakehouses zu laden. 

Mit AWS Glue können Sie die geeignete Datenintegrations-Engine für jede Workload verwenden, basierend auf den Eigenschaften Ihrer Workload und den Präferenzen Ihrer Entwickler und Analysten. AWS Glue-Aufträge können nach einem Zeitplan, auf Abruf oder basierend auf einem Ereignis aufgerufen werden.

Serverless ETL-Datenintegration mit AWS Glue

Um AWS Glue zu verwenden, starten Sie die AWS Glue Studio-Konsole. Bevor Sie AWS Glue verwenden, richten Sie die erforderlichen IAM-Richtlinien und -Rollen in der Konsole ein.

Schritt 1 – Hinzufügen von Tabellendefinitionen zum AWS-Glue-Datenkatalog

Navigieren Sie zum AWS-Glue-Datenkatalog. Wählen Sie „Add table using crawler“ (Tabelle mit Crawler hinzufügen) und wählen Sie die Quelldatenspeicher aus, die Sie crawlen möchten, um die Datenzuordnung Ihrer Schemata und Metadaten bereitzustellen und Datendefinitionen und Tabellen im Datenkatalog zu erstellen.

Schritt 2 – Definieren Sie Ihren Transformationsjob

Wählen Sie „ETL jobs“ (ETL-Jobs) im Navigationsbereich und wählen Sie „Create job using Visual ETL“ (Job mit Visual ETL erstellen). Fügen Sie die Datenquellen- und Datenzielknoten im visuellen Editor hinzu und konfigurieren Sie die Daten. Glue Studio generiert auf der Registerkarte „Skript“ Code, der die Daten in der Quelltabelle in das Schema der Zieltabelle transformiert.

Schritt 3 – Führen Sie den AWS Glue-Job aus

Sie können die Parameter für die Jobausführung mit den Daten-Governance-Tools auf der Registerkarte „Jobdetails“ festlegen. Wenn Sie die Parameter konfiguriert haben, wählen Sie „Speichern“ und anschließend „Ausführen“, um die Datenprozesse für die Transformation und Integration zu starten.

Schritt 4 – Überprüfen Sie die Ausgabe

Wählen Sie auf der Registerkarte „Visual“ den Zielknoten aus, um die Datenvorschau anzuzeigen und sicherzustellen, dass sich korrekte Daten im Knoten befinden.

Weitere Informationen finden Sie im AWS Glue: Benutzerhandbuch.

Was ist eine Zero-ETL-Integration?

Zero-ETL ist eine Reihe von Integrationen, die den Bedarf an der Erstellung von ETL-Datenpipelines minimiert. In der Regel erstellen, konfigurieren und führen Sie eine ETL-Pipeline aus, wenn Sie Daten von Datenquellen an Ziele übertragen. Bei der Zero-ETL-Datenintegrationsmethode wird der ETL-Prozess jedoch automatisiert und in einem Softwareprozess versteckt. 

Nachdem die Daten zum ersten Mal von der Quelle zum Ziel geladen wurden, erfolgt die weitere Datenreplikation automatisch bei jeder Aktualisierung der Daten in der Quelle. Dieser Zero-ETL-Prozess ermöglicht Analytik-Pipelines nahezu in Echtzeit.

AWS bietet mehrere AWS-Services, die Zero-ETL unterstützen, darunter Amazon Redshift, Amazon RDS für MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake und Amazon Aurora

Zero-ETL-Integration mit Amazon Redshift und Amazon Aurora

Amazon Redshift ist ein Cloud-Data-Warehouse, mit dem Unternehmen ihre Analytik-Workloads kostengünstig skalieren können. Amazon Aurora ist eine leistungsstarke relationale Datenbank, die mit MySQL und PostgreSQL kompatibel ist. 

Schritt 1 – Konfigurieren Sie die Integrationsquelle 

Vergewissern Sie sich, dass Ihre Amazon Aurora-Datenbank die Zero-ETL-Integration mit Amazon Redshift unterstützt. Amazon Redshift unterstützt zum Zeitpunkt der Erstellung dieses Artikels die folgenden Zero-ETL-Integrationen mit Amazon Aurora.

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

Konfigurieren Sie die Binärprotokollierung in Aurora, um sicherzustellen, dass Sie die Datenänderungen für die Replikation erfassen. Wählen Sie Verschlüsselungsoptionen für Daten im Ruhezustand und während der Übertragung, um die Sicherheitsanforderungen zu erfüllen. Richten Sie abschließend die erforderlichen IAM-Richtlinien und -Rollen ein, um Berechtigungen für die Integration mit Amazon Redshift zu erteilen.

Amazon Redshift bietet auch Zero-ETL Support mit Amazon RDS für MySQL, Amazon DynamoDB und Anwendungen wie Salesforce, SAP, ServiceNow und Zendesk.

Schritt 2 – Konfigurieren Sie das Ziel

Wenn Sie noch keinen haben, starten Sie einen neuen Redshift-Cluster mit geeigneten Speicher- und Rechenkonfigurationen. Stellen Sie sicher, dass der Amazon Redshift-Cluster in der Lage ist, auf die erforderlichen Netzwerkzugriffs- und Verschlüsselungseinstellungen zuzugreifen. Ändern Sie die Sicherheitsgruppen und VPC-Einstellungen, um die Konnektivität zwischen Aurora und Redshift zu ermöglichen.

Schritt 3 – Validieren Sie die Integration

Amazon Redshift führt eine erste Datenladung aus Amazon Aurora durch. Anschließend überwacht es automatisch die Quelle und repliziert aktualisierte Daten in Echtzeit. Sie können Abfragen in Amazon Redshift ausführen, um zu überprüfen, ob die Daten mit der Quelle übereinstimmen.

Wie kann AWS Ihre Datenintegrationsanforderungen unterstützen?

Datenintegration ist entscheidend, um Unternehmen ein vollständiges Bild der Daten aus mehreren Datenquellen zu vermitteln, die in Visualisierungen und erweiterte Analytik einfließen. Die Verwaltung komplexer Integrationspipelines über wachsende unstrukturierte, semistrukturierte und strukturierte Datenquellen hinweg kann schwierig sein. Die Cloud-Datenintegration vereinfacht Datenverwaltungs-Workflows mit innovativen Datenintegrationstools und -diensten wie Serverless und Zero-ETL. Entdecken Sie hier AWS-Services, die den Anforderungen der modernen Datenintegration gerecht werden.