Amazon DataZone: Datenerkennung automatisieren

Übersicht

Entfernen Sie die Zeit für die manuelle Eingabe von Datenattributen in den Datenkatalog, was ebenfalls zu potenziellen Fehlern führen kann. Generieren Sie den Geschäftskontext und empfehlen Sie Analysen für Datensätze, wodurch die Ergebnisse der Datenerfassung verbessert werden. Erfahren Sie, woher Ihre Daten stammen und welche Quellen von Änderungen betroffen sein werden. Mehr, umfangreichere Daten im Geschäftsdatenkatalog verbessern auch das Sucherlebnis. Reduzieren Sie Ihre Zeit für die Suche und Nutzung von Daten von Wochen auf Tage.

Anwendungsfälle

Reduzieren Sie Ihre Zeit, um Erkenntnisse zu gewinnen, indem Sie die richtigen Daten im richtigen Kontext finden. Daten können nur dann vertrauenswürdig sein, wenn sie konsistent, genau, vollständig, aktuell und rückverfolgbar sind und eine transparente Datenqualitäts-Bewertung aufweisen. Bei verteilter Eigentümerschaft sorgt jede Abteilung oder das Analyseteam dafür, dass die Daten originalgetreu sind, sodass Datennutzer wissen, dass sie die richtigen Daten verwenden.

Erstellen Sie einen Geschäftsdatenkatalog, indem Sie Ihre Ressourcen crawlen und die technischen Metadaten (nicht die eigentlichen Daten) hinzufügen, um sie mit dem Geschäftskontext anzureichern. Der Geschäftskontext kann mit standardisierten Glossaren und Begriffen bereichert werden. Sie können auch zusätzliche Metadaten mit Metadatenformularen anpassen.

Die Verwendung der richtigen Daten erfordert das Verständnis des Datenkontextes. Amazon DataZone hilft dabei, diesen Kontext für alle Daten zu erstellen, die mit Glossaren und Metadatenformularen katalogisiert sind. Jetzt kann der Dateneigentümer so viele Informationen wie möglich teilen, um den Datenkontext festzulegen, in dem der Datenkonsument Daten finden, verstehen und dann abonnieren kann. Die Datenqualitäts-Bewertung hilft Datenverbrauchern zu verstehen, ob ein Datenbestand für den jeweiligen Zweck geeignet ist.

Reduzieren Sie den Zeitaufwand für die Kartierung von Datenbeständen und ihren Beziehungen, die Problembehandlung und Entwicklung von Pipelines sowie die Durchsetzung von Data-Governance-Praktiken. Durch ein grafisches Erlebnis verstehen Datenkonsumenten den Ursprung des Assets. Datenproduzenten können die Auswirkungen von Änderungen an einer Tabelle oder Spalte beurteilen, indem sie verstehen, welche Systeme oder Datenkonsumenten die Daten verwenden (Auswirkungsanalyse). Datenproduzenten können Datenprobleme auch beheben, indem sie Schnappschüsse der Herkunft eines Datenbestands überprüfen, um die Fehlerquelle zu ermitteln. Amazon DataZone visualisiert Datenherkunft, die aus OpenLineage-Ereignissen, einem offenen Standard für die Erfassung von Abstammungsdaten, erfasst wurde, kann aber auch benutzerdefinierte Abstammungszuordnungen erfassen. Die Herkunft hilft Datenproduzenten dabei, die Datenherkunft beim Teilen der Daten mit einzubeziehen, was das Vertrauen in die Datenquellen erhöht.

Videos

AWS re:Invent 2023 – Erstellen eines Geschäftskatalogs mit Amazon DataZone (21:37)
AWS re:Invent 2023 – Verständnis Ihrer Daten im Geschäftskontext (55:40)

Häufig gestellte Fragen

Welche Art Informationen befinden sich im Geschäftsdatenkatalog von Amazon DataZone?

Im Amazon DataZone Katalog für Geschäftsdaten liefern Geschäftsmetadaten Informationen, die von Geschäftsleuten verfasst oder verwendet werden, und geben den Unternehmensdaten einen Kontext. Dies könnte die folgenden Informationen beinhalten:

  • Eigenverantwortung: Moderne datenorientierte Organisationen verwenden einen verteilten Datenverwaltungsprozess, bei dem die Geschäftsbereiche (LOBs) für die Verwaltung ihrer eigenen Daten verantwortlich sind. In einem Katalog werden die Eigentumsverhältnisse erfasst, sodass interessierte Parteien im Rahmen ihrer Geschäftsaufgaben nach Daten suchen und Zugriff darauf beantragen können.
  • Klassifizierung: Die Datenermittlung ist eine wichtige Aufgabe, die Geschäftsmetadaten unterstützen können. Datenerkennung verwendet zentral definierte Unternehmens-Ontologien und Taxonomien, um Datenquellen zu klassifizieren, und hilft Ihnen, relevante Datenobjekte zu finden.
  • Beziehungen: Sie können den Amazon-DataZone-Geschäftsdatenkatalog verwenden, um Beziehungsinformationen als Metadaten hinzuzufügen. Wie bei einem technischen Datensatzschema zeigt der Geschäftsdatenkatalog Beziehungen zwischen Objekten im Katalog, z. B. zwischen Datenbanken, Datensätzen und ihren Spalten.
  • Schema: KI-Empfehlungen für Beschreibungen können das technische und geschäftliche Schema verwenden, um empfohlene Beschreibungen und Verwendungen für Daten zu generieren.
  • Herkunft und Verbrauch: Im Geschäftsdatenkatalog besteht eine Verknüpfung mit Analysen von Datenherkunft und -wirkung sowie mit benutzerdefinierten Mappings von OpenLineage.

Was kann ich mit Amazon DataZone katalogisieren?

Amazon DataZone unterstützt Datenbestände, die direkt aus dem AWS-Glue-Datenkatalog und Amazon Redshift veröffentlicht wurden. Diese beiden Quellen können verwendet werden, um Daten an den folgenden Orten zu katalogisieren:

  • Amazon-Simple-Storage-Service-Data-Lakes (Amazon S3)
  • Viele der speziell von AWS entwickelten Datenbanken, wie Amazon Relational Database Service (Amazon RDS), werden über einen AWS-Glue-Crawler bereitgestellt
  • Über 100 Amazon-AppFlow-Konnektoren zur Einbindung von Daten aus Drittanbieteranwendungen wie Snowflake, Salesforce und Google Analytics