- Cos'è il cloud computing?›
- Hub dei concetti di cloud computing›
- Database›
- Cos'è una piattaforma di integrazione dei dati?
Cos'è una piattaforma di integrazione dei dati?
Cos'è una piattaforma di integrazione dei dati?
Le organizzazioni moderne creano e utilizzano dati in decine o migliaia di sistemi e formati. L'integrazione dei dati si riferisce al processo di combinazione di dati provenienti da sistemi e formati diversi e di normalizzazione per renderli più utili. Con i dati integrati, è possibile accedere a una vista unica e unificata di tutti i dati per il supporto decisionale e il reporting, procedere all'analisi dei dati e, di conseguenza, essere più informati per il processo decisionale.
Le aziende hanno bisogno di dati consolidati per supportare l'analisi aziendale, personalizzare i modelli di machine learning e per altre applicazioni e processi aziendali. L'integrazione dei dati implica la raccolta, la trasformazione e il consolidamento dei dati grezzi in modo che le aziende possano trarre vantaggio dalla loro forma collettiva. Ad esempio, i dati delle transazioni, il numero e il tipo di conti e i record del servizio clienti aiutano a creare una visione unificata dei dati dei clienti per una banca.
Cos'è il processo di integrazione dei dati?
Le organizzazioni comprendono i vantaggi dell'integrazione dei dati per flussi di lavoro più produttivi. La definizione del processo di integrazione dei dati aiuta le organizzazioni a produrre risultati più affidabili e ripetibili.
1. Identificare le diverse origini dati
Identificare le molteplici origini dati che dovranno essere integrate, automaticamente o manualmente. Le organizzazioni creano e archiviano dati in diversi tipi di sistemi e formati di dati. Ad esempio, un'organizzazione potrebbe utilizzare vari tipi di database SQL, cache di memoria e archivi di documenti. Le applicazioni all'interno dell'organizzazione potrebbero archiviare i dati in formati proprietari senza un semplice accesso esterno ai dati.
2. Determinare la strategia di integrazione
Esaminare l'archiviazione e i formati dei dati pertinenti, insieme ai requisiti organizzativi, per determinare i modi migliori per estrarre e trasformare i dati in un formato normalizzato. Ecco alcune strategie comuni di integrazione dei dati:
- Il pattern Extract, Transform, Load (ETL) estrae i dati dai sistemi attuali, li trasforma e li carica nel sistema di destinazione. L'ETL è un modello comune per l'archiviazione dei data warehouse.
- Il pattern Extract, Load, Transform (ELT) estrae i dati dai sistemi attuali, li carica nel sistema di destinazione e li trasforma. L'ELT consente di lasciare i dati in una forma non strutturata fino a quando non sono necessari per l'analisi. L'ELT è un modello comune per l’archiviazione dei data lake.
- L'inserimento in streaming in tempo reale acquisisce i dati dai flussi ed esegue l'ingestione dei dati per un'integrazione dei dati quasi in tempo reale.
- L'acquisizione dei dati di modifica (CDC) è il processo di scoperta delle modifiche ai dati e di pubblicazione di tali modifiche in un flusso di eventi per l'importazione dei dati.
In questa fase, sarà anche necessario determinare il sistema di archiviazione o il repository di dati di destinazione, ad esempio un data warehouse o un data lake.
3. Progettare lo schema
Delineare lo schema dei dati, o il tipo di archiviazione senza schema, per lo stato finale dei dati. Lo schema deve essere estensibile, modificabile e adattarsi alle aspettative di archiviazione dei dati aziendali. Il nuovo schema dovrebbe preservare la qualità e l'accuratezza dei dati, con le corrispondenti regole di governance dei dati per l'integrazione futura.
4. Estrarre i dati
Determinare i metodi migliori per l'estrazione dei dati al fine di ridurre al minimo le interruzioni delle operazioni aziendali. Ad esempio, molte organizzazioni utilizzano l'estrazione in batch ogni giorno dopo la chiusura dell'attività per integrare dati non in tempo reale. Le organizzazioni potrebbero dover utilizzare le API per estrarre dati per l'integrazione di applicazioni proprietarie o utilizzare servizi come Amazon AppFlow per trasferire dati tra applicazioni Software as a Service (SaaS) e il cloud.
5. Spostare i dati in un archivio centralizzato
Trasportare i dati in un archivio centralizzato. A volte l'origine e la destinazione dei dati si trovano in luoghi diversi, ad esempio quando si spostano i dati dall'ambiente on-premises al cloud. Lo spostamento dei dati può richiedere misure di sicurezza aggiuntive, larghezza di banda aggiuntiva o considerazioni sulla residenza dei dati.
6. Trasformare i dati
Potrebbe essere necessario trasformare i dati nella loro forma definitiva nell'archivio centralizzato. I dati trasformati possono essere più di una semplice modifica del formato, ad esempio il calcolo di una media da più punti dati.
Cos’è l’integrazione di dati serverless?
Le aziende stanno spostando i flussi di lavoro dei dati dalle infrastrutture in loco alle moderne piattaforme di dati cloud. Le architetture cloud aiutano le organizzazioni a superare i vincoli hardware fisici e offrono servizi di analisi dei dati cloud avanzati e integrabili, come business intelligence e IA.
Serverless è un concetto di cloud computing che fornisce servizi cloud completamente elastici e tolleranti ai guasti e rimuove le complessità del provisioning dei server. Tradizionalmente, quando si crea una pipeline di dati, si forniscono e si gestiscono server e servizi di codice per l'importazione, la trasformazione e la manipolazione dei dati. Con un prodotto di integrazione dei dati serverless, è disponibile una scalabilità completa senza costi di gestione. I lavori vengono eseguiti fino al completamento e il servizio rimane nuovamente inattivo fino a quando non sarà necessario successivamente.
Serverless è utile per i lavori di integrazione dei dati su richiesta, con un modello pay-per-use che può aiutare a ridurre i costi di infrastruttura per le aziende.
Ad esempio, AWS Glue è una soluzione di integrazione dei dati serverless. AWS Glue consente di scoprire e connettersi con più di 100 diverse origini dati, gestire i dati in un catalogo centralizzato e creare, eseguire e monitorare visivamente le pipeline di dati per caricare dati nei data lake, data warehouse e lakehouse.
Con AWS Glue, puoi utilizzare il motore di integrazione dati appropriato per qualsiasi carico di lavoro in base alle sue caratteristiche e alle preferenze di sviluppatori e analisti. I processi di AWS Glue possono essere programmati in base a pianificazioni, avviati on demand oppure attivati da eventi.
Integrazione dei dati ETL serverless con AWS Glue
Per iniziare a usare AWS Glue, avviare la console AWS Glue Studio. Prima di iniziare a usare AWS Glue, configurare le policy e i ruoli IAM necessari nella console.
Fase 1: aggiungere le definizioni delle tabelle al Catalogo dati AWS Glue
Accedi al Catalogo dati. Scegliere Aggiungi tabella tramite crawler e scegliere gli archivi dell’origine dati da sottoporre a scansione per fornire la mappatura dei dati degli schemi e dei metadati, per creare definizioni di dati e tabelle nel catalogo dati.
Fase 2: definire il processo di trasformazione
Scegliere lavori ETL dal pannello di navigazione e selezionare Crea lavoro utilizzando ETL visivo. Aggiungere i nodi di origine e destinazione dei dati nell'editor visivo e configurare i dati. Glue Studio genera codice nella scheda Script che trasformerà i dati nella tabella di origine nello schema della tabella di destinazione.
Fase 3: eseguire il lavoro AWS Glue
È possibile impostare i parametri per l'esecuzione del processo con gli strumenti di governance dei dati nella scheda Dettagli del lavoro. Dopo aver configurato i parametri, selezionare Salva, quindi selezionare Esegui per avviare i processi di trasformazione e integrazione dei dati.
Fase 4: esaminare l'output
Nella scheda Visual, selezionare il nodo di destinazione per osservare l'anteprima dei dati, per assicurarti che nel nodo siano presenti dati accurati.
Per ulteriori informazioni, consultare AWS Glue: guida per l’utente.
Cos'è l'integrazione Zero-ETL?
Zero-ETL è un insieme di integrazioni che riduce al minimo la necessità di creare pipeline di dati ETL. In genere, si crea, configura ed esegue una pipeline ETL durante il trasferimento dei dati dalle origini dati alle destinazioni. Tuttavia, con il metodo di integrazione dei dati zero-ETL, il processo ETL è automatizzato e nascosto all'interno di un processo software.
Dopo aver caricato i dati dall'origine alla destinazione per la prima volta, un'ulteriore replica dei dati avviene automaticamente ogni volta che i dati nell'origine vengono aggiornati. Questo processo zero-ETL consente pipeline di analisi quasi in tempo reale.
AWS offre diversi servizi che supportano zero-ETL, tra cuiAmazon Redshift, Amazon RDS per MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Servizio OpenSearch di Amazon, Amazon Security Lake e Amazon Aurora.
Integrazione Zero-ETL con Amazon Redshift e Amazon Aurora
Amazon Redshift è un data warehouse cloud che consente alle aziende di scalare i propri carichi di lavoro di analisi in modo conveniente. Nel frattempo, Amazon Aurora è un database relazionale ad alte prestazioni compatibile con MySQL e PostgreSQL.
Fase 1: configurare l’origine di integrazione
Verificare che il database Amazon Aurora supporti l'integrazione zero-ETL con Amazon Redshift. Amazon Redshift supporta le seguenti integrazioni zero-ETL con Amazon Aurora al momento della scrittura.
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
Configurare la registrazione binaria in Aurora per assicurarsi di acquisire le modifiche ai dati per la replica. Scegliere le opzioni di crittografia per i dati a riposo e in transito per soddisfare i requisiti di sicurezza. Infine, configurare le policy e i ruoli IAM necessari per concedere le autorizzazioni per l'integrazione con Amazon Redshift.
Amazon Redshift supporta inoltre zero-ETL con Amazon RDS per MySQL, Amazon DynamoDB e applicazioni come Salesforce, SAP, ServiceNow e Zendesk.
Fase 2: configurare la destinazione
Se non se ne ha uno, avviare un nuovo cluster Redshift con configurazioni di archiviazione ed elaborazione appropriate. Assicurarsi che il cluster Amazon Redshift disponga delle impostazioni di accesso alla rete e crittografia necessarie. Modificare i gruppi di sicurezza e le impostazioni VPC per consentire la connettività tra Aurora e Redshift.
Fase 3: convalida dell'integrazione
Amazon Redshift esegue un caricamento iniziale di dati da Amazon Aurora. Successivamente, monitora automaticamente l’origine e replica i dati aggiornati in tempo reale. È possibile eseguire query in Amazon Redshift per verificare che i dati corrispondano all’origine.
In che modo AWS supporta le esigenze di integrazione dei dati?
L'integrazione dei dati è fondamentale per fornire alle aziende un quadro completo dei dati provenienti da più origini dati, alimentando visualizzazioni e analisi avanzate. La gestione di pipeline di integrazione complesse tra origini dati non strutturate, semi-strutturate e strutturate in crescita può essere difficile. L'integrazione dei dati nel cloud aiuta a semplificare i flussi di lavoro di gestione dei dati con strumenti e servizi di integrazione dei dati innovativi, come serverless e zero-ETL. Esplora i servizi AWS che soddisfano le moderne esigenze di integrazione dei dati qui.