- Analisi dei dati›
- AWS Clean Rooms›
- Domande frequenti
Domande frequenti su AWS Clean Rooms
Generali
Apri tuttoAWS Clean Rooms semplifica l'analisi e la collaborazione su set di dati collettivi per l’utente e i propri partner, allo scopo di ottenere nuovi approfondimenti senza rivelare reciprocamente i dati sottostanti. Con pochi passaggi è possibile creare camere bianche personali in pochi minuti e iniziare ad analizzare i set di dati collettivi insieme ai partner con pochi passaggi. Con AWS Clean Rooms, puoi collaborare facilmente con qualsiasi azienda in AWS e Snowflake, senza che nessuna parte debba spostare, rivelare o copiare i set di dati sottostanti.
Le collaborazioni in AWS Clean Rooms sono confini logici sicuri che consentono ai membri della collaborazione di eseguire SQL, Spark SQL e analisi PySpark ed eseguire modellazioni ML senza condividere dati non elaborati con i loro partner. Solo le aziende che sono state invitate alla collaborazione possono aderire e più partecipanti possono contribuire con dati a una collaborazione Clean Rooms.
Dalla Console di gestione AWS, si può scegliere il tipo di analisi che si desidera eseguire, i partner con cui collaborare e quali set di dati si desidera contribuiscano a una collaborazione. Con AWS Clean Rooms puoi eseguire tre tipi di analisi: SQL, analisi PySpark e machine learning.
AWS Clean Rooms offre un motore di analisi basato su Spark SQL per eseguire query in una collaborazione Clean Rooms. AWS Clean Rooms Spark SQL offre dimensioni di calcolo configurabili per fornire una maggiore flessibilità di personalizzazione e allocazione delle risorse al fine di eseguire query SQL in base ai requisiti di prestazioni, scala e costi. Durante l'esecuzione di query SQL, AWS Clean Rooms legge i dati dal luogo in cui risiedono e applica regole di analisi integrate e flessibili per aiutarti a mantenere il controllo dei dati. AWS Clean Rooms offre un'ampia gamma di controlli di SQL per la tutela della privacy, inclusi i controlli delle query, le restrizioni sull'output delle query e la loro registrazione, che ti consentono di personalizzare le restrizioni sulle query eseguite da ogni partecipante alla camera bianca. Privacy differenziale di AWS Clean Rooms aiuta a proteggere la privacy degli utenti con controlli intuitivi e supportati matematicamente in pochi clic. Puoi utilizzare Privacy differenziale di AWS Clean Rooms configurando i parametri di privacy differenziale desiderati durante l'esecuzione delle query. Inoltre, il Computing crittografico per Clean Rooms (C3R) aiuta a mantenere crittografati i dati sensibili durante le analisi SQL.
PySpark in AWS Clean Rooms consente alle aziende e ai relativi partner di eseguire analisi sofisticate su set di dati di grandi dimensioni tramite PySpark, l'API Python per Apache Spark. Con PySpark in AWS Clean Rooms, tu e i tuoi partner potete portare il codice e le librerie PySpark a una collaborazione con AWS Clean Rooms ed eseguire analisi avanzate senza dover condividere dati sottostanti o metodi di analisi proprietari.
AWS Clean Rooms ML consente agli utenti e ai loro partner di applicare tecniche di machine learning (ML) che migliorano la privacy per generare informazioni predittive senza dover condividere dati grezzi tra di loro. AWS Clean Rooms ML supporta la modellazione di machine learning (ML) personalizzata e per somiglianza. Con la modellazione personalizzata, è possibile creare un modello personalizzato per la formazione ed eseguire inferenze su set di dati collettivi, senza condividere i dati sottostanti o la proprietà intellettuale tra i collaboratori. Con la modellazione per somiglianza, è possibile utilizzare un modello creato da AWS per generare un set esteso di profili simili sulla base di un piccolo campione di profili che i partner apportano a una collaborazione. La modellazione per somiglianza di AWS Clean Rooms ML, che utilizza un modello creato da AWS, è stata creata e testata su un'ampia gamma di set di dati come e-commerce e streaming video e aiuta i clienti a migliorare la precisione della modellazione per somiglianza fino al 36% rispetto ai dati di riferimento rappresentativi del settore. Nelle applicazioni reali, come la ricerca di nuovi clienti, questo miglioramento della precisione può tradursi in risparmi di milioni di dollari.
Utilizzando la Console di gestione AWS o le operazioni API, sarà possibile creare una collaborazione con la camera bianca, invitare le società con cui si desidera collaborare e selezionare le abilità che avrà ciascun partecipante alla collaborazione. I partecipanti possono quindi impostare regole su come interrogare i dati strutturati e addestrare i modelli ML sui propri dati. I set di dati non vengono copiati dagli account dei partecipanti e sono accessibili solo quando necessario. Con AWS Clean Rooms, puoi scegliere il tipo di analisi che desideri eseguire: SQL, Spark SQL e analisi PySpark, nonché modellazione ML utilizzando AWS Clean Rooms ML. Quando si utilizza l'analisi SQL, si sfruttano anche funzionalità aggiuntive come il generatore di analisi senza codice, la privacy differenziale di AWS Clean Rooms e il computing crittografico. Quando si usa l'analisi Spark SQL è possibile scegliere dimensioni di calcolo configurabili per fornire una maggiore flessibilità di personalizzazione e allocazione delle risorse al fine di eseguire query SQL in base ai requisiti di prestazioni, scala e costi. Con PySpark in AWS Clean Rooms, tu e i tuoi partner potete portare il codice e le librerie PySpark a una collaborazione con AWS Clean Rooms ed eseguire analisi avanzate senza dover condividere dati sottostanti o metodi di analisi proprietari. Con AWS Clean Rooms ML, puoi utilizzare modelli simili personalizzati o creati da AWS per generare informazioni predittive. Una volta che i partecipanti alla collaborazione hanno associato dati o modelli a una collaborazione e le analisi sono state eseguite, gli output della collaborazione verranno archiviati in un bucket Amazon Simple Storage Service (Amazon S3) designato.
AWS Clean Rooms può utilizzare i dati di Amazon S3, Amazon Athena o Snowflake senza dover spostare, rivelare o copiare i set di dati sottostanti. AWS Clean Rooms legge i dati dall'origine nel momento in cui vengono eseguite le query, evitando la complessità e il costo della replica dei set di dati in un ambiente separato. Scopri di più sul supporto di AWS Clean Rooms per più cloud e origini dati qui.
AWS Clean Rooms supporta fino a cinque partecipanti per collaborazione.
Puoi controllare chi può partecipare alla tua collaborazione di AWS Clean Rooms e puoi creare una collaborazione o aderire a un invito. La partecipazione è trasparente per ogni partecipante in una collaborazione e non è possibile aggiungere nuovi account dopo la sua creazione. Tuttavia, se necessario, puoi impostare nuove collaborazioni con clienti o partner diversi. Stabilisci e gestisci l'accesso ai contenuti e ai servizi e risorse di AWS utilizzando utenti, gruppi, autorizzazioni e credenziali da te controllati.
I clienti possono generare approfondimenti utilizzando SQL, Spark SQL, PySpark o la modellazione di AWS Clean Rooms ML sui loro set di dati collettivi con i loro partner, senza condividere o rivelare i dati sottostanti. Quando si configura una collaborazione con AWS Clean Rooms, è possibile specificare diverse abilità per ogni membro della collaborazione in base ai casi d'uso specifici. Quando si uniscono a una collaborazione AWS Clean Rooms, i collaboratori concordano quale parte eseguirà le analisi, quale parte riceverà i risultati e quale parte sarà responsabile dei costi di calcolo. Solo le persone invitate a questa collaborazione possono ottenere approfondimenti sulla base delle regole di analisi stabilite.
Con l'analisi Spark SQL, solo un collaboratore può eseguire query SQL, ma più collaboratori possono contribuire con dati e ricevere risultati. Ad esempio, se si desidera che l'output della query venga inviato a un membro diverso, è possibile designare un membro come query runner che può scrivere le query e un altro membro come destinatario dei risultati della query che può ricevere i risultati. Ciò offre al creatore della collaborazione la possibilità di assicurarsi che più membri ricevano i risultati dell'analisi e che il membro che può eseguire la query non abbia accesso ai risultati della query. Con l'analisi SQL, più collaboratori possono fornire dati, ma solo un collaboratore può eseguire query SQL e ottenerne i risultati. Ad esempio, se si desidera che l'output della query venga inviato a un membro diverso, è possibile designare un membro come query runner che può scrivere le query e un altro membro come destinatario dei risultati della query che può ricevere i risultati. In questo modo il creatore della collaborazione può assicurarsi che il membro che può eseguire la query non abbia accesso ai risultati della stessa.
Con l'analisi PySpark, più collaboratori possono fornire dati, ma solo un collaboratore può eseguire lavori e solo il job runner può ricevere i risultati.
Con AWS Clean Rooms ML, un collaboratore fornisce un campione di record in base al quale desidera trovare segmenti simili dal proprio partner; l'altra parte ha la popolazione più ampia da cui generiamo segmenti simili in base alla loro somiglianza con i record di esempio. AWS Clean Rooms ML invierà i segmenti simili in uscita a una destinazione specificata dalla parte che riunisce la popolazione più ampia da cui deriviamo i segmenti simili.
AWS Entity Resolution è integrato in modo nativo in AWS Clean Rooms. Puoi utilizzare l'abbinamento basato su regole o sul provider di servizi di dati per preparare, abbinare e collegare i dati dei tuoi utenti con i dati dei tuoi partner mediante l'utilizzo di qualsiasi chiave comune che scegli di utilizzare (come identificatori pseudonimizzati), all'interno di una collaborazione di AWS Clean Rooms migliorata dalla privacy. Per applicare le funzionalità di corrispondenza di AWS Entity Resolution in una collaborazione, devi utilizzare i dati archiviati in Amazon S3.
AWS Clean Rooms è disponibile nelle regioni Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Europa (Francoforte), Europa (Irlanda), Europa (Londra) ed Europa (Stoccolma).
Con AWS Clean Rooms puoi utilizzare strumenti di analisi flessibili e ML che migliorano la privacy per soddisfare le tue esigenze aziendali. Quando si utilizza l'analisi SQL, Spark SQL o PySpark, è possibile scegliere in modo flessibile quale collaboratore paga per la capacità di calcolo delle query o processi SQL eseguiti in una collaborazione, su un'unità di elaborazione per camere bianche (CRPU) per ore al secondo (con un costo minimo di 60 secondi). Durante l'utilizzo di AWS Clean Rooms ML, si pagherà solo per i corsi di addestramento dei modelli richiesti e per i segmenti simili creati, al prezzo di 1.000 profili. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Clean Rooms.
Con AWS Entity Resolution in AWS Clean Rooms, è possibile utilizzare l'abbinamento basato su regole o sul provider di servizi di dati sfruttando i set di dati dei fornitori (come LiveRamp).
Quando si utilizza l'abbinamento basato su regole, almeno una persona coinvolta nella collaborazione deve preparare i propri dati prima dell'abbinamento con i set di dati dei partner, a meno che non li abbia già preparati mediante l'utilizzo di AWS Entity Resolution prima di creare o aderire alla collaborazione. Questa persona pagherà per la preparazione dei dati solo se utilizzata. Qualsiasi persona che partecipa a una collaborazione può pagare per l'abbinamento dei dati. L'abbinamento dei dati richiede anche una tariffa una tantum per collaborazione, che viene assegnata a qualsiasi persona che collabora e che paga per l'abbinamento dei dati.
Quando si utilizza l'abbinamento basato sul provider di servizi di dati, tutte le persone coinvolte nella collaborazione devono disporre di un abbonamento attivo del provider per preparare i propri dati mediante l'utilizzo degli ID di quest'ultimo. Tutte le persone coinvolte nella collaborazione devono preparare i propri dati utilizzando gli ID del provider prima di abbinarli ai set di dati dei partner, a meno che non abbiano già preparato i dati utilizzando AWS Entity Resolution prima di creare o aderire alla collaborazione. Qualsiasi persona che partecipa a una collaborazione può pagare per l'abbinamento dei dati utilizzando gli ID dei provider. Inoltre, la persona che partecipa e che paga per l'abbinamento dei dati deve disporre di un abbonamento attivo con un provider. Puoi utilizzare gli abbonamenti pubblici elencati su AWS Data Exchange (ADX) o acquistare un abbonamento privato direttamente con il provider di servizi di dati di tua scelta, quindi utilizzare Bring Your Own Subscription (BYOS) per ADX.
Per ulteriori informazioni, consulta i prezzi di AWS Entity Resolution in AWS Clean Rooms.
Sicurezza e protezione dei dati
Apri tuttoLa protezione dei dati parte dalla base della sicurezza di AWS e AWS Clean Rooms si basa sui servizi di sicurezza AWS, tra cui AWS Identity and Access Management (IAM), AWS Key Management Service (KMS) e AWS CloudTrail. Ciò consente di estendere la strategia di protezione dei dati esistente ai carichi di lavoro di collaborazione sui dati. Con AWS Clean Rooms non è più necessario archiviare o conservare una copia dei dati al di fuori dell'ambiente AWS e inviarli a un'altra parte per condurre analisi relative ad approfondimenti sui consumatori, misurazioni di marketing, previsioni o valutazione del rischio.
Durante la configurazione di una collaborazione con AWS Clean Rooms e l’utilizzo dell'analisi SQL, è possibile specificare diverse abilità per ogni membro della collaborazione in base ai casi d'uso specifici. Ad esempio, se l'output della query deve essere inviato a un membro diverso, è possibile designare un membro come query runner che può scrivere le query e un altro membro come destinatario dei risultati della query che può ricevere i risultati. Ciò offre al creatore della collaborazione la possibilità di assicurarsi che il membro che può eseguire una query non abbia accesso ai risultati della query.
AWS Clean Rooms presenta anche controlli per le query SQL che permettono di limitare il tipo di query o le query specifiche che possono essere eseguite sulle tabelle di dati tramite la configurazione delle regole di analisi. AWS Clean Rooms supporta tre tipi di regole di analisi SQL: aggregazione, elenco e personalizzate. La regola di analisi dell'aggregazione consente di configurare la tabella in modo che siano consentite solo le query che generano statistiche aggregate (come la misurazione o l'attribuzione della campagna). Con la regola di analisi dell'elenco, puoi configurare la tabella in modo che le query possano analizzare solo l'intersezione dei set di dati con quella del membro in grado di eseguire la query. La regola di analisi personalizzata consente di configurare i controlli a livello di query per consentire l'esecuzione di account o query specifici sul proprio set di dati. Quando si utilizzano regole di analisi personalizzate, è possibile scegliere di utilizzare la privacy differenziale. La privacy differenziale di AWS Clean Rooms aiuta a proteggere la privacy degli utenti con controlli intuitivi e supportati matematicamente in pochi clic. Essendo una funzionalità completamente gestita di AWS Clean Rooms, non è necessaria alcuna esperienza pregressa in privacy differenziale per aiutare a prevenire la re-identificazione degli utenti. Un altro controllo è costituito dalle soglie di aggregazione, che impediscono alle query di estendesi a gruppi piccoli e potenzialmente re-identificabili.
Con AWS Clean Rooms ML, i dati vengono utilizzati solo per addestrare il modello e non per l'addestramento dei modelli AWS. AWS Clean Rooms ML non utilizza i dati di formazione o di segmenti simili di nessuna azienda con un'altra ed è consentita l’eliminazione dei modelli e dati di formazione in qualsiasi momento.
No. I set di dati sono archiviati nei data lake AWS o Snowflake dei collaboratori e non cambiano account. AWS Clean Rooms legge temporaneamente i dati dagli account dei collaboratori per eseguire query, abbinare record, addestrare modelli ML o espandere i segmenti di inizializzazione. I risultati di un'analisi vengono inviati alla posizione S3 progettata per l'analisi. Nessun dato letto da alcun data lake viene archiviato permanentemente in AWS durante il processo di collaborazione e tutti i dati letti temporaneamente nell'ambiente AWS Clean Rooms vengono eliminati al completamento della query.
AWS Entity Resolution in AWS Clean Rooms genera un set di dati che mappa gli identificatori di ciascuna parte nell'ambito di una collaborazione. Il set di dati di mappatura è gestito da AWS Clean Rooms. Nessuna persona coinvolta nella collaborazione può visualizzare o scaricare la tabella di mappatura. Se tutte le persone coinvolte nella collaborazione accettano di allentare questa applicazione della privacy, è possibile interrogare la tabella di mappatura per casi d'uso particolari. Qualunque parte può eliminare la tabella in qualsiasi momento.
I modelli generati da AWS Clean Rooms ML sono archiviati dal servizio, possono essere crittografati con una chiave AWS KMS gestita dal cliente e possono essere eliminati dal cliente in qualsiasi momento.
Le regole di crittografia e analisi di AWS Clean Rooms ti consentono di avere un controllo granulare sul tipo di informazioni che desideri condividere. In qualità di collaboratore dei dati, sei tenuto a valutare il rischio di ogni collaborazione, incluso il rischio di reidentificazione, e a condurre la tua due diligence aggiuntiva per garantire la conformità a qualsiasi legge sulla privacy dei dati. Se i dati che condividi sono sensibili o regolamentati, ti consigliamo di utilizzare anche accordi legali e meccanismi di controllo appropriati per ridurre ulteriormente i rischi per la privacy.
Sì. I Termini di servizio di AWS vietano alcuni casi d'uso per le collaborazioni in AWS Clean Rooms.
Sì, il programma di conformità agli standard HIPAA di AWS include AWS Clean Rooms. Se hai sottoscritto un Business Associate Agreement (BAA) con AWS, ora puoi utilizzare AWS Clean Rooms per creare collaborazioni conformi alla normativa HIPAA. In caso contrario, oppure se hai domande sull'utilizzo di AWS con applicazioni conformi agli standard HIPAA, contattaci.
Per ulteriori informazioni, consulta le seguenti risorse:
AWS Clean Rooms ML
Apri tuttoAWS Clean Rooms ML consente agli utenti e ai loro partner di applicare tecniche di machine learning (ML) per il miglioramento della privacy per generare informazioni predittive senza dover condividere dati grezzi tra di loro. AWS Clean Rooms ML supporta la modellazione di machine learning (ML) personalizzata e per somiglianza. Con la modellazione personalizzata, è possibile creare un modello personalizzato per la formazione ed eseguire inferenze su set di dati collettivi, senza condividere i dati sottostanti o la proprietà intellettuale tra i collaboratori. Puoi generare set di dati sintetici anche per addestrare i tuoi modelli ML personalizzati. Con la modellazione per somiglianza, è possibile utilizzare un modello creato da AWS per generare un set esteso di profili simili sulla base di un piccolo campione di profili che i partner apportano a una collaborazione.
AWS Clean Rooms ML aiuta i clienti con diversi casi d'uso. Ad esempio, gli inserzionisti possono inserire il modello e i dati proprietari in una collaborazione Clean Rooms e invitare i publisher a unire i propri dati per addestrare e implementare un modello ML personalizzato che li aiuti ad aumentare l'efficacia della campagna; gli istituti finanziari possono utilizzare i record storici delle transazioni per addestrare un modello ML personalizzato e invitare i partner a partecipare a una collaborazione Clean Rooms per individuare transazioni potenzialmente fraudolente; gli istituti di ricerca e le reti ospedaliere possono trovare candidati simili ai partecipanti agli studi clinici esistenti per velocizzare gli studi clinici; infine, marchi e publisher possono modellare segmenti simili di clienti sul mercato e offrire esperienze pubblicitarie altamente pertinenti, senza che nessuna delle due società condivida con l'altra i dati sottostanti.
Con la modellazione personalizzata di AWS Clean Rooms ML, è possibile unire modelli, algoritmi e dati di machine learning (ML) in una collaborazione con i partner per addestrare modelli ML ed eseguire inferenze su set di dati collettivi senza dover condividere dati sensibili o modelli ML proprietari. Puoi generare set di dati sintetici anche per addestrare i tuoi modelli ML personalizzati.
La modellazione personalizzata di AWS Clean Rooms ML supporta la formazione ML e i flussi di lavoro di inferenza ML. Per entrambi i flussi di lavoro, si inizia definendo una query SQL AWS Clean Rooms Spark da utilizzare per generare un set di dati per la fase di formazione o inferenza. Il set di dati intermedio viene conservato all'interno della collaborazione in camera bianca e può essere utilizzato solo per attività approvate di AWS Clean Rooms ML. Il secondo passaggio è l'addestramento o l'inferenza dei modelli ML. I modelli e il codice ML sono impacchettati in un'immagine container. Un modello addestrato può essere mantenuto nella collaborazione e utilizzato come parte di un flusso di lavoro di inferenza o aggiornato in un successivo job di addestramento. Con AWS Clean Rooms ML, i dati vengono utilizzati solo per addestrare il modello personalizzato e non vengono condivisi tra i collaboratori o utilizzati per l'addestramento dei modelli AWS. È possibile rimuovere i propri dati da Clean Rooms ML o eliminare un modello personalizzato ogni volta che lo si desidera; inoltre, è possibile applicare controlli che migliorano la privacy per salvaguardare i dati sensibili nell'ambito di una collaborazione. Per applicare la modellazione personalizzata di AWS Clean Room ML, è necessario utilizzare Spark SQL come motore di analisi.
Con la modellazione per somiglianza di AWS Clean Rooms ML, è possibile utilizzare un modello creato da AWS per generare un set esteso di profili simili sulla base di un piccolo campione di profili che i partner apportano a una collaborazione proteggendo al contempo l'utente e i dati sottostanti del suo partner. È possibile invitare i partner in una camera bianca e applicare un modello di ML creato da AWS, addestrato per ogni collaborazione per generare set di dati simili in pochi passaggi, risparmiando mesi di lavoro di sviluppo per creare, addestrare, ottimizzare e implementare il proprio modello. La modellazione per somiglianza di AWS Clean Rooms ML è stata creata e testata su vari set di dati come e-commerce e streaming video e può aiutare i clienti a migliorare la precisione della modellazione per somiglianza fino al 36% rispetto ai dati di riferimento rappresentativi del settore. Nelle applicazioni reali, come la ricerca di nuovi clienti, questo miglioramento della precisione può tradursi in risparmi di milioni di dollari.
La modellazione per somiglianza di AWS Clean Rooms ML prende un piccolo campione di record da una parte e trova un set di record molto più ampio o un segmento simile dal set di dati di un altro collaboratore. È possibile specificare la dimensione desiderata del segmento simile risultante e AWS Clean Rooms ML abbinerà privatamente i profili univoci dell’elenco di esempi personalizzato a quelli del set di dati del partner e quindi addestrerà un modello ML che preveda quanto ogni profilo del set di dati del collaboratore sia simile a quello del proprio campione. AWS Clean Rooms ML raggrupperà automaticamente i profili simili all'elenco di esempio e genererà il segmento simile risultante. AWS Clean Rooms ML elimina la necessità di condividere i dati per creare, addestrare e implementare modelli di ML con i partner. Con AWS Clean Rooms ML, i dati vengono utilizzati solo per addestrare il modello e non per l'addestramento dei modelli AWS. È possibile utilizzare controlli intuitivi che aiutino gli utenti e i partner a ottimizzare i risultati predittivi del modello. Per applicare la modellazione per somiglianza di AWS Clean Rooms ML, il set di dati di addestramento deve utilizzare i dati archiviati in Amazon S3. I dati seed possono essere archiviati in Amazon S3 o creati utilizzando una query SQL in una collaborazione.
Set di dati sintetici in AWS Clean Rooms ML
Apri tuttoI dati sintetici sono dati generati da un algoritmo anziché osservati da misurazioni del mondo reale, ad esempio da tecnologie di IA generativa. I set di dati sintetici, una raccolta di punti dati creati algoritmicamente, possono imitare le proprietà e i modelli statistici dei dati reali pur essendo parzialmente o completamente fittizi. Utilizzando set di dati sintetici, le aziende possono addestrare modelli di intelligenza artificiale, condurre analisi e sviluppare applicazioni senza il rischio di esporre informazioni sensibili.
Con la modellazione personalizzata di AWS Clean Rooms ML, tu e i tuoi partner potete generare set di dati sintetici statisticamente rappresentativi dai vostri dati collettivi per addestrare modelli ML di regressione e classificazione senza rivelare informazioni sensibili dai dati originali. La funzionalità de-identifica i soggetti, ad esempio persone o entità su cui sono stati raccolti i dati, nei dati originali, mitigando il rischio che un modello memorizzi informazioni sugli individui nei dati di formazione.
La generazione di set di dati sintetici che migliorano la privacy di AWS Clean Rooms ML è ottimizzata per creare set di dati tabulari per l'addestramento di modelli di regressione e classificazione. I set di dati non sono destinati all'addestramento di modelli linguistici di grandi dimensioni (LLM) o altri modelli di base.
Per creare un set di dati sintetico, devi prima specificare una colonna del valore previsto nel set di dati originale per addestrare un modello ML personalizzato. AWS Clean Rooms ML addestrerà un modello specializzato di miglioramento della privacy sul tuo set di dati per generare previsioni dalla colonna specificata. I record sintetici vengono generati campionando ciascuna delle colonne di valori non previsti utilizzando il modello specializzato addestrato sui dati per dedurre la colonna finale. La generazione di set di dati sintetici in AWS Clean Rooms ML rimuove la correlazione tra colonne di valori non previsti iniettando una quantità calibrata di rumore nei valori previsti.
No, la generazione di set di dati sintetici di AWS Clean Rooms ML non altera o rimuove singoli valori dal set di dati. Le righe sintetiche vengono generate campionando i valori nel set di dati di input. Qualsiasi valore nel set di dati di input potrebbe essere incluso nel set di dati sintetico.
Nota: la generazione di set di dati sintetici protegge dall'inferenza di attributi individuali sugli individui nel set di dati originale. Ti consigliamo di escludere le informazioni di identificazione personale (PII) per evitare che i valori letterali del set di dati originale compaiano nel set di dati sintetico. Gli identificatori diretti, come e-mail, telefono, numero di identificazione nazionale o indirizzo, non devono essere inclusi nel set di dati originale. Possono essere utilizzate come chiavi di join nella query che genera il canale di input ML ma non devono essere incluse nel modello di analisi utilizzato per la generazione di set di dati sintetici. Per ulteriori informazioni, consulta la documentazione.
Puoi iniziare creando innanzitutto una collaborazione AWS Clean Rooms con i tuoi partner e definendo l'algoritmo del modello e i set di dati. Successivamente, si crea una query SQL che specifica sia i dati da sintetizzare sia i controlli essenziali sulla privacy, inclusi i livelli di rumore per impedire la reidentificazione degli utenti e le protezioni contro le comuni minacce alla sicurezza. Una volta che tutti i proprietari dei dati approvano questa configurazione, inizia il processo di generazione dei dati sintetici. Prima di utilizzare i dati sintetici, i proprietari dei modelli possono esaminare metriche complete che mostrano sia la somiglianza statistica con i dati originali sia la forza delle protezioni della privacy. Infine, puoi addestrare i tuoi modelli personalizzati utilizzando questi dati sintetici ed esportare i pesi del modello oppure procedere direttamente all'esecuzione di lavori di inferenza sul modello addestrato. Per iniziare oggi stesso, consulta la documentazione.
PySpark
Apri tuttoPuoi scegliere di utilizzare il motore di analisi Spark per eseguire script PySpark nelle collaborazioni AWS Clean Rooms. PySpark offre dimensioni di calcolo configurabili per fornire un maggiore controllo sulle prestazioni dei prezzi durante l'esecuzione di carichi di lavoro PySpark.
I processi PySpark in AWS Clean Rooms utilizzano il tipo di istanza predefinito CR.1X, che fornisce 4 vCPU, 30 GB di memoria e 100 GB di spazio di archiviazione. Puoi scegliere di allocare più risorse per eseguire i carichi di lavoro PySpark selezionando il tipo di istanza CR.4X più grande, che fornisce 16 vCPU, 120 GB di memoria e 400 GB di spazio di archiviazione. Istanze di dimensioni maggiori possono avvantaggiare i carichi di lavoro PySpark che elaborano grandi volumi di dati ed eseguono analisi complesse, il che aiuta a distribuire i carichi di lavoro su un numero maggiore di risorse. Scopri di più sulla vCPU, sulla memoria e sullo spazio di archiviazione associati a ciascuna configurazione qui.
Hai la flessibilità di portare script Python e puoi opzionalmente fornire le tue librerie personalizzate o open source in Python.
Quando usi PySpark in AWS Clean Rooms, si applicano prezzi separati. Per ulteriori informazioni sui prezzi di PySpark, visita la pagina dei prezzi di AWS Clean Rooms.
Analisi SQL
Apri tuttoPuoi utilizzare il motore di analisi Spark per eseguire query nella variante di linguaggio Spark SQL nelle collaborazioni AWS Clean Rooms. AWS Clean Rooms SQL offre dimensioni di calcolo configurabili per fornire un maggiore controllo sulle prestazioni dei prezzi durante l'esecuzione di carichi di lavoro SQL.
AWS Clean Rooms SQL utilizza il tipo di istanza predefinito CR.1X, che fornisce 4 vCPU, 30 GB di memoria e 100 GB di spazio di archiviazione. Puoi scegliere di allocare più risorse per eseguire i carichi di lavoro Spark SQL selezionando il tipo di istanza CR.4X più grande, che fornisce 16 vCPU, 120 GB di memoria e 400 GB di spazio di archiviazione. Istanze di dimensioni maggiori possono avvantaggiare i carichi di lavoro SQL che elaborano grandi volumi di dati ed eseguono analisi complesse, il che aiuta a distribuire i carichi di lavoro su un numero maggiore di risorse. Scopri di più sulla vCPU, sulla memoria e sullo spazio di archiviazione associati a ciascuna configurazione qui.
Nelle regole di analisi di aggregazione puoi configurare i controlli a livello di colonna, che ti consentono di definire il modo in cui ciascuna colonna può essere utilizzata nelle query. Ad esempio, è consentito specificare quali colonne possono essere utilizzate per calcolare le statistiche aggregate, come SUM(price), e quali possono essere utilizzate per unire la tabella con altri membri della collaborazione. Nella regola dell’analisi di aggregazione è inoltre possibile definire una soglia di aggregazione minima che ogni riga di output deve soddisfare. Le righe che non soddisfano la soglia minima vengono automaticamente filtrate da AWS Clean Rooms.
Sì. Sarai in grado di configurare AWS Clean Rooms per pubblicare i log delle query in Amazon CloudWatch Logs. Con la regola di analisi personalizzata, puoi anche rivedere le query (archiviate nei modelli di analisi) prima che vengano eseguite nella collaborazione.
Privacy differenziale di AWS Clean Rooms
Apri tuttoLa privacy differenziale è un framework provato matematicamente per aiutare la protezione della privacy dei dati. Il vantaggio principale alla base della privacy differenziale è quello di aiutare a proteggere i dati a livello individuale aggiungendo una quantità controllata di casualità, il rumore, per oscurare la presenza o l'assenza di un singolo individuo in un set di dati che viene analizzato.
La privacy differenziale di AWS Clean Rooms aiuta a proteggere la privacy degli utenti con controlli intuitivi e supportati matematicamente in poche operazioni. Essendo una funzionalità completamente gestita di AWS Clean Rooms, non è necessaria alcuna esperienza pregressa in privacy differenziale per aiutare a prevenire la re-identificazione degli utenti. La privacy differenziale di AWS Clean Rooms offusca il contributo dei dati di qualsiasi individuo alla generazione di approfondimenti aggregati nelle collaborazioni, in modo da poter eseguire un'ampia gamma di query SQL per generare informazioni su campagne pubblicitarie, decisioni di investimento, ricerca clinica e altro ancora.
È possibile iniziare a utilizzare la privacy differenziale di AWS Clean Rooms in pochi passaggi dopo aver iniziato o aderito a una collaborazione con AWS Clean Rooms come membro con capacità di contribuire con dati. Dopo aver creato una tabella configurata, che è un riferimento alla tabella nel catalogo dati AWS Glue, basta semplicemente attivare la privacy differenziale aggiungendo una regola di analisi personalizzata alla tabella configurata. Successivamente, bisogna associare la tabella configurata alla propria collaborazione con AWS Clean Rooms e configurare una politica sulla privacy differenziale nella collaborazione per rendere la tabella disponibile per l'interrogazione. È disponibile una politica predefinita per completare rapidamente la configurazione, personalizzabile per soddisfare requisiti specifici. Per applicare la privacy differenziale di AWS Clean Rooms in una collaborazione, è necessario utilizzare dati archiviati in Amazon S3.
Una volta configurata la privacy differenziale di AWS Clean Rooms, il partner di collaborazione può iniziare a eseguire query sulla propria tabella, senza bisogno di alcuna esperienza in concetti di privacy differenziale o configurazioni aggiuntive da parte dei propri partner. Con la privacy differenziale di AWS Clean Rooms, i query runner possono eseguire analisi personalizzate e flessibili, inclusi modelli di query complessi con espressioni di tabella comuni (CTE) e funzioni aggregate di uso comune come COUNT e SUM.
Computing crittografico
Apri tuttoIl computing crittografico è un metodo per proteggere e crittografare i dati sensibili mentre sono in uso. I dati possono essere codificati a riposo quando vengono archiviati, in movimento quando vengono trasmessi e quando sono in uso. Crittografia significa convertire i dati in chiaro in dati codificati che non possono essere decifrati senza una "chiave" specifica. Private Set Intersection (PSI) è un tipo di calcolo crittografico che consente a due o più parti in possesso di set di dati di confrontare le versioni crittografate per eseguire il calcolo. La crittografia avviene on-premise con la chiave segreta del collaboratore condiviso. C3R è disponibile sia per il motore di analisi SQL Spark sia per il motore di analisi SQL.
AWS Clean Rooms include il computing crittografico per Clean Rooms (C3R), che offre la possibilità di precrittografare i dati utilizzando uno strumento di crittografia lato client, un SDK o un'interfaccia a riga di comando (CLI), che utilizza una chiave segreta condivisa con altri partecipanti in una collaborazione AWS Clean Rooms. Questo codifica i dati mentre vengono eseguite le query.