Lewati ke Konten Utama

Apa itu Platform Integrasi Data?

Apa itu Platform Integrasi Data?

Organisasi modern membuat dan menggunakan data dalam puluhan hingga ribuan sistem dan format. Integrasi data mengacu pada proses menggabungkan data dari sistem dan format yang berbeda dan menormalkannya untuk membuat data lebih berguna. Dengan data yang terintegrasi, Anda dapat mengakses satu tampilan terpadu dari semua data untuk mendapatkan dukungan keputusan dan pelaporan, melanjutkan untuk menganalisis data, dan demikian lebih terinformasi untuk pengambilan keputusan.

Perusahaan membutuhkan data gabungan untuk mendukung analitik bisnis, mengustomisasi model machine learning, serta untuk aplikasi korporasi dan proses bisnis lainnya. Integrasi data melibatkan pengumpulan, transformasi, dan penggabungan data mentah, sehingga bisnis dapat memperoleh manfaat dari bentuk kolektifnya. Misalnya, data dari transaksi, jumlah dan tipe akun, serta catatan layanan pelanggan membantu membuat tampilan data pelanggan yang terpadu untuk bank.

Apa itu proses integrasi data?

Organisasi memahami manfaat integrasi data untuk alur kerja yang lebih produktif. Mendefinisikan proses integrasi data membantu organisasi menghadirkan hasil yang lebih andal dan berulang. 

1. Identifikasi sumber data yang berbeda

Identifikasi berbagai sumber data yang akan membutuhkan integrasi, baik secara otomatis atau manual. Organisasi membuat dan menyimpan data di berbagai tipe sistem serta format data. Misalnya, organisasi mungkin menggunakan berbagai tipe basis data SQL, cache memori, dan penyimpanan dokumen. Aplikasi dalam organisasi dapat menyimpan data dalam format eksklusif tanpa akses data eksternal langsung.

2. Tentukan strategi integrasi

Periksa penyimpanan dan format data yang relevan, di samping persyaratan organisasi Anda, untuk menentukan cara terbaik guna mengekstraksi dan mentransformasikan data ke dalam format yang dinormalisasi. Berikut adalah beberapa strategi integrasi data umum:

  • Pola Extract, Transform, Load (ETL) mengekstraksi data dari sistem saat ini, mentransformasikan data, dan memuat data ke sistem target. ETL adalah pola umum untuk penyimpanan gudang data.
  • Pola Extract, Load, Transform (ELT) mengekstraksi data dari sistem saat ini, memuat data ke sistem target, dan mentransformasikan data. ELT memungkinkan data dibiarkan dalam bentuk tidak terstruktur sampai Anda membutuhkannya untuk analitik. ELT adalah pola umum untuk penyimpanan danau data.
  • Penyerapan streaming waktu nyata mengambil data dari aliran dan melakukan penyerapan data untuk integrasi data hampir waktu nyata.
  • Pengambilan data perubahan (CDC) adalah proses menemukan perubahan pada data dan memublikasikan perubahan ini ke aliran peristiwa untuk penyerapan data.

Pada tahap ini, Anda juga perlu menentukan sistem penyimpanan target atau repositori data, misalnya, gudang data atau danau data.

3. Desain skema

Uraikan skema data, atau tipe penyimpanan tanpa skema, untuk status akhir data. Skema harus dapat diperpanjang, dapat dibuat versi, dan sesuai dengan ekspektasi penyimpanan data korporasi. Skema baru harus menjaga kualitas data dan akurasi data, dengan aturan tata kelola data yang sesuai untuk integrasi di masa mendatang.

4. Ekstraksi data

Tentukan metode terbaik untuk ekstraksi data guna meminimalkan gangguan pada operasi bisnis. Misalnya, banyak organisasi menggunakan ekstraksi batch setelah penutupan bisnis setiap harinya untuk mengintegrasikan data nonwaktu nyata. Organisasi mungkin perlu menggunakan API guna mengekstraksi data untuk integrasi aplikasi eksklusif, atau menggunakan layanan seperti Amazon AppFlow untuk mentransfer data antara aplikasi perangkat lunak sebagai layanan (SaaS) dan cloud.

5. Pindahkan data ke penyimpanan terpusat

Pindahkan data ke penyimpanan terpusat. Terkadang sumber data dan tujuannya berada di lokasi yang berbeda, misalnya memindahkan data dari on-premise ke cloud. Perpindahan data mungkin memerlukan langkah-langkah keamanan ekstra, bandwidth ekstra, atau pertimbangan residensi data.

6. Transformasikan data

Data mungkin perlu ditransformasikan menjadi bentuk akhir di penyimpanan terpusat. Data yang ditransformasikan dapat lebih dari sekadar perubahan format, misalnya, menghitung rata-rata dari banyak titik data.

Apa itu integrasi data nirserver?

Bisnis mengalihkan alur kerja data mereka dari infrastruktur di tempat ke platform data cloud modern. Arsitektur cloud membantu organisasi mengatasi hambatan perangkat keras fisik dan menawarkan layanan analitik data cloud canggih yang dapat diintegrasikan, seperti kecerdasan bisnis serta AI. 

Nirserver adalah konsep komputasi cloud yang menyediakan layanan cloud yang sepenuhnya elastis dan toleran terhadap kesalahan serta menghilangkan kompleksitas penyediaan server. Secara tradisional, saat membuat pipeline data, Anda menyediakan dan memelihara server serta layanan kode untuk penyerapan, transformasi, dan manipulasi data. Dengan produk integrasi data nirserver, Anda memiliki skalabilitas penuh tanpa overhead manajemen. Tugas berjalan sampai selesai, dan layanan menjadi kembali tidak aktif sampai dibutuhkan lagi.

Nirserver berguna untuk tugas integrasi data sesuai permintaan, dengan model bayar per penggunaan yang dapat membantu mengurangi biaya infrastruktur bagi perusahaan. 

Misalnya, AWS Glue adalah solusi integrasi data nirserver. AWS Glue memungkinkan Anda untuk menemukan dan terhubung ke lebih dari 100 sumber data yang beragam, mengelola data dalam katalog data terpusat, serta secara visual membuat, menjalankan, dan memantau pipeline data untuk memuat data ke dalam danau data, gudang data, dan lakehouse

Dengan AWS Glue, Anda dapat menggunakan mesin integrasi data yang sesuai untuk beban kerja apa pun, berdasarkan karakteristik beban kerja dan preferensi developer serta analis. Tugas AWS Glue dapat diinvokasi sesuai jadwal, sesuai permintaan, atau berdasarkan peristiwa.

Integrasi data ETL nirserver dengan AWS Glue

Untuk mulai menggunakan AWS Glue, mulai konsol AWS Glue Studio. Sebelum Anda mulai menggunakan AWS Glue, siapkan kebijakan dan peran IAM yang diperlukan di konsol.

Langkah 1 - Tambahkan definisi tabel ke Katalog Data AWS Glue

Arahkan ke Katalog Data. Pilih Tambahkan tabel menggunakan perayap, lalu pilih penyimpanan data sumber yang ingin Anda crawl untuk menyediakan pemetaan data skema dan metadata guna membuat definisi data dan tabel di Katalog Data.

Langkah 2 - Tentukan tugas transformasi Anda

Pilih tugas ETL dari panel navigasi dan pilih Buat tugas menggunakan ETL Visual. Tambahkan sumber data dan simpul target data di editor visual dan konfigurasikan data. Glue Studio menghasilkan kode di tab Skrip yang akan mentransformasikan data dalam tabel sumber ke skema tabel target.

Langkah 3 - Jalankan tugas AWS Glue

Anda dapat mengatur parameter untuk tugas yang dijalankan dengan alat tata kelola data di tab Detail tugas. Ketika Anda telah mengonfigurasikan parameter, pilih Simpan, lalu pilih Jalankan guna memulai proses data untuk transformasi dan integrasi.

Langkah 4 - Periksa output

Di tab Visual, pilih simpul target untuk mengamati pratinjau data guna memastikan bahwa data akurat ada di simpul tersebut.

Untuk informasi selengkapnya, lihat AWS Glue: Panduan Pengguna.

Apa itu integrasi nol-ETL?

Nol-ETL adalah serangkaian integrasi yang meminimalkan kebutuhan untuk membangun pipeline data ETL. Biasanya, Anda membuat, mengonfigurasikan, dan menjalankan pipeline ETL saat mentransfer data dari sumber data ke tujuan. Namun, dengan metode integrasi data nol-ETL, proses ETL menjadi otomatis dan disembunyikan dalam proses perangkat lunak. 

Setelah pertama kali memuat data dari sumber ke tujuan, replikasi data lebih lanjut terjadi secara otomatis setiap kali data di sumber diperbarui. Proses nol-ETL ini memungkinkan pipeline analitik hampir waktu nyata.

AWS memiliki banyak layanan yang mendukung nol-ETL, termasuk Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake, dan Amazon Aurora

Integrasi nol-ETL dengan Amazon Redshift dan Amazon Aurora

Amazon Redshift adalah gudang data cloud yang memungkinkan bisnis untuk menskalakan beban kerja analitik mereka dengan biaya terjangkau. Sementara itu, Amazon Aurora adalah basis data relasional beperforma tinggi yang kompatibel dengan MySQL dan PostgreSQL. 

Langkah 1—Konfigurasikan sumber integrasi 

Verifikasi bahwa basis data Amazon Aurora Anda mendukung integrasi nol-ETL dengan Amazon Redshift. Amazon Redshift mendukung integrasi nol-ETL berikut dengan Amazon Aurora pada saat penulisan.

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

Konfigurasikan log biner di Aurora untuk memastikan bahwa Anda mengambil perubahan data untuk replikasi. Pilih opsi enkripsi untuk data diam dan bergerak guna memenuhi persyaratan keamanan. Terakhir, siapkan kebijakan dan peran IAM yang diperlukan untuk memberikan izin integrasi dengan Amazon Redshift.

Amazon Redshift juga mendukung nol ETL dengan Amazon RDS for MySQL, Amazon DynamoDB, dan aplikasi, seperti Salesforce, SAP, ServiceNow, serta Zendesk.

Langkah 2—Konfigurasikan tujuan

Jika Anda tidak memilikinya, luncurkan klaster Redshift baru dengan konfigurasi penyimpanan dan komputasi yang sesuai. Pastikan klaster Amazon Redshift memiliki akses jaringan dan pengaturan enkripsi yang diperlukan. Modifikasi grup keamanan dan pengaturan VPC untuk memungkinkan konektivitas antara Aurora dan Redshift.

Langkah 3—Validasi integrasi

Amazon Redshift melakukan pemuatan awal data dari Amazon Aurora. Setelah itu, secara otomatis memantau sumber dan mereplikasi data yang diperbarui secara waktu nyata. Anda dapat menjalankan kueri di Amazon Redshift untuk memverifikasi bahwa data cocok dengan sumbernya.

Bagaimana AWS dapat mendukung kebutuhan integrasi data Anda?

Integrasi data adalah kunci untuk memberi bisnis gambaran lengkap tentang data dari banyak sumber data, yang dimasukkan ke dalam visualisasi dan analitik canggih. Mengelola pipeline integrasi yang kompleks di seluruh sumber data yang tidak terstruktur, semiterstruktur, dan terstruktur yang terus berkembang bisa menjadi hal yang sulit. Integrasi data cloud membantu menyederhanakan alur kerja manajemen data dengan alat dan layanan integrasi data yang inovatif, seperti nirserver dan nol-ETL. Jelajahi layanan AWS yang memenuhi kebutuhan integrasi data modern di sini.