แพลตฟอร์มการรวมข้อมูลคืออะไร

หัวข้อของหน้า

แพลตฟอร์มการรวมข้อมูลคืออะไร
กระบวนการรวมข้อมูลคืออะไร
การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์คืออะไร
การบูรณาการ Zero-ETL คืออะไร
AWS สามารถสนับสนุนความต้องการการผสานรวมข้อมูลของคุณได้อย่างไร

แพลตฟอร์มการรวมข้อมูลคืออะไร

องค์กรสมัยใหม่สร้างและใช้ข้อมูลผ่านระบบและรูปแบบที่หลากหลายตั้งแต่หลักสิบไปจนถึงหลักพันระบบ การรวมข้อมูลหมายถึงกระบวนการรวบรวมข้อมูลจากระบบและรูปแบบที่แตกต่างกัน และทำข้อมูลให้เป็นบรรทัดฐานเพื่อให้ข้อมูลนั้นมีประโยชน์มากขึ้น ด้วยข้อมูลที่ถูกรวมไว้ด้วยกัน คุณจะสามารถเข้าถึงมุมมองที่รวมเป็นหนึ่งเดียวของข้อมูลทั้งหมดเพื่อสนับสนุนการตัดสินใจและการรายงานผล ตลอดจนสามารถนำข้อมูลไปวิเคราะห์ต่อ ซึ่งจะส่งผลให้มีข้อมูลประกอบการตัดสินใจที่ครบถ้วนยิ่งขึ้น

บริษัทต่าง ๆ ต้องการข้อมูลที่ถูกรวบรวมเข้าด้วยกันเพื่อสนับสนุนการวิเคราะห์ทางธุรกิจ การปรับแต่งโมเดลแมชชีนเลิร์นนิงและสำหรับแอปพลิเคชันระดับองค์กรและกระบวนการทางธุรกิจอื่น ๆ การรวมข้อมูลเกี่ยวข้องกับการรวบรวม การแปลง และการรวบรวมข้อมูลดิบเข้าด้วยกัน เพื่อให้ธุรกิจสามารถได้รับประโยชน์จากรูปแบบข้อมูลที่ประมวลผลร่วมกันนี้ ตัวอย่างเช่น ข้อมูลจากรายการธุรกรรม จำนวนและประเภทของบัญชี และบันทึกข้อมูล การบริการลูกค้า ช่วยสร้างมุมมองแบบรวมศูนย์ของข้อมูลลูกค้าสำหรับธนาคารได้

กระบวนการรวมข้อมูลคืออะไร

องค์กรเข้าใจประโยชน์ของการรวมข้อมูลเพื่อเวิร์กโฟลว์ที่มีประสิทธิผลมากขึ้น การกำหนดกระบวนการรวมข้อมูลช่วยให้องค์กรสร้างผลลัพธ์ที่น่าเชื่อถือและทำซ้ำได้มากขึ้น

1. ระบุแหล่งที่มาของข้อมูลที่แตกต่างกัน

ระบุแหล่งที่มาของข้อมูลหลายแหล่งที่ต้องการการรวมทั้งโดยอัตโนมัติหรือด้วยตนเอง องค์กรต่าง ๆ สร้างและจัดเก็บข้อมูลไว้ในระบบและรูปแบบข้อมูลที่หลากหลายแตกต่างกันออกไปมากมาย ตัวอย่างเช่น องค์กรหนึ่งอาจใช้ฐานข้อมูล SQL ประเภทต่าง ๆ แคชหน่วยความจำ และที่เก็บเอกสาร แอปพลิเคชันภายในองค์กรดังกล่าวอาจจัดเก็บข้อมูลในรูปแบบที่เป็นกรรมสิทธิ์โดยไม่ต้องเข้าถึงข้อมูลภายนอกอย่างตรงไปตรงมา

2. กำหนดกลยุทธ์การรวม

ตรวจสอบพื้นที่เก็บข้อมูลและรูปแบบที่เกี่ยวข้องควบคู่ไปกับข้อกำหนดขององค์กรของคุณเพื่อกำหนดวิธีที่ดีที่สุดในการแยกและแปลงข้อมูลให้เป็นรูปแบบปกติ นี่คือกลยุทธ์การรวมข้อมูลทั่วไปบางอย่าง:

รูปแบบ Extract, Transform, Load (ETL) จะสกัดข้อมูลจากระบบปัจจุบัน แปลงข้อมูล และโหลดข้อมูลเข้าสู่ระบบเป้าหมาย ETL เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลในรูปแบบคลังข้อมูล
รูปแบบExtract, Load, Transform (ELT) จะสกัดข้อมูลจากระบบปัจจุบัน โหลดข้อมูลเข้าสู่ระบบเป้าหมาย และค่อยทำการแปลงข้อมูล ELT อนุญาตให้สามารถคงข้อมูลไว้ในรูปแบบที่ไม่เป็นโครงสร้างได้ จนกว่าคุณจะจำเป็นต้องใช้ข้อมูลนั้นเพื่อการวิเคราะห์ ELT เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลแบบ Data Lake
การนำข้อมูลเข้าแบบสตรีมมิงตามเวลาจริงจะดักจับข้อมูลจากสตรีมและดำเนินการนำข้อมูลเข้าเพื่อให้เกิดการรวมข้อมูลแบบใกล้เคียงเวลาจริง
Change Data Capture (CDC) คือกระบวนการในการตรวจหาการเปลี่ยนแปลงของข้อมูลและเผยแพร่การเปลี่ยนแปลงเหล่านี้ไปยังสตรีมเหตุการณ์เพื่อการนำข้อมูลเข้า

ในขั้นตอนนี้ คุณจะต้องกำหนดระบบพื้นที่เก็บข้อมูลเป้าหมายหรือพื้นที่เก็บข้อมูลเช่นคลังข้อมูลหรือ Data Lake

3. ออกแบบสคีมา

กำหนดสคีมาข้อมูลหรือประเภทการจัดเก็บแบบไม่มีสคีมาสำหรับสถานะสุดท้ายของข้อมูล สคีมาดังกล่าวต้องสามารถขยายได้ ปรับเวอร์ชันได้ และเข้ากับความคาดหวังในการจัดเก็บข้อมูลขององค์กร สคีมาใหม่ควรคงไว้ซึ่งคุณภาพข้อมูลและความถูกต้องของข้อมูล พร้อมทั้งมีกฎการกำกับดูแลข้อมูลที่สอดคล้องกันสำหรับการรวมข้อมูลในอนาคต

4. สกัดข้อมูล

กำหนดวิธีการที่ดีที่สุดสำหรับการสกัดข้อมูลเพื่อลดการขัดจังหวะการดำเนินธุรกิจให้น้อยที่สุด ตัวอย่างเช่น องค์กรจำนวนมากใช้การสกัดข้อมูลแบบแบทช์หลังจากปิดเวลาทำการในแต่ละวัน เพื่อรวมข้อมูลที่ไม่ใช่แบบเวลาจริง องค์กรอาจต้องใช้ API เพื่อสกัดข้อมูลสำหรับการรวมแอปพลิเคชันที่เป็นกรรมสิทธิ์หรือใช้บริการเช่น Amazon AppFlow เพื่อถ่ายโอนข้อมูลระหว่างแอปพลิเคชัน Software as a Service (SaaS) และระบบคลาวด์

5. ย้ายข้อมูลไปยังที่เก็บส่วนกลาง

ถ่ายโอนข้อมูลไปยังที่เก็บส่วนกลาง บางครั้งแหล่งที่มาของข้อมูลและปลายทางอยู่ในตำแหน่งที่แตกต่างกัน เช่น การย้ายข้อมูลจากในองค์กรไปยังคลาวด์ การเคลื่อนย้ายข้อมูลอาจจำเป็นต้องมีมาตรการความปลอดภัยเพิ่มเติม แบนด์วิดท์เพิ่มเติม หรือการพิจารณาเรื่องสถานที่จัดเก็บข้อมูล

6. แปลงข้อมูล

ข้อมูลอาจจำเป็นต้องได้รับการแปลงให้เป็นรูปแบบสุดท้ายในที่เก็บข้อมูลส่วนกลาง ข้อมูลที่ผ่านการแปลงสามารถเป็นได้มากกว่าการเปลี่ยนรูปแบบ ตัวอย่างเช่น การคำนวณค่าเฉลี่ยจากจุดข้อมูลหลายจุด

การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์คืออะไร

ธุรกิจกำลังเปลี่ยนเวิร์กโฟลว์ข้อมูลจากโครงสร้างพื้นฐานในสถานที่ไปยังแพลตฟอร์มข้อมูลคลาวด์ที่ทันสมัย สถาปัตยกรรมคลาวด์ช่วยให้องค์กรก้าวข้ามข้อจำกัดด้านฮาร์ดแวร์ทางกายภาพ และนำเสนอตัวเลือกบริการวิเคราะห์ข้อมูลบนคลาวด์ที่ล้ำสมัยและสามารถบูรณาการเข้าด้วยกันได้ เช่น ระบบอัจฉริยะทางธุรกิจและ AI

การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์เป็นแนวคิดการประมวลผลบนคลาวด์ที่ให้บริการคลาวด์ที่มีความยืดหยุ่นเต็มรูปแบบ มีความสามารถในการทนต่อความเสียหาย และขจัดความยุ่งยากซับซ้อนในการจัดสรรทรัพยากรเซิร์ฟเวอร์ ตามปกติเมื่อสร้างไปป์ไลน์ข้อมูล คุณจะจัดหาและบำรุงรักษาเซิร์ฟเวอร์และบริการโค้ดสำหรับการนำข้อมูลเข้า การเปลี่ยนแปลง และการจัดการข้อมูล ด้วยผลิตภัณฑ์การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ คุณจะสามารถปรับขนาดได้อย่างเต็มรูปแบบโดยไม่มีค่าใช้จ่ายในการจัดการ งานจะดำเนินไปจนกว่าจะเสร็จสิ้น และบริการจะกลับสู่สภาวะหยุดนิ่งอีกครั้งจนกว่าจะมีความต้องการใช้งานในครั้งถัดไป

การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์มีประโยชน์สำหรับงานบูรณาการข้อมูลแบบตามความต้องการด้วยรูปแบบการจ่ายเงินตามการใช้งานจริง ซึ่งสามารถช่วยลดต้นทุนโครงสร้างพื้นฐานให้กับบริษัทต่าง ๆ ได้

ตัวอย่างเช่น AWS Glue เป็นโซลูชันการรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ AWS Glue อนุญาตให้คุณสามารถค้นพบและเชื่อมต่อกับแหล่งที่มาของข้อมูลอันหลากหลายกว่า 100 แหล่ง จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมไปถึงสร้างภาพ เรียกใช้ และตรวจติดตามไปป์ไลน์ข้อมูลเพื่อโหลดข้อมูลเข้ามายัง Data Lake, คลังข้อมูล และ Lakehouse ของคุณ

ด้วย AWS Glue ช่วยให้คุณสามารถใช้กลไกการรวมข้อมูลที่เหมาะสมกับเวิร์กโหลดทุกประเภทตามลักษณะของเวิร์กโหลดและตามความต้องการของนักพัฒนาและนักวิเคราะห์ของคุณได้ งาน AWS Glue สามารถเรียกใช้ได้ตามกำหนดเวลา ตามความต้องการ หรือตามเหตุการณ์

การรวมข้อมูล ETL แบบไม่ต้องใช้เซิร์ฟเวอร์กับ AWS Glue

เพื่อเริ่มใช้ AWS Glue ให้เริ่มคอนโซล AWS Glue Studio ก่อนที่คุณจะเริ่มใช้ AWS Glue ให้ตั้งค่านโยบายและบทบาทของ IAM ที่จำเป็นในคอนโซล

ขั้นตอนที่ 1 - เพิ่มคำจำกัดความตารางลงในแค็ตตาล็อกข้อมูลของ AWS Glue

นำทางไปยังแค็ตตาล็อกข้อมูล เลือก เพิ่มตารางโดยใช้ Crawler และเลือกที่เก็บแหล่งที่มาของข้อมูลที่คุณต้องการให้โปรแกรมทำการสแกน เพื่อทำแผนผังการจับคู่ข้อมูลของสคีมาและข้อมูลเมตาของคุณ เพื่อสร้างคำนิยามข้อมูลและตารางต่าง ๆ ในแค็ตตาล็อกข้อมูล

ขั้นตอนที่ 2 - กำหนดงานการเปลี่ยนแปลงของคุณ

เลือกงาน ETL จากบานหน้าต่างนำทาง แล้วเลือก สร้างงานโดยใช้ Visual ETL เพิ่มแหล่งที่มาของข้อมูลและโหนดเป้าหมายข้อมูลในโปรแกรมแก้ไขภาพและกำหนดค่าข้อมูล Glue Studio สร้างโค้ดในแท็บ Script ที่จะแปลงข้อมูลในตารางต้นทางเป็นสคีมาของตารางเป้าหมาย

ขั้นตอนที่ 3 - เรียกใช้งาน AWS Glue

คุณสามารถตั้งค่าพารามิเตอร์สำหรับงานที่เรียกใช้ด้วยเครื่องมือการกำกับดูแลข้อมูลในแท็บ Job details เมื่อคุณกำหนดค่าพารามิเตอร์แล้ว ให้เลือก บันทึก จากนั้นเลือก Run เพื่อเริ่มกระบวนการข้อมูลสำหรับการแปลงและการรวม

ขั้นตอนที่ 4 - ตรวจสอบผลลัพธ์

ในแท็บ Visual ให้เลือกโหนดเป้าหมายเพื่อสังเกตตัวอย่างข้อมูลเพื่อให้แน่ใจว่าข้อมูลที่ถูกต้องอยู่ในโหนดดังกล่าว

สำหรับข้อมูลเพิ่มเติม โปรดอ้างอิง AWS Glue: คู่มือผู้ใช้

การบูรณาการ Zero-ETL คืออะไร

Zero-ETL เป็นชุดการบูรณาการที่ลดความจำเป็นในการสร้างไปป์ไลน์ข้อมูล ETL โดยปกติคุณจะสร้าง กำหนดค่า และเรียกใช้ไปป์ไลน์ ETL เมื่อถ่ายโอนข้อมูลจากแหล่งที่มาของข้อมูลไปยังปลายทาง อย่างไรก็ตาม ด้วยวิธีการบูรณาการ Zero-ETL กระบวนการ ETL จะถูกซ่อนโดยอัตโนมัติและซ่อนอยู่ภายในกระบวนการซอฟต์แวร์

หลังจากโหลดข้อมูลจากแหล่งที่มาไปยังปลายทางในครั้งแรก การจำลองข้อมูลเพิ่มเติมจะเกิดขึ้นโดยอัตโนมัติทุกครั้งที่ข้อมูลในแหล่งที่มาของข้อมูลได้รับการอัปเดต กระบวนการ ZERO-ETL นี้ช่วยให้สามารถวิเคราะห์ไปป์ไลน์การวิเคราะห์แบบเกือบเรียลไทม์

AWS มีบริการหลายอย่างที่รองรับ Zero-ETL รวมถึง Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake, and Amazon Aurora

การบูรณาการ Zero-ETL กับ Amazon Redshift และ Amazon Aurora

Amazon Redshift เป็นคลังข้อมูลบนคลาวด์ที่ช่วยให้ธุรกิจสามารถปรับขนาดเวิร์กโหลดการวิเคราะห์ได้ในราคาไม่แพง ในขณะเดียวกัน Amazon Aurora เป็นฐานข้อมูลแบบเชิงสัมพันธ์ประสิทธิภาพสูงที่เข้ากันได้กับ MySQL และ PostgreSQL

ขั้นตอนที่ 1 - กำหนดค่าแหล่งที่มาการบูรณาการ

ตรวจสอบว่าฐานข้อมูล Amazon Aurora ของคุณรองรับการบูรณาการ Zero-ETL กับ Amazon Redshift หรือไม่ Amazon Redshift สนับสนุนการบุรณาการ Zero-ETL ต่อไปนี้กับ Amazon Aurora ในขณะที่เขียน

Amazon Aurora MySQL
Amazon Aurora PostgreSQL

กำหนดค่าการบันทึกแบบไบนารีใน Aurora เพื่อให้แน่ใจว่าคุณบบันทุกการเปลี่ยนแปลงข้อมูลสำหรับการจำลองแบบ เลือกตัวเลือกการเข้ารหัสสำหรับข้อมูลที่อยู่ในพื้นที่จัดเก็บและที่อยู่ระหว่างการโอนย้ายเพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัย สุดท้ายตั้งค่านโยบายและบทบาท IAM ที่จำเป็นเพื่อมอบสิทธิ์สำหรับการรวมเข้ากับ Amazon Redshift

Amazon Redshift ยังรองรับ Zero ETL กับ Amazon RDS สำหรับ MySQL, Amazon DynamoDB และแอปพลิเคชันเช่น Salesforce, SAP, ServiceNow และ Zendesk

ขั้นตอนที่ 2 - กำหนดค่าปลายทาง

หากคุณไม่มีคลัสเตอร์ Redshift ใหม่ ให้เปิดตัวคลัสเตอร์ Redshift ใหม่พร้อมพื้นที่เก็บข้อมูลและการกำหนดค่าการประมวลผลที่เหมาะสม ตรวจสอบให้แน่ใจว่าคลัสเตอร์ Amazon Redshift มีการตั้งค่าการเข้าถึงเครือข่ายและการเข้ารหัสที่จำเป็น แก้ไขกลุ่มมาตรการรักษาความปลอดภัยและการตั้งค่า VPC เพื่อให้สามารถเชื่อมต่อระหว่าง Aurora และ Redshift

ขั้นตอนที่ 3 - ตรวจสอบการบูรณาการ

Amazon Redshift ทำการโหลดข้อมูลเบื้องต้นจาก Amazon Aurora หลังจากนั้น ระบบจะติดตามตรวจสอบแหล่งที่มาโดยอัตโนมัติและทำซ้ำข้อมูลที่อัปเดตแบบเรียลไทม์ คุณสามารถเรียกใช้การสืบค้นใน Amazon Redshift เพื่อตรวจสอบว่าข้อมูลตรงกับแหล่งที่มาหรือไม่

AWS สามารถสนับสนุนความต้องการการผสานรวมข้อมูลของคุณได้อย่างไร

การผสานรวมข้อมูลเป็นกุญแจสำคัญในการให้ธุรกิจภาพที่สมบูรณ์ของข้อมูลจากแหล่งที่มาของข้อมูลหลายแหล่ง โดยป้อนเข้าสู่การแสดงภาพและการวิเคราะห์ขั้นสูง การจัดการไปป์ไลน์การผสานรวมที่ซับซ้อนในแหล่งที่มาของข้อมูลแบบไม่มีโครงสร้าง แบบกึ่งมีโครงสร้าง และมีโครงสร้างที่กำลังเติบโตอาจเป็นเรื่องยาก การผสานรวมข้อมูลบนคลาวด์ช่วยลดความซับซ้อนของเวิร์กโฟลว์การจัดการข้อมูลด้วยเครื่องมือและบริการการรวมข้อมูลที่เป็นนวัตกรรมใหม่ เช่น การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์และ Zero-ETL สำรวจบริการ AWS ที่ตอบสนองความต้องการในการผสานรวมข้อมูลที่ทันสมัยได้ที่นี่

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เพิ่มเติม

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างด้วย AWS ในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

แพลตฟอร์มการรวมข้อมูลคืออะไร

หัวข้อของหน้า