ข้ามไปที่เนื้อหาหลัก

แพลตฟอร์มการรวมข้อมูลคืออะไร

แพลตฟอร์มการรวมข้อมูลคืออะไร

องค์กรสมัยใหม่สร้างและใช้ข้อมูลผ่านระบบและรูปแบบที่หลากหลายตั้งแต่หลักสิบไปจนถึงหลักพันระบบ การรวมข้อมูลหมายถึงกระบวนการรวบรวมข้อมูลจากระบบและรูปแบบที่แตกต่างกัน และทำข้อมูลให้เป็นบรรทัดฐานเพื่อให้ข้อมูลนั้นมีประโยชน์มากขึ้น ด้วยข้อมูลที่ถูกรวมไว้ด้วยกัน คุณจะสามารถเข้าถึงมุมมองที่รวมเป็นหนึ่งเดียวของข้อมูลทั้งหมดเพื่อสนับสนุนการตัดสินใจและการรายงานผล ตลอดจนสามารถนำข้อมูลไปวิเคราะห์ต่อ ซึ่งจะส่งผลให้มีข้อมูลประกอบการตัดสินใจที่ครบถ้วนยิ่งขึ้น

บริษัทต่าง ๆ ต้องการข้อมูลที่ถูกรวบรวมเข้าด้วยกันเพื่อสนับสนุนการวิเคราะห์ทางธุรกิจ การปรับแต่งโมเดลแมชชีนเลิร์นนิงและสำหรับแอปพลิเคชันระดับองค์กรและกระบวนการทางธุรกิจอื่น ๆ การรวมข้อมูลเกี่ยวข้องกับการรวบรวม การแปลง และการรวบรวมข้อมูลดิบเข้าด้วยกัน เพื่อให้ธุรกิจสามารถได้รับประโยชน์จากรูปแบบข้อมูลที่ประมวลผลร่วมกันนี้ ตัวอย่างเช่น ข้อมูลจากรายการธุรกรรม จำนวนและประเภทของบัญชี และบันทึกข้อมูล การบริการลูกค้า ช่วยสร้างมุมมองแบบรวมศูนย์ของข้อมูลลูกค้าสำหรับธนาคารได้

กระบวนการรวมข้อมูลคืออะไร

องค์กรเข้าใจประโยชน์ของการรวมข้อมูลเพื่อเวิร์กโฟลว์ที่มีประสิทธิผลมากขึ้น การกำหนดกระบวนการรวมข้อมูลช่วยให้องค์กรสร้างผลลัพธ์ที่น่าเชื่อถือและทำซ้ำได้มากขึ้น 

1. ระบุแหล่งที่มาของข้อมูลที่แตกต่างกัน

ระบุแหล่งที่มาของข้อมูลหลายแหล่งที่ต้องการการรวมทั้งโดยอัตโนมัติหรือด้วยตนเอง องค์กรต่าง ๆ สร้างและจัดเก็บข้อมูลไว้ในระบบและรูปแบบข้อมูลที่หลากหลายแตกต่างกันออกไปมากมาย ตัวอย่างเช่น องค์กรหนึ่งอาจใช้ฐานข้อมูล SQL ประเภทต่าง ๆ แคชหน่วยความจำ และที่เก็บเอกสาร แอปพลิเคชันภายในองค์กรดังกล่าวอาจจัดเก็บข้อมูลในรูปแบบที่เป็นกรรมสิทธิ์โดยไม่ต้องเข้าถึงข้อมูลภายนอกอย่างตรงไปตรงมา

2. กำหนดกลยุทธ์การรวม

ตรวจสอบพื้นที่เก็บข้อมูลและรูปแบบที่เกี่ยวข้องควบคู่ไปกับข้อกำหนดขององค์กรของคุณเพื่อกำหนดวิธีที่ดีที่สุดในการแยกและแปลงข้อมูลให้เป็นรูปแบบปกติ นี่คือกลยุทธ์การรวมข้อมูลทั่วไปบางอย่าง:

  • รูปแบบ Extract, Transform, Load (ETL) จะสกัดข้อมูลจากระบบปัจจุบัน แปลงข้อมูล และโหลดข้อมูลเข้าสู่ระบบเป้าหมาย ETL เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลในรูปแบบคลังข้อมูล
  • รูปแบบExtract, Load, Transform (ELT) จะสกัดข้อมูลจากระบบปัจจุบัน โหลดข้อมูลเข้าสู่ระบบเป้าหมาย และค่อยทำการแปลงข้อมูล ELT อนุญาตให้สามารถคงข้อมูลไว้ในรูปแบบที่ไม่เป็นโครงสร้างได้ จนกว่าคุณจะจำเป็นต้องใช้ข้อมูลนั้นเพื่อการวิเคราะห์ ELT เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลแบบ Data Lake
  • การนำข้อมูลเข้าแบบสตรีมมิงตามเวลาจริงจะดักจับข้อมูลจากสตรีมและดำเนินการนำข้อมูลเข้าเพื่อให้เกิดการรวมข้อมูลแบบใกล้เคียงเวลาจริง
  • Change Data Capture (CDC) คือกระบวนการในการตรวจหาการเปลี่ยนแปลงของข้อมูลและเผยแพร่การเปลี่ยนแปลงเหล่านี้ไปยังสตรีมเหตุการณ์เพื่อการนำข้อมูลเข้า

ในขั้นตอนนี้ คุณจะต้องกำหนดระบบพื้นที่เก็บข้อมูลเป้าหมายหรือพื้นที่เก็บข้อมูลเช่นคลังข้อมูลหรือ Data Lake

3. ออกแบบสคีมา

กำหนดสคีมาข้อมูลหรือประเภทการจัดเก็บแบบไม่มีสคีมาสำหรับสถานะสุดท้ายของข้อมูล สคีมาดังกล่าวต้องสามารถขยายได้ ปรับเวอร์ชันได้ และเข้ากับความคาดหวังในการจัดเก็บข้อมูลขององค์กร สคีมาใหม่ควรคงไว้ซึ่งคุณภาพข้อมูลและความถูกต้องของข้อมูล พร้อมทั้งมีกฎการกำกับดูแลข้อมูลที่สอดคล้องกันสำหรับการรวมข้อมูลในอนาคต

4. สกัดข้อมูล

กำหนดวิธีการที่ดีที่สุดสำหรับการสกัดข้อมูลเพื่อลดการขัดจังหวะการดำเนินธุรกิจให้น้อยที่สุด ตัวอย่างเช่น องค์กรจำนวนมากใช้การสกัดข้อมูลแบบแบทช์หลังจากปิดเวลาทำการในแต่ละวัน เพื่อรวมข้อมูลที่ไม่ใช่แบบเวลาจริง องค์กรอาจต้องใช้ API เพื่อสกัดข้อมูลสำหรับการรวมแอปพลิเคชันที่เป็นกรรมสิทธิ์หรือใช้บริการเช่น Amazon AppFlow เพื่อถ่ายโอนข้อมูลระหว่างแอปพลิเคชัน Software as a Service (SaaS) และระบบคลาวด์

5. ย้ายข้อมูลไปยังที่เก็บส่วนกลาง

ถ่ายโอนข้อมูลไปยังที่เก็บส่วนกลาง บางครั้งแหล่งที่มาของข้อมูลและปลายทางอยู่ในตำแหน่งที่แตกต่างกัน เช่น การย้ายข้อมูลจากในองค์กรไปยังคลาวด์ การเคลื่อนย้ายข้อมูลอาจจำเป็นต้องมีมาตรการความปลอดภัยเพิ่มเติม แบนด์วิดท์เพิ่มเติม หรือการพิจารณาเรื่องสถานที่จัดเก็บข้อมูล

6. แปลงข้อมูล

ข้อมูลอาจจำเป็นต้องได้รับการแปลงให้เป็นรูปแบบสุดท้ายในที่เก็บข้อมูลส่วนกลาง ข้อมูลที่ผ่านการแปลงสามารถเป็นได้มากกว่าการเปลี่ยนรูปแบบ ตัวอย่างเช่น การคำนวณค่าเฉลี่ยจากจุดข้อมูลหลายจุด

การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์คืออะไร

ธุรกิจกำลังเปลี่ยนเวิร์กโฟลว์ข้อมูลจากโครงสร้างพื้นฐานในสถานที่ไปยังแพลตฟอร์มข้อมูลคลาวด์ที่ทันสมัย สถาปัตยกรรมคลาวด์ช่วยให้องค์กรก้าวข้ามข้อจำกัดด้านฮาร์ดแวร์ทางกายภาพ และนำเสนอตัวเลือกบริการวิเคราะห์ข้อมูลบนคลาวด์ที่ล้ำสมัยและสามารถบูรณาการเข้าด้วยกันได้ เช่น ระบบอัจฉริยะทางธุรกิจและ AI 

การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์เป็นแนวคิดการประมวลผลบนคลาวด์ที่ให้บริการคลาวด์ที่มีความยืดหยุ่นเต็มรูปแบบ มีความสามารถในการทนต่อความเสียหาย และขจัดความยุ่งยากซับซ้อนในการจัดสรรทรัพยากรเซิร์ฟเวอร์ ตามปกติเมื่อสร้างไปป์ไลน์ข้อมูล คุณจะจัดหาและบำรุงรักษาเซิร์ฟเวอร์และบริการโค้ดสำหรับการนำข้อมูลเข้า การเปลี่ยนแปลง และการจัดการข้อมูล ด้วยผลิตภัณฑ์การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ คุณจะสามารถปรับขนาดได้อย่างเต็มรูปแบบโดยไม่มีค่าใช้จ่ายในการจัดการ งานจะดำเนินไปจนกว่าจะเสร็จสิ้น และบริการจะกลับสู่สภาวะหยุดนิ่งอีกครั้งจนกว่าจะมีความต้องการใช้งานในครั้งถัดไป

การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์มีประโยชน์สำหรับงานบูรณาการข้อมูลแบบตามความต้องการด้วยรูปแบบการจ่ายเงินตามการใช้งานจริง ซึ่งสามารถช่วยลดต้นทุนโครงสร้างพื้นฐานให้กับบริษัทต่าง ๆ ได้ 

ตัวอย่างเช่น AWS Glue เป็นโซลูชันการรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ AWS Glue อนุญาตให้คุณสามารถค้นพบและเชื่อมต่อกับแหล่งที่มาของข้อมูลอันหลากหลายกว่า 100 แหล่ง จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมไปถึงสร้างภาพ เรียกใช้ และตรวจติดตามไปป์ไลน์ข้อมูลเพื่อโหลดข้อมูลเข้ามายัง Data Lake, คลังข้อมูล และ Lakehouse ของคุณ 

ด้วย AWS Glue ช่วยให้คุณสามารถใช้กลไกการรวมข้อมูลที่เหมาะสมกับเวิร์กโหลดทุกประเภทตามลักษณะของเวิร์กโหลดและตามความต้องการของนักพัฒนาและนักวิเคราะห์ของคุณได้ งาน AWS Glue สามารถเรียกใช้ได้ตามกำหนดเวลา ตามความต้องการ หรือตามเหตุการณ์

การรวมข้อมูล ETL แบบไม่ต้องใช้เซิร์ฟเวอร์กับ AWS Glue

เพื่อเริ่มใช้ AWS Glue ให้เริ่มคอนโซล AWS Glue Studio ก่อนที่คุณจะเริ่มใช้ AWS Glue ให้ตั้งค่านโยบายและบทบาทของ IAM ที่จำเป็นในคอนโซล

ขั้นตอนที่ 1 - เพิ่มคำจำกัดความตารางลงในแค็ตตาล็อกข้อมูลของ AWS Glue

นำทางไปยังแค็ตตาล็อกข้อมูล เลือก เพิ่มตารางโดยใช้ Crawler และเลือกที่เก็บแหล่งที่มาของข้อมูลที่คุณต้องการให้โปรแกรมทำการสแกน เพื่อทำแผนผังการจับคู่ข้อมูลของสคีมาและข้อมูลเมตาของคุณ เพื่อสร้างคำนิยามข้อมูลและตารางต่าง ๆ ในแค็ตตาล็อกข้อมูล

ขั้นตอนที่ 2 - กำหนดงานการเปลี่ยนแปลงของคุณ

เลือกงาน ETL จากบานหน้าต่างนำทาง แล้วเลือก สร้างงานโดยใช้ Visual ETL เพิ่มแหล่งที่มาของข้อมูลและโหนดเป้าหมายข้อมูลในโปรแกรมแก้ไขภาพและกำหนดค่าข้อมูล Glue Studio สร้างโค้ดในแท็บ Script ที่จะแปลงข้อมูลในตารางต้นทางเป็นสคีมาของตารางเป้าหมาย

ขั้นตอนที่ 3 - เรียกใช้งาน AWS Glue

คุณสามารถตั้งค่าพารามิเตอร์สำหรับงานที่เรียกใช้ด้วยเครื่องมือการกำกับดูแลข้อมูลในแท็บ Job details เมื่อคุณกำหนดค่าพารามิเตอร์แล้ว ให้เลือก บันทึก จากนั้นเลือก Run เพื่อเริ่มกระบวนการข้อมูลสำหรับการแปลงและการรวม

ขั้นตอนที่ 4 - ตรวจสอบผลลัพธ์

ในแท็บ Visual ให้เลือกโหนดเป้าหมายเพื่อสังเกตตัวอย่างข้อมูลเพื่อให้แน่ใจว่าข้อมูลที่ถูกต้องอยู่ในโหนดดังกล่าว

สำหรับข้อมูลเพิ่มเติม โปรดอ้างอิง AWS Glue: คู่มือผู้ใช้

การบูรณาการ Zero-ETL คืออะไร

Zero-ETL เป็นชุดการบูรณาการที่ลดความจำเป็นในการสร้างไปป์ไลน์ข้อมูล ETL โดยปกติคุณจะสร้าง กำหนดค่า และเรียกใช้ไปป์ไลน์ ETL เมื่อถ่ายโอนข้อมูลจากแหล่งที่มาของข้อมูลไปยังปลายทาง อย่างไรก็ตาม ด้วยวิธีการบูรณาการ Zero-ETL กระบวนการ ETL จะถูกซ่อนโดยอัตโนมัติและซ่อนอยู่ภายในกระบวนการซอฟต์แวร์ 

หลังจากโหลดข้อมูลจากแหล่งที่มาไปยังปลายทางในครั้งแรก การจำลองข้อมูลเพิ่มเติมจะเกิดขึ้นโดยอัตโนมัติทุกครั้งที่ข้อมูลในแหล่งที่มาของข้อมูลได้รับการอัปเดต กระบวนการ ZERO-ETL นี้ช่วยให้สามารถวิเคราะห์ไปป์ไลน์การวิเคราะห์แบบเกือบเรียลไทม์

AWS มีบริการหลายอย่างที่รองรับ Zero-ETL รวมถึง Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake, and Amazon Aurora 

การบูรณาการ Zero-ETL กับ Amazon Redshift และ Amazon Aurora

Amazon Redshift เป็นคลังข้อมูลบนคลาวด์ที่ช่วยให้ธุรกิจสามารถปรับขนาดเวิร์กโหลดการวิเคราะห์ได้ในราคาไม่แพง ในขณะเดียวกัน Amazon Aurora เป็นฐานข้อมูลแบบเชิงสัมพันธ์ประสิทธิภาพสูงที่เข้ากันได้กับ MySQL และ PostgreSQL 

ขั้นตอนที่ 1 - กำหนดค่าแหล่งที่มาการบูรณาการ 

ตรวจสอบว่าฐานข้อมูล Amazon Aurora ของคุณรองรับการบูรณาการ Zero-ETL กับ Amazon Redshift หรือไม่ Amazon Redshift สนับสนุนการบุรณาการ Zero-ETL ต่อไปนี้กับ Amazon Aurora ในขณะที่เขียน

  • Amazon Aurora MySQL
  • Amazon Aurora PostgreSQL

กำหนดค่าการบันทึกแบบไบนารีใน Aurora เพื่อให้แน่ใจว่าคุณบบันทุกการเปลี่ยนแปลงข้อมูลสำหรับการจำลองแบบ เลือกตัวเลือกการเข้ารหัสสำหรับข้อมูลที่อยู่ในพื้นที่จัดเก็บและที่อยู่ระหว่างการโอนย้ายเพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัย สุดท้ายตั้งค่านโยบายและบทบาท IAM ที่จำเป็นเพื่อมอบสิทธิ์สำหรับการรวมเข้ากับ Amazon Redshift

Amazon Redshift ยังรองรับ Zero ETL กับ Amazon RDS สำหรับ MySQL, Amazon DynamoDB และแอปพลิเคชันเช่น Salesforce, SAP, ServiceNow และ Zendesk

ขั้นตอนที่ 2 - กำหนดค่าปลายทาง

หากคุณไม่มีคลัสเตอร์ Redshift ใหม่ ให้เปิดตัวคลัสเตอร์ Redshift ใหม่พร้อมพื้นที่เก็บข้อมูลและการกำหนดค่าการประมวลผลที่เหมาะสม ตรวจสอบให้แน่ใจว่าคลัสเตอร์ Amazon Redshift มีการตั้งค่าการเข้าถึงเครือข่ายและการเข้ารหัสที่จำเป็น แก้ไขกลุ่มมาตรการรักษาความปลอดภัยและการตั้งค่า VPC เพื่อให้สามารถเชื่อมต่อระหว่าง Aurora และ Redshift

ขั้นตอนที่ 3 - ตรวจสอบการบูรณาการ

Amazon Redshift ทำการโหลดข้อมูลเบื้องต้นจาก Amazon Aurora หลังจากนั้น ระบบจะติดตามตรวจสอบแหล่งที่มาโดยอัตโนมัติและทำซ้ำข้อมูลที่อัปเดตแบบเรียลไทม์ คุณสามารถเรียกใช้การสืบค้นใน Amazon Redshift เพื่อตรวจสอบว่าข้อมูลตรงกับแหล่งที่มาหรือไม่

AWS สามารถสนับสนุนความต้องการการผสานรวมข้อมูลของคุณได้อย่างไร

การผสานรวมข้อมูลเป็นกุญแจสำคัญในการให้ธุรกิจภาพที่สมบูรณ์ของข้อมูลจากแหล่งที่มาของข้อมูลหลายแหล่ง โดยป้อนเข้าสู่การแสดงภาพและการวิเคราะห์ขั้นสูง การจัดการไปป์ไลน์การผสานรวมที่ซับซ้อนในแหล่งที่มาของข้อมูลแบบไม่มีโครงสร้าง แบบกึ่งมีโครงสร้าง และมีโครงสร้างที่กำลังเติบโตอาจเป็นเรื่องยาก การผสานรวมข้อมูลบนคลาวด์ช่วยลดความซับซ้อนของเวิร์กโฟลว์การจัดการข้อมูลด้วยเครื่องมือและบริการการรวมข้อมูลที่เป็นนวัตกรรมใหม่ เช่น การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์และ Zero-ETL สำรวจบริการ AWS ที่ตอบสนองความต้องการในการผสานรวมข้อมูลที่ทันสมัยได้ที่นี่