- การประมวลผลบนคลาวด์คืออะไร›
- ฮับแนวคิดการประมวลผลบนคลาวด์›
- ฐานข้อมูล›
- แพลตฟอร์มการรวมข้อมูลคืออะไร
แพลตฟอร์มการรวมข้อมูลคืออะไร
แพลตฟอร์มการรวมข้อมูลคืออะไร
องค์กรสมัยใหม่สร้างและใช้ข้อมูลผ่านระบบและรูปแบบที่หลากหลายตั้งแต่หลักสิบไปจนถึงหลักพันระบบ การรวมข้อมูลหมายถึงกระบวนการรวบรวมข้อมูลจากระบบและรูปแบบที่แตกต่างกัน และทำข้อมูลให้เป็นบรรทัดฐานเพื่อให้ข้อมูลนั้นมีประโยชน์มากขึ้น ด้วยข้อมูลที่ถูกรวมไว้ด้วยกัน คุณจะสามารถเข้าถึงมุมมองที่รวมเป็นหนึ่งเดียวของข้อมูลทั้งหมดเพื่อสนับสนุนการตัดสินใจและการรายงานผล ตลอดจนสามารถนำข้อมูลไปวิเคราะห์ต่อ ซึ่งจะส่งผลให้มีข้อมูลประกอบการตัดสินใจที่ครบถ้วนยิ่งขึ้น
บริษัทต่าง ๆ ต้องการข้อมูลที่ถูกรวบรวมเข้าด้วยกันเพื่อสนับสนุนการวิเคราะห์ทางธุรกิจ การปรับแต่งโมเดลแมชชีนเลิร์นนิงและสำหรับแอปพลิเคชันระดับองค์กรและกระบวนการทางธุรกิจอื่น ๆ การรวมข้อมูลเกี่ยวข้องกับการรวบรวม การแปลง และการรวบรวมข้อมูลดิบเข้าด้วยกัน เพื่อให้ธุรกิจสามารถได้รับประโยชน์จากรูปแบบข้อมูลที่ประมวลผลร่วมกันนี้ ตัวอย่างเช่น ข้อมูลจากรายการธุรกรรม จำนวนและประเภทของบัญชี และบันทึกข้อมูล การบริการลูกค้า ช่วยสร้างมุมมองแบบรวมศูนย์ของข้อมูลลูกค้าสำหรับธนาคารได้
กระบวนการรวมข้อมูลคืออะไร
องค์กรเข้าใจประโยชน์ของการรวมข้อมูลเพื่อเวิร์กโฟลว์ที่มีประสิทธิผลมากขึ้น การกำหนดกระบวนการรวมข้อมูลช่วยให้องค์กรสร้างผลลัพธ์ที่น่าเชื่อถือและทำซ้ำได้มากขึ้น
1. ระบุแหล่งที่มาของข้อมูลที่แตกต่างกัน
ระบุแหล่งที่มาของข้อมูลหลายแหล่งที่ต้องการการรวมทั้งโดยอัตโนมัติหรือด้วยตนเอง องค์กรต่าง ๆ สร้างและจัดเก็บข้อมูลไว้ในระบบและรูปแบบข้อมูลที่หลากหลายแตกต่างกันออกไปมากมาย ตัวอย่างเช่น องค์กรหนึ่งอาจใช้ฐานข้อมูล SQL ประเภทต่าง ๆ แคชหน่วยความจำ และที่เก็บเอกสาร แอปพลิเคชันภายในองค์กรดังกล่าวอาจจัดเก็บข้อมูลในรูปแบบที่เป็นกรรมสิทธิ์โดยไม่ต้องเข้าถึงข้อมูลภายนอกอย่างตรงไปตรงมา
2. กำหนดกลยุทธ์การรวม
ตรวจสอบพื้นที่เก็บข้อมูลและรูปแบบที่เกี่ยวข้องควบคู่ไปกับข้อกำหนดขององค์กรของคุณเพื่อกำหนดวิธีที่ดีที่สุดในการแยกและแปลงข้อมูลให้เป็นรูปแบบปกติ นี่คือกลยุทธ์การรวมข้อมูลทั่วไปบางอย่าง:
- รูปแบบ Extract, Transform, Load (ETL) จะสกัดข้อมูลจากระบบปัจจุบัน แปลงข้อมูล และโหลดข้อมูลเข้าสู่ระบบเป้าหมาย ETL เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลในรูปแบบคลังข้อมูล
- รูปแบบExtract, Load, Transform (ELT) จะสกัดข้อมูลจากระบบปัจจุบัน โหลดข้อมูลเข้าสู่ระบบเป้าหมาย และค่อยทำการแปลงข้อมูล ELT อนุญาตให้สามารถคงข้อมูลไว้ในรูปแบบที่ไม่เป็นโครงสร้างได้ จนกว่าคุณจะจำเป็นต้องใช้ข้อมูลนั้นเพื่อการวิเคราะห์ ELT เป็นรูปแบบทั่วไปสำหรับพื้นที่เก็บข้อมูลแบบ Data Lake
- การนำข้อมูลเข้าแบบสตรีมมิงตามเวลาจริงจะดักจับข้อมูลจากสตรีมและดำเนินการนำข้อมูลเข้าเพื่อให้เกิดการรวมข้อมูลแบบใกล้เคียงเวลาจริง
- Change Data Capture (CDC) คือกระบวนการในการตรวจหาการเปลี่ยนแปลงของข้อมูลและเผยแพร่การเปลี่ยนแปลงเหล่านี้ไปยังสตรีมเหตุการณ์เพื่อการนำข้อมูลเข้า
ในขั้นตอนนี้ คุณจะต้องกำหนดระบบพื้นที่เก็บข้อมูลเป้าหมายหรือพื้นที่เก็บข้อมูลเช่นคลังข้อมูลหรือ Data Lake
3. ออกแบบสคีมา
กำหนดสคีมาข้อมูลหรือประเภทการจัดเก็บแบบไม่มีสคีมาสำหรับสถานะสุดท้ายของข้อมูล สคีมาดังกล่าวต้องสามารถขยายได้ ปรับเวอร์ชันได้ และเข้ากับความคาดหวังในการจัดเก็บข้อมูลขององค์กร สคีมาใหม่ควรคงไว้ซึ่งคุณภาพข้อมูลและความถูกต้องของข้อมูล พร้อมทั้งมีกฎการกำกับดูแลข้อมูลที่สอดคล้องกันสำหรับการรวมข้อมูลในอนาคต
4. สกัดข้อมูล
กำหนดวิธีการที่ดีที่สุดสำหรับการสกัดข้อมูลเพื่อลดการขัดจังหวะการดำเนินธุรกิจให้น้อยที่สุด ตัวอย่างเช่น องค์กรจำนวนมากใช้การสกัดข้อมูลแบบแบทช์หลังจากปิดเวลาทำการในแต่ละวัน เพื่อรวมข้อมูลที่ไม่ใช่แบบเวลาจริง องค์กรอาจต้องใช้ API เพื่อสกัดข้อมูลสำหรับการรวมแอปพลิเคชันที่เป็นกรรมสิทธิ์หรือใช้บริการเช่น Amazon AppFlow เพื่อถ่ายโอนข้อมูลระหว่างแอปพลิเคชัน Software as a Service (SaaS) และระบบคลาวด์
5. ย้ายข้อมูลไปยังที่เก็บส่วนกลาง
ถ่ายโอนข้อมูลไปยังที่เก็บส่วนกลาง บางครั้งแหล่งที่มาของข้อมูลและปลายทางอยู่ในตำแหน่งที่แตกต่างกัน เช่น การย้ายข้อมูลจากในองค์กรไปยังคลาวด์ การเคลื่อนย้ายข้อมูลอาจจำเป็นต้องมีมาตรการความปลอดภัยเพิ่มเติม แบนด์วิดท์เพิ่มเติม หรือการพิจารณาเรื่องสถานที่จัดเก็บข้อมูล
6. แปลงข้อมูล
ข้อมูลอาจจำเป็นต้องได้รับการแปลงให้เป็นรูปแบบสุดท้ายในที่เก็บข้อมูลส่วนกลาง ข้อมูลที่ผ่านการแปลงสามารถเป็นได้มากกว่าการเปลี่ยนรูปแบบ ตัวอย่างเช่น การคำนวณค่าเฉลี่ยจากจุดข้อมูลหลายจุด
การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์คืออะไร
ธุรกิจกำลังเปลี่ยนเวิร์กโฟลว์ข้อมูลจากโครงสร้างพื้นฐานในสถานที่ไปยังแพลตฟอร์มข้อมูลคลาวด์ที่ทันสมัย สถาปัตยกรรมคลาวด์ช่วยให้องค์กรก้าวข้ามข้อจำกัดด้านฮาร์ดแวร์ทางกายภาพ และนำเสนอตัวเลือกบริการวิเคราะห์ข้อมูลบนคลาวด์ที่ล้ำสมัยและสามารถบูรณาการเข้าด้วยกันได้ เช่น ระบบอัจฉริยะทางธุรกิจและ AI
การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์เป็นแนวคิดการประมวลผลบนคลาวด์ที่ให้บริการคลาวด์ที่มีความยืดหยุ่นเต็มรูปแบบ มีความสามารถในการทนต่อความเสียหาย และขจัดความยุ่งยากซับซ้อนในการจัดสรรทรัพยากรเซิร์ฟเวอร์ ตามปกติเมื่อสร้างไปป์ไลน์ข้อมูล คุณจะจัดหาและบำรุงรักษาเซิร์ฟเวอร์และบริการโค้ดสำหรับการนำข้อมูลเข้า การเปลี่ยนแปลง และการจัดการข้อมูล ด้วยผลิตภัณฑ์การรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ คุณจะสามารถปรับขนาดได้อย่างเต็มรูปแบบโดยไม่มีค่าใช้จ่ายในการจัดการ งานจะดำเนินไปจนกว่าจะเสร็จสิ้น และบริการจะกลับสู่สภาวะหยุดนิ่งอีกครั้งจนกว่าจะมีความต้องการใช้งานในครั้งถัดไป
การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์มีประโยชน์สำหรับงานบูรณาการข้อมูลแบบตามความต้องการด้วยรูปแบบการจ่ายเงินตามการใช้งานจริง ซึ่งสามารถช่วยลดต้นทุนโครงสร้างพื้นฐานให้กับบริษัทต่าง ๆ ได้
ตัวอย่างเช่น AWS Glue เป็นโซลูชันการรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ AWS Glue อนุญาตให้คุณสามารถค้นพบและเชื่อมต่อกับแหล่งที่มาของข้อมูลอันหลากหลายกว่า 100 แหล่ง จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมไปถึงสร้างภาพ เรียกใช้ และตรวจติดตามไปป์ไลน์ข้อมูลเพื่อโหลดข้อมูลเข้ามายัง Data Lake, คลังข้อมูล และ Lakehouse ของคุณ
ด้วย AWS Glue ช่วยให้คุณสามารถใช้กลไกการรวมข้อมูลที่เหมาะสมกับเวิร์กโหลดทุกประเภทตามลักษณะของเวิร์กโหลดและตามความต้องการของนักพัฒนาและนักวิเคราะห์ของคุณได้ งาน AWS Glue สามารถเรียกใช้ได้ตามกำหนดเวลา ตามความต้องการ หรือตามเหตุการณ์
การรวมข้อมูล ETL แบบไม่ต้องใช้เซิร์ฟเวอร์กับ AWS Glue
เพื่อเริ่มใช้ AWS Glue ให้เริ่มคอนโซล AWS Glue Studio ก่อนที่คุณจะเริ่มใช้ AWS Glue ให้ตั้งค่านโยบายและบทบาทของ IAM ที่จำเป็นในคอนโซล
ขั้นตอนที่ 1 - เพิ่มคำจำกัดความตารางลงในแค็ตตาล็อกข้อมูลของ AWS Glue
นำทางไปยังแค็ตตาล็อกข้อมูล เลือก เพิ่มตารางโดยใช้ Crawler และเลือกที่เก็บแหล่งที่มาของข้อมูลที่คุณต้องการให้โปรแกรมทำการสแกน เพื่อทำแผนผังการจับคู่ข้อมูลของสคีมาและข้อมูลเมตาของคุณ เพื่อสร้างคำนิยามข้อมูลและตารางต่าง ๆ ในแค็ตตาล็อกข้อมูล
ขั้นตอนที่ 2 - กำหนดงานการเปลี่ยนแปลงของคุณ
เลือกงาน ETL จากบานหน้าต่างนำทาง แล้วเลือก สร้างงานโดยใช้ Visual ETL เพิ่มแหล่งที่มาของข้อมูลและโหนดเป้าหมายข้อมูลในโปรแกรมแก้ไขภาพและกำหนดค่าข้อมูล Glue Studio สร้างโค้ดในแท็บ Script ที่จะแปลงข้อมูลในตารางต้นทางเป็นสคีมาของตารางเป้าหมาย
ขั้นตอนที่ 3 - เรียกใช้งาน AWS Glue
คุณสามารถตั้งค่าพารามิเตอร์สำหรับงานที่เรียกใช้ด้วยเครื่องมือการกำกับดูแลข้อมูลในแท็บ Job details เมื่อคุณกำหนดค่าพารามิเตอร์แล้ว ให้เลือก บันทึก จากนั้นเลือก Run เพื่อเริ่มกระบวนการข้อมูลสำหรับการแปลงและการรวม
ขั้นตอนที่ 4 - ตรวจสอบผลลัพธ์
ในแท็บ Visual ให้เลือกโหนดเป้าหมายเพื่อสังเกตตัวอย่างข้อมูลเพื่อให้แน่ใจว่าข้อมูลที่ถูกต้องอยู่ในโหนดดังกล่าว
สำหรับข้อมูลเพิ่มเติม โปรดอ้างอิง AWS Glue: คู่มือผู้ใช้
การบูรณาการ Zero-ETL คืออะไร
Zero-ETL เป็นชุดการบูรณาการที่ลดความจำเป็นในการสร้างไปป์ไลน์ข้อมูล ETL โดยปกติคุณจะสร้าง กำหนดค่า และเรียกใช้ไปป์ไลน์ ETL เมื่อถ่ายโอนข้อมูลจากแหล่งที่มาของข้อมูลไปยังปลายทาง อย่างไรก็ตาม ด้วยวิธีการบูรณาการ Zero-ETL กระบวนการ ETL จะถูกซ่อนโดยอัตโนมัติและซ่อนอยู่ภายในกระบวนการซอฟต์แวร์
หลังจากโหลดข้อมูลจากแหล่งที่มาไปยังปลายทางในครั้งแรก การจำลองข้อมูลเพิ่มเติมจะเกิดขึ้นโดยอัตโนมัติทุกครั้งที่ข้อมูลในแหล่งที่มาของข้อมูลได้รับการอัปเดต กระบวนการ ZERO-ETL นี้ช่วยให้สามารถวิเคราะห์ไปป์ไลน์การวิเคราะห์แบบเกือบเรียลไทม์
AWS มีบริการหลายอย่างที่รองรับ Zero-ETL รวมถึง Amazon Redshift, Amazon RDS for MySQL, Amazon DynamoDB, Amazon DocumentDB, Amazon SageMaker, Amazon CloudWatch, Amazon OpenSearch Service, Amazon Security Lake, and Amazon Aurora
การบูรณาการ Zero-ETL กับ Amazon Redshift และ Amazon Aurora
Amazon Redshift เป็นคลังข้อมูลบนคลาวด์ที่ช่วยให้ธุรกิจสามารถปรับขนาดเวิร์กโหลดการวิเคราะห์ได้ในราคาไม่แพง ในขณะเดียวกัน Amazon Aurora เป็นฐานข้อมูลแบบเชิงสัมพันธ์ประสิทธิภาพสูงที่เข้ากันได้กับ MySQL และ PostgreSQL
ขั้นตอนที่ 1 - กำหนดค่าแหล่งที่มาการบูรณาการ
ตรวจสอบว่าฐานข้อมูล Amazon Aurora ของคุณรองรับการบูรณาการ Zero-ETL กับ Amazon Redshift หรือไม่ Amazon Redshift สนับสนุนการบุรณาการ Zero-ETL ต่อไปนี้กับ Amazon Aurora ในขณะที่เขียน
- Amazon Aurora MySQL
- Amazon Aurora PostgreSQL
กำหนดค่าการบันทึกแบบไบนารีใน Aurora เพื่อให้แน่ใจว่าคุณบบันทุกการเปลี่ยนแปลงข้อมูลสำหรับการจำลองแบบ เลือกตัวเลือกการเข้ารหัสสำหรับข้อมูลที่อยู่ในพื้นที่จัดเก็บและที่อยู่ระหว่างการโอนย้ายเพื่อให้เป็นไปตามข้อกำหนดด้านความปลอดภัย สุดท้ายตั้งค่านโยบายและบทบาท IAM ที่จำเป็นเพื่อมอบสิทธิ์สำหรับการรวมเข้ากับ Amazon Redshift
Amazon Redshift ยังรองรับ Zero ETL กับ Amazon RDS สำหรับ MySQL, Amazon DynamoDB และแอปพลิเคชันเช่น Salesforce, SAP, ServiceNow และ Zendesk
ขั้นตอนที่ 2 - กำหนดค่าปลายทาง
หากคุณไม่มีคลัสเตอร์ Redshift ใหม่ ให้เปิดตัวคลัสเตอร์ Redshift ใหม่พร้อมพื้นที่เก็บข้อมูลและการกำหนดค่าการประมวลผลที่เหมาะสม ตรวจสอบให้แน่ใจว่าคลัสเตอร์ Amazon Redshift มีการตั้งค่าการเข้าถึงเครือข่ายและการเข้ารหัสที่จำเป็น แก้ไขกลุ่มมาตรการรักษาความปลอดภัยและการตั้งค่า VPC เพื่อให้สามารถเชื่อมต่อระหว่าง Aurora และ Redshift
ขั้นตอนที่ 3 - ตรวจสอบการบูรณาการ
Amazon Redshift ทำการโหลดข้อมูลเบื้องต้นจาก Amazon Aurora หลังจากนั้น ระบบจะติดตามตรวจสอบแหล่งที่มาโดยอัตโนมัติและทำซ้ำข้อมูลที่อัปเดตแบบเรียลไทม์ คุณสามารถเรียกใช้การสืบค้นใน Amazon Redshift เพื่อตรวจสอบว่าข้อมูลตรงกับแหล่งที่มาหรือไม่
AWS สามารถสนับสนุนความต้องการการผสานรวมข้อมูลของคุณได้อย่างไร
การผสานรวมข้อมูลเป็นกุญแจสำคัญในการให้ธุรกิจภาพที่สมบูรณ์ของข้อมูลจากแหล่งที่มาของข้อมูลหลายแหล่ง โดยป้อนเข้าสู่การแสดงภาพและการวิเคราะห์ขั้นสูง การจัดการไปป์ไลน์การผสานรวมที่ซับซ้อนในแหล่งที่มาของข้อมูลแบบไม่มีโครงสร้าง แบบกึ่งมีโครงสร้าง และมีโครงสร้างที่กำลังเติบโตอาจเป็นเรื่องยาก การผสานรวมข้อมูลบนคลาวด์ช่วยลดความซับซ้อนของเวิร์กโฟลว์การจัดการข้อมูลด้วยเครื่องมือและบริการการรวมข้อมูลที่เป็นนวัตกรรมใหม่ เช่น การทำงานแบบไม่ต้องใช้เซิร์ฟเวอร์และ Zero-ETL สำรวจบริการ AWS ที่ตอบสนองความต้องการในการผสานรวมข้อมูลที่ทันสมัยได้ที่นี่