วันศุกร์ที่ 13 พฤษภาคม พ.ศ. 2559

เทคโนโลยีสำหรับประมวลผล BIG DATA


  • เทคโนโลยีหลักที่ถือว่าอยู่เบื้องหลัง “Big Data” คือ “Hadoop” ซึ่งเป็นซอฟต์แวร์แบบโอเพ่นซอร์ส (Open- source Software) ของ Apache สำหรับการประมวลผล แบบกระจาย หรือ Distributed Computing เพื่อรองรับ การจัดเก็บ และประมวลข้อมูลขนาดใหญ่ Hadoop ได้รวม ระบบการจัดการเครื่องแม่ข่ายในลักษณะคลัสเตอร์ และ การเข้าถึงและดึงข้อมูลอย่างรวดเร็วด้วยวิธี MapReduce (Map และ Reduce) จากความสามารถข้างต้นของ Hadoop ระบบคอมพิวเตอร์ที่จะรองรับการทำงานของ Hadoop จะเป็นกลุ่มเครื่องแม่ข่ายขนาดเล็กหลายๆ เครื่อง มีหน่วยจัดเก็บข้อมูลภายในขนาดใหญ่ในแต่ละเครื่อง (ปัจจุบันมีหน่วยจัดเก็บข้อมูลภายนอกมาเป็นทางเลือกแล้ว) ต่อเชื่อมกันผ่านระบบเครือข่าย (Local Area Network) หรือ เครือข่ายระยะไกล (Wide Area Network)
      นอกจากนี้ยังมีพันธมิตรของ Hadoop หรือที่เรียกว่า Hadoop Ecosystem อีกจำนวนหนึ่งที่จะมาช่วยเสริมใน เรื่องการจัดการข้อมูล การเข้าถึงและดึงข้อมูล รวมทั้งการ ติดต่อแลกเปลี่ยนข้อมูลกับระบบต่างๆ ให้สะดวกขึ้น อาทิ HBase, Hive, Pig, Sqoop เป็นต้น เห็นชื่อแล้วคง ไม่ค่อยคุ้นกัน เพราะทั้งหมดนี้เป็นซอฟต์แวร์แบบโอเพ่น ซอร์สทั้งหมด โดยมี Hadoop เป็นแกนกลางในการทำงาน องค์กรสามารถดาวน์โหลด Hadoop และผลิตภัณฑ์อื่นใน กลุ่ม Hadoop Ecosystem มาใช้งานได้โดยไม่มีค่าใช้จ่าย และเพื่อตอบโจทย์การนำ Hadoop มาใช้ในธุรกิจ จึงมี บริษัทซอฟต์แวร์ที่ตั้งขึ้นมาเพื่อทำหน้าที่ให้บริการทางด้าน Hadoop Ecosystem แบบครบวงจรตั้งแต่อำนวยความ สะดวกในการดาวน์โหลด ไปจนถึงการสนับสนุนหลังการ ดาวน์โหลด ปัจจุบันมีบริษัทที่ทำหน้านี้อยู่ แห่งคือ Cloudera (CDH), MapR, Hortonworks และบริษัท น้องใหม่อย่าง Pivotal HD 
  • เทคโนโลยีกลุ่มที่สอง คือ ระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL (NoSQL Database) เนื่องจากความสามารถที่รวดเร็ว สามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ ผลิตภัณฑ์ที่นิยมใช้ส่วนใหญ่เป็นโอเพ่น ซอร์ส และรองรับการขยายตัวในแนวราบ (Horizontal Scaling) ซึ่งสอดคล้องกับสถาปัตยกรรมของ Hadoop ตัวอย่างผลิตภัณฑ์ทางด้าน NoSQL Database ที่เป็นที่นิยมได้แก่ Cassandra, CouchBase, HBase, MongoDB เป็นต้น
  • เทคโนโลยีกลุ่มที่สามคือ “Data Visualization Tools” ซึ่งเป็นเครื่องมือที่จะช่วยแปลงข้อมูล “Big Data” ที่ได้รับ การกลั่นกรองแล้วมาแสดงในรูปของแผนภาพ ง่ายต่อการ เข้าใจ และนำไปสู่การตัดสินใจในขั้นถัดไป แล้วเครื่องมือ กลุ่มนี้ต่างจากระบบ Business Intelligence อย่างไร บทบาทของเครื่องมือกลุ่มนี้จะอยู่ในระดับปฏิบัติการ (Operations) ให้ติดตามสถานะของระบบ และการแก้ ปัญหาได้ง่าย โดยมีคำเรียกสำหรับระบบนี้ว่า “Operational Intelligence” ส่วน Business Intelligence จะเน้นไปที่ ข้อมูลสำหรับผู้บริหาร ผู้จัดการเพื่อประกอบการตัดสินใจ ทางธุรกิจ

  • เทคโนโลยีกลุ่มสุดท้ายคือ “Analytic Database” ผลิตภัณฑ์ในกลุ่มนี้อาจจะนำไปใช้กับระบบคลังข้อมูลได้ด้วย และเป็นกลุ่มผู้ผลิตซอฟต์แวร์ยักษ์ใหญ่ในตลาดต่างให้ ความสำคัญมาก โดยใช้เทคนิคในการทำงานแบบต่างๆ เพื่อ ตอบโจทย์ด้านความเร็วไม่ว่าจะเป็น การประมวลผลใน หน่วยความจำ (In-memory Computing) การประมวลใน ระบบฐานข้อมูล (In-database Computing) ซึ่งไม่เหมือน กันเลยแต่มีสิ่งหนึ่งที่ทุกผู้ผลิตมีเหมือนกันคือ การสนับสนุน การต่อเชื่อมกับ Hadoop เพื่อให้สามารถนำข้อมูลจาก Hadoop เข้ามาประมวลในขั้นต่อไปในผลิตภัณฑ์ฐานข้อมูล ของตนเองได้ ซึ่งเกือบทุกผู้ผลิตจะมีการนำ Hadoop เข้า มาเป็นผลิตภัณฑ์เสริมของตนเองโดยทำสัญญากับทาง บริษัทที่ให้การสนับสนุน Hadoop Ecosystem ทั้ง ราย ข้างต้น ตัวอย่างผลิตภัณฑ์ในกลุ่มนี้ได้แก่ Aster Data (Teradata), Exadata (Oracle), Greenplum (EMC) Netezza (IBM), Vertica (HP) เป็นต้น

1 ความคิดเห็น:

Unknown กล่าวว่า...

เนื้อหามีปรโยชน์มาก ครับ

แสดงความคิดเห็น