วันศุกร์ที่ 13 พฤษภาคม พ.ศ. 2559

BIG DATA



คือ ที่รวมของชุดข้อมูลที่มีขนาดใหญ่และซับซ้อน ยากต่อการประมวลผล หรือเกินความสามารถที่จะดักจับ บริหารจัดการ การจัดเก็บ การค้นหา การแบ่งปัน การส่งถ่าย และการวิเคราะห์ ด้วยเครื่องมือระบบฐานข้อมูลที่มีอยู่ในปัจจุบัน ด้วยเหตุนี้ แพลตฟอร์มใหม่สำหรับ "big data" จึงได้เกิดขึ้นเพื่อให้สามารถจัดการกับข้อมูลจำนวนมากเช่นนั้นได้ ตัวอย่างเช่น Apache Hadoop
Big Data เป็นระเบียบวิธีในการวิเคราะห์ข้อมูล ที่รองรับโดยสถาปัตยกรรมและเทคโนโลยียุคใหม่ที่รองรับการตรวจจับข้อมูลที่ไหลด้วยความเร็วสูง รวมทั้งการจัดเก็บเพื่อนำมาวิเคราะห์ (Villars, Olofson, & Eastwood, 2011) ข้อมูลเหล่านี้ไม่เพียงแต่ชนิดที่มีโครงสร้างเท่านั้น แต่รวมทั้งที่เป็นแบบไร้โครงสร้าง และไม่มีรูปแบบหรือฟอร์แมตมาตรฐาน (Coronel, Morris, & Rob, 2013).
แหล่งที่มาของข้อมูลและปริมาณมีมากเกินกว่าระบบฐานข้อมูลในองค์กรจะรับมือได้ข้อมูลเหล่านี้รวมทั้ง e-mail ข้อมูลที่มาจากอุปกรณ์โทรศัพท์เคลื่อนที่ รวมทั้งข้อมูลจากสังคมออนไลน์ (Villars,Olofson, & Eastwood, 2011)
1 PB = 1000000000000000B = 1015bytes = 1000terabytes.
1 ZB = 1000000000000000000000bytes = 10007bytes = 1021bytes = 1000exabytes = 1 billion terabytes.
1 YB = 1000000000000000000000000bytes = 10008bytes = 1024bytes = 1000zettabytes = 1 trillion terabytes.








องค์ประกอบของ BIG DATA


  •        Volume ปริมาณของข้อมูลจะมากมายมหาศาลจนไม่สามารถที่จะเก็บรวบรวมในฐานข้อมูลรูปแบบเดิมๆได้ หรือถ้าเก็บได้ก็อาจจะยากและซับซ้อน
  •        Velocity หรือความเร็ว คือข้อมูลที่เปลี่ยนแปลงตลอดเวลา โดยข้อมูลนั้นจะมีค่าในเวลา ณ จุดนั้น และจดหมดค่าเมื่อเวลาผ่านไป การนำเอาข้อมูลชนิดนี้มาใช้ต้องมีการประมวลผลที่รวดเร็วทันต่อเห็นการณ์
  •        Variety หรือความหลากหลาย ข้อมูลที่มีความหลากหลายทางโครงสร้าง ทำให้ไม่สามารถที่จะจัดเก็บหรือแยกหมวดหมู่ได้ตามที่ต้องการ หรือมีรายละเอียดปลีกย่อย หรือรูปแบบในการจัดการข้อมูลที่เพิ่มมากขึ้นตามขนาดของข้อมูล
    

เทคโนโลยีสำหรับประมวลผล BIG DATA


  • เทคโนโลยีหลักที่ถือว่าอยู่เบื้องหลัง “Big Data” คือ “Hadoop” ซึ่งเป็นซอฟต์แวร์แบบโอเพ่นซอร์ส (Open- source Software) ของ Apache สำหรับการประมวลผล แบบกระจาย หรือ Distributed Computing เพื่อรองรับ การจัดเก็บ และประมวลข้อมูลขนาดใหญ่ Hadoop ได้รวม ระบบการจัดการเครื่องแม่ข่ายในลักษณะคลัสเตอร์ และ การเข้าถึงและดึงข้อมูลอย่างรวดเร็วด้วยวิธี MapReduce (Map และ Reduce) จากความสามารถข้างต้นของ Hadoop ระบบคอมพิวเตอร์ที่จะรองรับการทำงานของ Hadoop จะเป็นกลุ่มเครื่องแม่ข่ายขนาดเล็กหลายๆ เครื่อง มีหน่วยจัดเก็บข้อมูลภายในขนาดใหญ่ในแต่ละเครื่อง (ปัจจุบันมีหน่วยจัดเก็บข้อมูลภายนอกมาเป็นทางเลือกแล้ว) ต่อเชื่อมกันผ่านระบบเครือข่าย (Local Area Network) หรือ เครือข่ายระยะไกล (Wide Area Network)
      นอกจากนี้ยังมีพันธมิตรของ Hadoop หรือที่เรียกว่า Hadoop Ecosystem อีกจำนวนหนึ่งที่จะมาช่วยเสริมใน เรื่องการจัดการข้อมูล การเข้าถึงและดึงข้อมูล รวมทั้งการ ติดต่อแลกเปลี่ยนข้อมูลกับระบบต่างๆ ให้สะดวกขึ้น อาทิ HBase, Hive, Pig, Sqoop เป็นต้น เห็นชื่อแล้วคง ไม่ค่อยคุ้นกัน เพราะทั้งหมดนี้เป็นซอฟต์แวร์แบบโอเพ่น ซอร์สทั้งหมด โดยมี Hadoop เป็นแกนกลางในการทำงาน องค์กรสามารถดาวน์โหลด Hadoop และผลิตภัณฑ์อื่นใน กลุ่ม Hadoop Ecosystem มาใช้งานได้โดยไม่มีค่าใช้จ่าย และเพื่อตอบโจทย์การนำ Hadoop มาใช้ในธุรกิจ จึงมี บริษัทซอฟต์แวร์ที่ตั้งขึ้นมาเพื่อทำหน้าที่ให้บริการทางด้าน Hadoop Ecosystem แบบครบวงจรตั้งแต่อำนวยความ สะดวกในการดาวน์โหลด ไปจนถึงการสนับสนุนหลังการ ดาวน์โหลด ปัจจุบันมีบริษัทที่ทำหน้านี้อยู่ แห่งคือ Cloudera (CDH), MapR, Hortonworks และบริษัท น้องใหม่อย่าง Pivotal HD 
  • เทคโนโลยีกลุ่มที่สอง คือ ระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL (NoSQL Database) เนื่องจากความสามารถที่รวดเร็ว สามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ ผลิตภัณฑ์ที่นิยมใช้ส่วนใหญ่เป็นโอเพ่น ซอร์ส และรองรับการขยายตัวในแนวราบ (Horizontal Scaling) ซึ่งสอดคล้องกับสถาปัตยกรรมของ Hadoop ตัวอย่างผลิตภัณฑ์ทางด้าน NoSQL Database ที่เป็นที่นิยมได้แก่ Cassandra, CouchBase, HBase, MongoDB เป็นต้น
  • เทคโนโลยีกลุ่มที่สามคือ “Data Visualization Tools” ซึ่งเป็นเครื่องมือที่จะช่วยแปลงข้อมูล “Big Data” ที่ได้รับ การกลั่นกรองแล้วมาแสดงในรูปของแผนภาพ ง่ายต่อการ เข้าใจ และนำไปสู่การตัดสินใจในขั้นถัดไป แล้วเครื่องมือ กลุ่มนี้ต่างจากระบบ Business Intelligence อย่างไร บทบาทของเครื่องมือกลุ่มนี้จะอยู่ในระดับปฏิบัติการ (Operations) ให้ติดตามสถานะของระบบ และการแก้ ปัญหาได้ง่าย โดยมีคำเรียกสำหรับระบบนี้ว่า “Operational Intelligence” ส่วน Business Intelligence จะเน้นไปที่ ข้อมูลสำหรับผู้บริหาร ผู้จัดการเพื่อประกอบการตัดสินใจ ทางธุรกิจ

  • เทคโนโลยีกลุ่มสุดท้ายคือ “Analytic Database” ผลิตภัณฑ์ในกลุ่มนี้อาจจะนำไปใช้กับระบบคลังข้อมูลได้ด้วย และเป็นกลุ่มผู้ผลิตซอฟต์แวร์ยักษ์ใหญ่ในตลาดต่างให้ ความสำคัญมาก โดยใช้เทคนิคในการทำงานแบบต่างๆ เพื่อ ตอบโจทย์ด้านความเร็วไม่ว่าจะเป็น การประมวลผลใน หน่วยความจำ (In-memory Computing) การประมวลใน ระบบฐานข้อมูล (In-database Computing) ซึ่งไม่เหมือน กันเลยแต่มีสิ่งหนึ่งที่ทุกผู้ผลิตมีเหมือนกันคือ การสนับสนุน การต่อเชื่อมกับ Hadoop เพื่อให้สามารถนำข้อมูลจาก Hadoop เข้ามาประมวลในขั้นต่อไปในผลิตภัณฑ์ฐานข้อมูล ของตนเองได้ ซึ่งเกือบทุกผู้ผลิตจะมีการนำ Hadoop เข้า มาเป็นผลิตภัณฑ์เสริมของตนเองโดยทำสัญญากับทาง บริษัทที่ให้การสนับสนุน Hadoop Ecosystem ทั้ง ราย ข้างต้น ตัวอย่างผลิตภัณฑ์ในกลุ่มนี้ได้แก่ Aster Data (Teradata), Exadata (Oracle), Greenplum (EMC) Netezza (IBM), Vertica (HP) เป็นต้น

ตัวอย่าง BIG DATA


  • ปูมบันทึกการใช้งานเว็บ
  • RFID เครือข่ายเซ็นเซอร์
  • เครือข่ายสังคม
  • ข้อมูลสังคม (social data)
  • เอกสารและข้อความบนอินเทอร์เน็ต
  • การทำดัชนีค้นหาอินเทอร์เน็ต
  • บันทึกการโทรศัพท์
  • ดาราศาสตร์
  • วิทยาศาสตร์สภาพอากาศ
  • การวิจัยทางชีวธรณีเคมี ชีววิทยา และการวิจัยทางวิทยาศาสตร์ที่ซับซ้อนและมักจะข้ามสาขา
  • การสอดส่องทางการทหาร
  • เวชระเบียน
  • คลังภาพถ่าย
  • คลังภาพเคลื่อนไหว
  • พาณิชย์อิเล็กทรอนิกส์ขนาดใหญ่

BIG DATA มีประโยชน์ต่อองค์กรอย่างไร


ปัจจุบันมีข้อมูลที่เกิดขึ้นใหม่วันละไม่ต่ำกว่าหลัก EB (เอกซะไบต์) หรือ 1018 ข้อมูลเหล่านี้คือองค์ความรู้อันมีค่าถ้าหากนำมาใช้ให้เกิดประโยชน์ ปัจจุบันการแข่งขันทางธุรกิจค่อนข้างรุนแรงและวางกลยุทธ์กันนาทีต่อนาที ใครเร็วกว่าคู่แข่ง มีความพร้อมกว่า ก็สามารถช่วงชิงความได้เปรียบทางธุรกิจได้ง่าย

Big Data เปรียบเสมือนเครื่องมือเพื่อให้ไปถึงจุดๆนั้น หากเราสามารถนำข้อมูลเหล่านี้มาวิเคราะห์และใช้ได้ทันท่วงนี้ จะเกิดประโยชน์อย่างมหาศาล ยกตัวอย่างเช่น
1.       สามารถคาดการณ์ล่วงหน้าได้ว่าความต้องการของลูกค้าคืออะไร จะเปลี่ยนแปลงไปในทิศทางใด
2.       Visualization สามารถวิเคราะห์พฤติกรรมลูกค้าเพื่อนำกลับมาวางกลยุทธ์ทางการตลาดได้