Apache Hadoop เป็นโซลูชันโอเพ่นซอร์สสำหรับการคำนวณแบบกระจายบนข้อมูลขนาดใหญ่
ข้อมูลขนาดใหญ่เป็นคำศัพท์ทางการตลาดที่ครอบคลุมแนวคิดทั้งหมดเกี่ยวกับการขุดข้อมูลจากแหล่งที่มาต่างๆ เช่น เสิร์ชเอ็นจิ้น รูปแบบการซื้อในร้านขายของชำที่ติดตามผ่านการ์ดคะแนน เป็นต้น ในโลกสมัยใหม่อินเทอร์เน็ตมีมากมาย แหล่งที่มาของข้อมูลที่บ่อยครั้งกว่าไม่ได้มาตราส่วนทำให้ไม่สามารถใช้งานได้โดยไม่ต้องประมวลผลและประมวลผลจะใช้เวลานานอย่างไม่น่าเชื่อโดยเซิร์ฟเวอร์ใดเซิร์ฟเวอร์หนึ่ง ป้อน Apache Hadoop
ใช้เวลาน้อยลงในการประมวลผลข้อมูล
โดยใช้ประโยชน์จากสถาปัตยกรรม Hadoop เพื่อแจกจ่ายงานการประมวลผลในเครื่องหลายเครื่องบนเครือข่าย เวลาในการประมวลผลจะลดลงอย่างมากและสามารถกำหนดคำตอบได้ในปริมาณที่เหมาะสม ของเวลา Apache Hadoop แบ่งออกเป็นสององค์ประกอบที่แตกต่างกัน: ส่วนประกอบหน่วยเก็บข้อมูลและส่วนประกอบการประมวลผล ในแง่ที่ง่ายที่สุด Hapood สร้างเซิร์ฟเวอร์เสมือนหนึ่งเซิร์ฟเวอร์จากเครื่องจริงหลายเครื่อง ในความเป็นจริง Hadoop จัดการการสื่อสารระหว่างเครื่องหลายเครื่องเพื่อให้ทำงานร่วมกันอย่างใกล้ชิดจนดูเหมือนมีเครื่องเดียวที่ทำงานในการคำนวณ ข้อมูลถูกแจกจ่ายไปยังหลายเครื่อง เพื่อจัดเก็บและ งานการประมวลผลได้รับการจัดสรรและประสานงานโดยสถาปัตยกรรม Hadoop ระบบประเภทนี้เป็นข้อกำหนดสำหรับการแปลงข้อมูลดิบเป็นข้อมูลที่เป็นประโยชน์ในระดับอินพุต Big Data พิจารณาปริมาณข้อมูลที่ Google ได้รับทุกวินาทีจากผู้ใช้ที่ป้อนคำขอค้นหา เมื่อรวมข้อมูลจำนวนมาก คุณจะไม่รู้ว่าจะเริ่มต้นจากที่ใด แต่ Hadoop จะลดชุดข้อมูลเป็นชุดย่อยของข้อมูลที่มีขนาดเล็กลงและจัดระเบียบโดยอัตโนมัติ และกำหนดชุดย่อยที่จัดการได้เหล่านี้ให้กับทรัพยากรเฉพาะ ผลลัพธ์ทั้งหมดจะถูกรายงานกลับและ ประกอบเป็นข้อมูลที่ใช้งานได้
เซิร์ฟเวอร์ที่ตั้งค่าได้ง่าย
แม้ว่าระบบจะฟังดูซับซ้อน แต่ส่วนที่เคลื่อนไหวส่วนใหญ่กลับถูกบดบังไว้เบื้องหลังสิ่งที่เป็นนามธรรม การตั้งค่าเซิร์ฟเวอร์ Hadoop นั้นค่อนข้างง่าย เพียงแค่ติดตั้งส่วนประกอบเซิร์ฟเวอร์บนฮาร์ดแวร์ที่ตรงตามข้อกำหนดของระบบ ส่วนที่ยากกว่าคือการวางแผนเครือข่ายของคอมพิวเตอร์ที่เซิร์ฟเวอร์ Hadoop จะใช้เพื่อแจกจ่ายบทบาทการจัดเก็บและการประมวลผล ซึ่งอาจเกี่ยวข้องกับการตั้งค่าเครือข่ายท้องถิ่นหรือการเชื่อมต่อหลายเครือข่ายเข้าด้วยกันทางอินเทอร์เน็ต คุณยังสามารถใช้บริการคลาวด์ที่มีอยู่และชำระเงินสำหรับคลัสเตอร์ Hadoop บนแพลตฟอร์มคลาวด์ยอดนิยม เช่น Microsoft Azure และ Amazon EC2 การกำหนดค่าเหล่านี้ง่ายยิ่งขึ้นไปอีก เนื่องจากคุณสามารถหมุนเฉพาะกิจแล้วเลิกใช้คลัสเตอร์เมื่อคุณไม่ต้องการใช้อีกต่อไป คลัสเตอร์ประเภทนี้เหมาะสำหรับการทดสอบ เนื่องจากคุณจ่ายเฉพาะเวลาที่คลัสเตอร์ Hadoop ทำงานอยู่เท่านั้น
ประมวลผลข้อมูลของคุณเพื่อรับข้อมูลที่คุณต้องการ
ข้อมูลขนาดใหญ่เป็นทรัพยากรที่ทรงพลังอย่างยิ่ง แต่ข้อมูลจะไม่มีประโยชน์เว้นแต่จะสามารถจัดหมวดหมู่และเปลี่ยนเป็นข้อมูลได้อย่างเหมาะสม ในปัจจุบัน Hadoop คลัสเตอร์นำเสนอวิธีการที่คุ้มค่าอย่างยิ่ง สำหรับการประมวลผลการรวบรวมข้อมูลเหล่านี้เป็นข้อมูล
รีวิวจากผู้ใช้เกี่ยวกับ Apache Hadoop
มีคุณพยายาม Apache Hadoop? เป็นคนแรกที่จะออกความคิดเห็นของคุณ!