10 התנאים החשובים ביותר של Hadoop שעליכם לדעת ולהבין

וִידֵאוֹ: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

תוֹכֶן

אבל ראשית, מבט איך Hadoop עובד
Hadoop Common
מערכת הקבצים המופצת Hadoop (HDFS)
MapReduce
HBase
כוורת
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך
אפאצ'י חזיר
ניצוץ אפאצ'י
אפאצ'ה קסנדרה
משא ומתן נוסף בנושא משאבים (YARN)
אימפלה

מקור: Trueffelpix / Dreamstime.com

להסיר:

בכדי להבין באמת נתונים גדולים, עליכם להבין מעט את Hadoop והשפה סביבו.

נתונים גדולים, השם הקליט לכמויות אדירות של נתונים מובנים, לא מובנים או מובנים למחצה, קשה להפליא לתפוס, לאחסן, לנהל, לשתף, לנתח ולדמיין, לפחות באמצעות יישומי מסד נתונים ותוכנה מסורתיים. לכן טכנולוגיות נתונים גדולים יש פוטנציאל לנהל ולעבד כמויות עצומות של נתונים בצורה יעילה ויעילה. ואת Apache Hadoop שלה שמספקת את המסגרת והטכנולוגיות הנלוות לעיבוד מערכי נתונים גדולים על גבי אשכולות מחשבים בצורה מבוזרת. אז, בכדי להבין באמת נתונים גדולים, עליכם להבין מעט את Hadoop. כאן תסתכל על המונחים העליונים שתוכל לשמוע לגבי Hadoop - ולמה הם מתכוונים.

אבל ראשית, מבט איך Hadoop עובד

לפני שנכנסים למערכת האקולוגית של Hadoop, עליכם להבין שני דברים מהותיים בבירור. הראשון הוא כיצד מאוחסן קובץ בהאדוף; השנייה היא אופן עיבוד הנתונים המאוחסנים. כל הטכנולוגיות הקשורות בהודופ עובדות בעיקר על שני תחומים אלה והופכות אותה לידידותית יותר למשתמש. (קבל את היסודות כיצד Hadoop עובד כיצד Hadoop עוזר לפתור את בעיית ה- Big Data.)

עכשיו, על התנאים.

Hadoop Common

למסגרת Hadoop יש מודולים שונים לפונקציונליות שונות ומודולים אלה יכולים ליצור אינטראקציה זה עם זה מסיבות שונות. ניתן להגדיר את Hadoop Common כספריית שירותים נפוצה שתומכת במודולים אלה במערכת האקולוגית Hadoop. כלי עזר אלה הם בעצם קבצי JAR מבוססי ארכיב (Java). כלי עזר אלה משמשים בעיקר על ידי מתכנתים ומפתחים במהלך זמן פיתוח.

מערכת הקבצים המופצת Hadoop (HDFS)

מערכת הקבצים המופצת Hadoop (HDFS) היא פרויקט משנה של Apache Hadoop תחת קרן תוכנת Apache. זהו עמוד השדרה של האחסון במסגרת Hadoop. זוהי מערכת קבצים מבוזרת, מדרגית וסובלנית לתקלות, המשתרעת על פני חומרת סחורות מרובה המכונה אשכול Hadoop. מטרת HDFS היא לאחסן נפח עצום של נתונים באופן אמין עם גישה תפוקה גבוהה לנתוני יישומים. HDFS עוקב אחר אדריכלות אב / עבדים, שם המאסטר ידוע בשם NameNode והעבדים ידועים כ- DataNodes.

MapReduce

Hadoop MapReduce הוא גם פרויקט משנה של קרן תוכנת אפאצ'י. MapReduce הוא למעשה מסגרת תוכנה הכתובה אך ורק ב- Java. מטרתו העיקרית היא לעבד מערכי נתונים גדולים על סביבה מבוזרת (המורכבת מחומרת סחורות) באופן מקביל לחלוטין. המסגרת מנהלת את כל הפעילויות כמו תזמון משרות, מעקב, ביצוע וביצוע מחדש (במקרה של משימות כושלות).

HBase

אפאצ'ה HBase ידוע כמסד הנתונים של Hadoop. זוהי חנות גדולה של נתונים גדולים, מבוזרת וניתנת להרחבה. זה ידוע גם כסוג של מסד נתונים של NoSQL שאינו מערכת לניהול בסיסי נתונים. יישומי HBase נכתבים גם ב- Java, בנויים על גבי Hadoop ופועלים ב- HDFS. HBase משמש כשאתה זקוק לקריאה / כתיבה בזמן אמת וגישה אקראית לנתונים גדולים. HBase מיוצרת על פי מושגי Googles BigTable.

כוורת

Apache Hive היא מערכת תוכנת מחסן נתונים עם קוד פתוח. כוורת פותחה במקור על ידי לפני שהיא נכנסה תחת קרן תוכנת Apache והפכה לקוד פתוח. זה מאפשר ניהול ושאילתות של מערכי נתונים גדולים באחסון תואם Hadoop מבוזר. Hive מבצעת את כל פעילויותיה על ידי שימוש בשפה דמוית SQL המכונה HiveQL. (למידע נוסף על מבוא קצר לכוורת אפאצ'י וחזירים.)

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אינך יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

אפאצ'י חזיר

חזיר יזם במקור על ידי יאהו לפיתוח וביצוע עבודות של MapReduce בנפח גדול של נתונים מבוזרים. כעת הוא הפך לפרויקט קוד פתוח תחת קרן תוכנת אפאצ'י. ניתן להגדיר את Apache Pig כפלטפורמה לניתוח מערכי נתונים גדולים מאוד בצורה יעילה. שכבת תשתית חזירים מייצרת רצפים של עבודות MapReduce לביצוע העיבוד בפועל. שכבת שפת חזירים ידועה בשם חזיר לטיני והיא מספקת תכונות דמויות SQL לביצוע שאילתות במערכות נתונים מבוזרות.

ניצוץ אפאצ'י

הניצוץ פותח במקור על ידי AMPLab ב- UC ברקלי. זה הפך לפרויקט ברמה העליונה של אפאצ 'י בפברואר 2014. ניתן להגדיר את Apache Spark כמסגרת קוד פתוח, לשימוש כללי, מחשוב אשכול שהופך את ניתוח הנתונים להרבה יותר מהיר. הוא בנוי על גבי מערכת הקבצים המופצת Hadoop אך הוא אינו מקושר למסגרת MapReduce. ביצועי הניצוצות הרבה יותר מהירים בהשוואה ל- MapReduce. הוא מספק ממשקי API ברמה גבוהה בסקאלה, פייתון וג'אווה.

אפאצ'ה קסנדרה

אפאצ'ה קסנדרה הוא בסיס נתונים נוסף של NoSQL עם קוד פתוח. קסנדרה נמצאת בשימוש נרחב לניהול נפחים גדולים של נתונים מובנים, מובנים למחצה ובלתי מובנים המשתרעים על פני מרכזי נתונים מרובים ואחסון ענן. קסנדרה מעוצבת על בסיס ארכיטקטורה "חסרת אדון", שמשמעותה שהיא אינה תומכת במודל המאסטר / העבדים. בארכיטקטורה זו, כל הצמתים זהים והנתונים מופצים באופן אוטומטי ושווה על פני כל הצמתים. התכונות החשובות ביותר של קסנדרס הן זמינות רציפה, מדרגיות לינארית, שכפול מובנה / הניתן להתאמה אישית, ללא נקודת כישלון אחת ופשטות תפעולית.

משא ומתן נוסף בנושא משאבים (YARN)

עדיין משא ומתן משאבים נוסף (YARN) מכונה גם MapReduce 2.0, אך הוא למעשה נופל תחת Hadoop 2.0. ניתן להגדיר YARN כמסגרת תזמון עבודה וניהול משאבים. הרעיון הבסיסי של YARN הוא להחליף את הפונקציונליות של JobTracker על ידי שני דמונים נפרדים האחראים על ניהול משאבים ותזמון / ניטור. במסגרת חדשה זו, יהיו ResourceManager גלובלי (RM) ומאסטר ספציפי ליישום המכונה ApplicationMaster (AM). ResourceManager הגלובלי (RM) ו- NodeManager (לכל עבד צומת) יוצרים את מסגרת חישוב הנתונים בפועל. ניתן להריץ יישומי MapReduce v1 קיימים גם ב- YARN, אך יש לחדש את היישומים הללו עם צנצנות Hadoop2.x.

אימפלה

ניתן להגדיר את אימפלה כמנוע שאילתת SQL עם כוח עיבוד מקבילי מאסיבי (MPP). זה פועל באופן טבעי במסגרת Apache Hadoop. אימפלה מעוצבת כחלק ממערכת האקולוגית Hadoop. היא חולקת את אותה מערכת קבצים גמישה (HDFS), מטא נתונים, ניהול משאבים ומסגרות אבטחה כמו שמשמשות רכיבים אחרים במערכת האקולוגית של Hadoop. הנקודה החשובה ביותר היא לציין כי אימפלה מהירה הרבה יותר בעיבוד שאילתות בהשוואה ל- Hive. אך עלינו לזכור שאימפלה מיועדת לשאילתה / ניתוח במערך נתונים קטן, והיא נועדה בעיקר ככלי ניתוח העובד על נתונים מעובדים ומובנים.

Hadoop הוא נושא חשוב בתחום ה- IT, אך ישנם ספקנים לגבי הכדאיות שלו לטווח הארוך. קרא עוד בסעיף מה זה Hadoop? תורת ציניקנים.