מהם היתרונות של מסגרת Hadoop 2.0 (YARN)?

מְחַבֵּר: Roger Morrison
תאריך הבריאה: 18 סֶפּטֶמבֶּר 2021
תאריך עדכון: 11 מאי 2024
Anonim
מהם היתרונות של מסגרת Hadoop 2.0 (YARN)? - טכנולוגיה
מהם היתרונות של מסגרת Hadoop 2.0 (YARN)? - טכנולוגיה

תוֹכֶן


מקור: ג'ים יוז / Dreamstime.com

להסיר:

YARN הוא שיפור משמעותי בהשוואה למסגרת Hadoop 1.0. כאן אנו בודקים כמה מהיתרונות שיש לה על פני קודמתה.

מאז הוצג מושג ה- big data הוא עובר שלבים רבים של אבולוציה. Hadoop הוצגה בשנת 2005 עם כמה מאפיינים ראשוניים כמו מנוע העיבוד MapReduce המאפשר עומסי עבודה בקנה מידה גדול בעיבוד נתונים המופצים באשכולות. Hadoop עצמה חווה שינויים רבים ופיתחה מסגרות ושיטות מתקדמות.

YARN הוא מרכיב ליבה של Hadoop 2.0. זה בעצם מנהל את המשאבים בסביבה מקובצת. מתווך YARN מקיים אינטראקציה עם משאבי המחשוב (מטעם היישומים) ומקצה משאבים לכל יישום על סמך קריטריוני סינון שונים.

במאמר זה, נסקור את היתרונות המובילים של YARN על פני Hadoop 1.0.

מהי מסגרת YARN?

יet אנשר רמשאב נegotiator הוא מרכיב ליבה של Hadoop 2.0, המנהל משאבים בסביבה מקובצת. מסגרת Hadoop YARN היא גרסה מתקדמת של Hadoop 1.0 המספקת ביצועים משופרים, המועילה למערכת האקולוגית של Hadoop ולכל מגוון הטכנולוגיות הקשורות לה. עכשיו כשאנחנו קצת יותר מכירים את YARN, בואו נסתכל מקרוב על Hadoop 1.0 ו- YARN.


מגבלות מסגרת Hadoop 1.0

בכדי להבין את היתרונות של מסגרת YARN, חשוב מאוד להבין כיצד עובד Hadoop 1.0 ומהן המגבלות של מסגרת זו.

כאן נכנס לתפקיד JobTracker. הוא מנהל את שני משאבי האשכול וקובע את ביצוע העבודות של MapReduce. על קצה המזלג, JobTracker מתזמן ושומר את חריצי המשימות ומגדיר ומפקח על כל משימת ריצה. אם משימה נכשלה, היא מקצה מחדש משבצת חדשה כדי שהמשימה תתחיל שוב. לאחר סיום המשימה, JobTracker משחרר את המשבצת למשימות אחרות ומנקה את המשאבים הזמניים.

החסרונות הגדולים בגישה הנ"ל:

  • זמינות - JobTracker הוא נקודת הזמינות היחידה ב- Hadoop 1.0. המשמעות היא שאם JobTracker נכשל, כל המשימות יופעלו כברירת מחדל.
  • מדרגיות מוגבלת - מכיוון ש- JobTracker מבצע משימות מרובות ופועל במכונה יחידה, אין משתמשים במכונות הזמינות האחרות; מכאן, מה שמביא למדרגיות מוגבלת.
  • ניצול משאבים - בגישה שלעיל, מוגדרים מראש חריצי המפה ומצמצמים משבצות. יכול להיות שקרה שאחד החריצים מלא אך חריצי המכונות האחרים ריקים. מכיוון שהחריצים הריקים שמורים, הם ישבו סרק במקום להתפשר על החריצים המלאים. זה עשוי לגרום לבעיה של ניצול משאבים.
  • הפעלת יישומים שאינם MapReduce - JobTracker הוא יישום הבנוי למסגרת MapReduce. הבעיה מתעוררת כאשר אפליקציה שאינה MapReduce מנסה לפעול במסגרת זו. היישום צריך להתאים לתכנות המסגרת MapReduce כדי לפעול בהצלחה. חלק מהבעיות השכיחות שעומדות בפנין כוללות בעיות עם:
    • שאילתה אד-הוק
    • ניתוח בזמן אמת
    • גישה חולפת
  • כישלון במפלס - אחת הסוגיות העיקריות במסגרת זו מתרחשת כאשר מספר הצמתים גדול מ- 4000. בתרחיש כזה מתרחש כישלון מדורגים, וכתוצאה מכך הידרדרות האשכול השלם.

אלה כמה מהמגבלות העיקריות שעומדות בפני העבודה במסגרת זו. יש גם כמה מגבלות קלות אחרות, שלא מוזכרות. המסגרת של YARN הוצגה כדי להתגבר על מגבלות אלה.


אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

מסגרת YARN ויתרונותיה

מסגרת YARN, שהוצגה ב- Hadoop 2.0, נועדה לחלוק את האחריות של MapReduce ולדאוג למשימת ניהול האשכול. זה מאפשר ל- MapReduce לבצע עיבוד נתונים בלבד ומכאן לייעל את התהליך.

YARN מביא את הרעיון של ניהול משאבים מרכזי. זה מאפשר למספר יישומים לרוץ ב- Hadoop, תוך שיתוף של ניהול משאבים משותף.

חלק מהמרכיבים העיקריים במסגרת YARN הם:

  • ResourceManager - רכיב ResourceManager הוא המשא ומתן באשכול עבור כל המשאבים הקיימים באותו אשכול. יתר על כן, רכיב זה מסווג למנהל יישומים אשר אחראי על ניהול עבודות משתמשים. מ- Hadoop 2.0 כל משרה ב- MapReduce תיחשב כיישומה.
  • ApplicationMaster - רכיב זה הוא המקום בו קיימת עבודה או יישום. זה גם מנהל את כל המשרות של MapReduce ומסתיים לאחר סיום עיבוד העבודה.
  • NodeManager - רכיב מנהל הצמתים משמש כשרת עבור היסטוריית העבודה. זה אחראי על אבטחת המידע על העבודות שהושלמו. זה גם עוקב אחר עבודות המשתמשים יחד עם זרימת העבודה שלהם עבור צומת מסוימת.

קח בחשבון שלמסגרת YARN ישנם רכיבים שונים לניהול המשימות השונות, בואו נראה כיצד זה מונה את המגבלות של Hadoop 1.0.

  • ניצול טוב יותר של המשאבים - למסגרת YARN אין משבצות קבועות למשימות. הוא מספק מנהל משאבים מרכזי המאפשר לשתף מספר יישומים באמצעות משאב משותף.
  • הפעלת יישומים שאינם MapReduce - ב- YARN, יכולות התזמון וניהול המשאבים מופרדות מרכיב עיבוד הנתונים. זה מאפשר ל- Hadoop להריץ סוגים מגוונים של יישומים שאינם תואמים לתכנות של מסגרת Hadoop. אשכולות Hadoop מסוגלים כעת לבצע שאילתות אינטראקטיביות עצמאיות ולבצע ניתוחים טובים יותר בזמן אמת.
  • תאימות לאחור - YARN מגיע כמסגרת תואמת לאחור, מה שאומר שניתן לבצע כל עבודה קיימת של MapReduce ב- Hadoop 2.0.
  • JobTracker כבר לא קיים - שני התפקידים העיקריים של JobTracker היו ניהול משאבים ותזמון משרות. עם הצגת מסגרת YARN הם מופרדים כעת לשני רכיבים נפרדים, כלומר:
    • NodeManager
    • מנהל משאבים

סיכום

הצגת מסגרת YARN הקלה על בניית יישומים למפתחי Hadoop. כעת, היישומים כבר לא נדרשים ליישום באמצעות כלים של צד שלישי. YARN הוא שינוי עצום המאפשר למשתמשים לשקול את Hadoop 2.0 כדי ליצור יישומים ולתפעל נתונים בצורה יעילה יותר. עם הזמן יהיו התפתחויות נוספות כדי לשפר את השימושיות של Hadoop. לעת עתה, מסגרת YARN תמלא תפקיד מכריע בהתמודדות עם הבעיות הקיימות וביצירת סביבה נטולת טרחה, שהיא מגוונת יותר מהגרסה הקודמת של מודל MapReduce.