קודו: מחליף משחק במערכת האקולוגית של Hadoop?

מְחַבֵּר: Roger Morrison
תאריך הבריאה: 21 סֶפּטֶמבֶּר 2021
תאריך עדכון: 1 יולי 2024
Anonim
קודו: מחליף משחק במערכת האקולוגית של Hadoop? - טכנולוגיה
קודו: מחליף משחק במערכת האקולוגית של Hadoop? - טכנולוגיה

תוֹכֶן


מקור: Agsandrew / Dreamstime.com

להסיר:

Kudu הוא פרויקט קוד פתוח המסייע בניהול אחסון ביעילות רבה יותר.

Kudu הוא פרויקט קוד פתוח חדש המספק אחסון שניתן לעדכון. זהו השלמה ל- HDFS / HBase המספק אחסון ברצף וקריאה בלבד. Kudu מתאים יותר לניתוח מהיר על נתונים מהירים, שהם כרגע הביקוש לעסקים. אז Kudu הוא לא סתם עוד פרויקט מערכת אקולוגית של Hadoop, אלא יש לו פוטנציאל לשנות את השוק. (למידע נוסף על Hadoop, עיין בעשרת התנאים החשובים ביותר של Hadoop שאתה צריך לדעת ולהבין.)

מה זה קודו?

Kudu היא סוג מיוחד של מערכת אחסון המאחסנת נתונים מובנים בצורה של טבלאות. לכל טבלה מספרים של עמודות שהוגדרו מראש. לכל אחד מהם מפתח ראשי שהוא למעשה קבוצה של אחת או יותר עמודות באותה טבלה. מפתח ראשי זה נועד להוסיף מגבלה ולאבטח את העמודות, וגם לעבוד כאינדקס, המאפשר עדכון ומחיקה קלים. טבלאות אלה הן סדרה של קבוצות משנה של נתונים הנקראות טאבלטים.

מהו המצב הנוכחי של קודוס?

קודו ממש מפותח וכבר משולב עם הרבה תכונות. עם זאת, היא עדיין תזדקק לליטוש כלשהו, ​​שניתן לעשות זאת ביתר קלות אם המשתמשים מציעים לבצע שינויים כלשהם.


Kudu הוא קוד פתוח לחלוטין ובעל רישיון תוכנת Apache 2.0. זה נועד גם להיות מוגש לאפצ'י, כך שניתן יהיה לפתח אותו כפרויקט חממת אפאצ'י. זה יאפשר להתפתחותה להתקדם אפילו יותר מהר ולהגדיל את הקהל שלו עוד יותר. לאחר פרק זמן מסוים, פיתוחו של קודו ייעשה בפומבי ושקוף. חברות רבות כמו AtScale, Xiaomi, Intel ו- Splice Machine חברו יחד לתרום בפיתוח של קודו. לקודו יש גם קהילה גדולה, בה מספר גדול של קהלים כבר מספק את הצעותיהם ותרומותיהם. אז האנשים שמניעים את ההתפתחות של קודו קדימה.

כיצד יכול קודו להשלים HDFS / HBase?

Kudu לא נועד להחליף את HDFS / HBase. זה למעשה מיועד לתמוך הן ב- HBase והן ב- HFDS ולרוץ לצידן כדי להגדיל את התכונות שלהם. הסיבה לכך היא של- HBase ו- HDFS עדיין יש הרבה תכונות שהופכות אותם לחזקים יותר מקודו במכונות מסוימות. בסך הכל, מכונות כאלה יקבלו יותר יתרונות ממערכות אלה.

תכונות של מסגרת קודו

המאפיינים העיקריים של מסגרת קודו הם כדלקמן:

  • סריקות מהירות במיוחד של עמודות הטבלה - פורמטי הנתונים הטובים ביותר כמו פרקט ו- ORCFile זקוקים להליכי הסריקה הטובים ביותר, שקודו מטפל בה בצורה מושלמת. פורמטים כאלה זקוקים לסריקות מהירות שיכולות להופיע רק כאשר הנתונים העמודים מקודדים כראוי.
  • אמינות הביצועים - מסגרת קודו מגדילה את האמינות הכוללת של Hadoop על ידי סגירת הפרצות והפערים הקיימים בהודו.
  • שילוב קל עם Hadoop - ניתן לשלב את Kudu בקלות עם Hadoop ומרכיביה השונים כדי לייעל יותר.
  • קוד פתוח לחלוטין - קודו היא מערכת קוד פתוח עם רישיון Apache 2.0. יש בה קהילה גדולה של מפתחים מחברות ורקעים שונים, אשר מעדכנים אותה באופן קבוע ומספקים הצעות לשינויים.

כיצד יכול קודו לשנות את המערכת האקולוגית של Hadoop?

קודו נבנה כך שישתלב במערכת האקולוגית של Hadoop וישפר את תכונותיו. זה יכול גם להשתלב עם כמה מרכיבי המפתח של Hadoop כמו MapReduce, HBase ו- HDFS. עבודות MapReduce יכולות לספק נתונים או לקחת נתונים מטבלאות קודו. ניתן להשתמש בתכונות אלה גם ב- Spark. שכבה מיוחדת מנגישה את Kudu לרכיבי Spark כמו Spark SQL ו- DataFrame. למרות שקודו לא פותח כל כך כדי להחליף את התכונות הללו, ההערכה היא שאחרי מספר שנים הוא יפותח מספיק כדי לעשות זאת. עד אז, השילוב בין Hadoop לקודו הוא באמת שימושי מאוד ויכול למלא את הפערים העיקריים במערכת האקולוגית של Hadoop. (למידע נוסף על Apache Spark, ראה כיצד Apache Spark עוזר לפיתוח מהיר של יישומים.)


ניתן ליישם את קודו במגוון מקומות. להלן מספר דוגמאות למקומות כאלה:

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אינך יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

  • הזרמת תשומות בזמן אמת כמעט בזמן - במקומות בהם יש לקבל תשומות בהקדם האפשרי, Kudu יכול לעשות עבודה מדהימה. דוגמה למקום כזה היא בעסקים, שבהם כמויות גדולות של נתונים דינמיים מציף ממקורות שונים, וצריך להנגיש אותם במהירות בזמן אמת.
  • יישומי סדרות זמן עם דפוסי גישה משתנים - Kudu מושלם ליישומים מבוססי סדרות זמן מכיוון שפשוט יותר להגדיר טבלאות ולסרוק אותן באמצעותן. דוגמה לשימוש כזה היא בחנויות הכלבו, שם יש למצוא נתונים ישנים במהירות ולעבד אותם כדי לחזות את הפופולריות העתידית של המוצרים.
  • מערכות מדור קודם - חברות רבות שמקבלות נתונים ממקורות שונים ומאחסנות אותן בתחנות עבודה שונות ירגישו בבית עם קודו. קודו מהיר ביותר ויכול להשתלב ביעילות עם אימפלה כדי לעבד נתונים על כל המכונות.
  • דוגמנות חזויות - מדעני נתונים שרוצים פלטפורמה טובה למודל יכולים להשתמש בקודו. קודו יכול ללמוד מכל מערך הנתונים המוזנים לתוכו. המדען יכול לרוץ ולהפעיל מחדש את המודל שוב ושוב כדי לראות מה קורה.

סיכום

למרות שקודו עדיין בשלב הפיתוח, יש לו מספיק פוטנציאל להיות תוסף טוב לרכיבי Hadoop סטנדרטיים כמו HDFS ו- HBase. יש לו מספיק פוטנציאל לשנות לחלוטין את המערכת האקולוגית של Hadoop על ידי מילוי כל הפערים וגם הוספת כמה תכונות נוספות. זה גם מהיר ועוצמתי מאוד ויכול לעזור בניתוח ואחסון מהיר של טבלאות נתונים גדולות. עם זאת, עדיין נותרו עבודות שכדי לעשות זאת בכדי להשתמש בהן בצורה יעילה יותר.