7 דברים שכדאי לדעת על Hadoop

מְחַבֵּר: Eugene Taylor
תאריך הבריאה: 8 אוגוסט 2021
תאריך עדכון: 15 יוני 2024
Anonim
Ben Wellington: How we found the worst place to park in New York City — using big data
וִידֵאוֹ: Ben Wellington: How we found the worst place to park in New York City — using big data

תוֹכֶן


מקור: Pressureua / Dreamstime.com

להסיר:

Hadoop עוזר לנתח נתונים כבר שנים, אבל כנראה שיש יותר מכמה דברים שאתה לא יודע עליהם.

מה זה Hadoop? זה פיל צעצוע צהוב. לא למה שציפיתם? מה דעתך על זה: דאג קוצץ - יוצר משותף של פרויקט תוכנת הקוד הפתוח הזה - לווה את השם מבנו שבמקרה כינה את פיל הצעצועים שלו Hadoop. על קצה המזלג, Hadoop היא מסגרת תוכנה שפותחה על ידי קרן התוכנה Apache ומשמשת לפיתוח מחשוב עתיר נתונים, מבוזר. וזה מרכיב מרכזי בקוראי מילות באזז שלעולם לא נראה שמספיק להשיג: נתונים גדולים. להלן שבעה דברים שכדאי לדעת על תוכנה ייחודית זו בעלת רישיון חופשי.

כיצד החלה הדו"ף?

לפני 12 שנים גוגל בנתה פלטפורמה לתמרון בכמויות הנתונים העצומות שהיא אוספת. כמו שעושה החברה לעתים קרובות, גוגל העמידה את העיצוב שלה לציבור בצורת שני מאמרים: מערכת הקבצים של גוגל ו- MapReduce.

במקביל, דאג קוטטינג ומייק קפרלה עבדו על נאצ ', מנוע חיפוש חדש. השניים נאבקו גם כיצד לטפל בכמויות גדולות של נתונים. ואז שני החוקרים קיבלו את העיתונים של גוגל. הצומת המאושר הזה שינה את הכל על ידי הצגת חיתוך וקפארלה למערכת קבצים טובה יותר ודרך לעקוב אחר הנתונים, ובסופו של דבר הוביל ליצירת Hadoop.

מה כל כך חשוב בהודו?

כיום, איסוף נתונים קל מתמיד. קבלת כל הנתונים הללו מציגה הזדמנויות רבות, אך ישנם גם אתגרים:

  • כמויות אדירות של נתונים דורשות שיטות עיבוד חדשות.
  • הנתונים שנלכדים הם בפורמט לא מובנה.
כדי להתגבר על האתגרים של מניפולציה בכמויות אדירות של נתונים לא מובנים, Cutting ו- Cafarella הציגו פיתרון של שני חלקים. כדי לפתור את בעיית כמות הנתונים, Hadoop מעסיקה סביבה מבוזרת - רשת של שרתי סחורות - ויוצרת אשכול עיבוד מקביל, שמביא כוח כוח עיבוד רב יותר למשימה שהוקצתה.

בשלב הבא הם נאלצו להתמודד עם נתונים או נתונים לא מובנים בפורמטים שמערכות מסד נתונים יחסיות סטנדרטיות לא הצליחו לטפל בהן. Cutting and Cafarella עיצבו את Hadoop כך שיעבדו עם כל סוג של נתונים: מובנה, לא מובנה, תמונות, קבצי שמע, אפילו. נייר לבן של Cloudera (משולב Hadoop) מסביר מדוע זה חשוב:

    "על ידי הפיכת כל הנתונים שלך לשימושיים, ולא רק מה שיש במאגרי המידע שלך, Hadoop מאפשרת לך לחשוף קשרים נסתרים ולחשוף תשובות שתמיד היו רק מחוץ להישג ידם. אתה יכול להתחיל לקבל יותר החלטות על בסיס נתונים קשים, במקום גיבושים, ולהסתכל בערכות נתונים שלמות, לא רק בדוגמאות וסיכומים. "

מה נקרא סכמה בקריאה?

כפי שהוזכר קודם, אחד היתרונות של Hadoop הוא יכולתו לטפל בנתונים לא מובנים. במובן מסוים, זה "לבעוט בפחית בהמשך הדרך". בסופו של דבר הנתונים זקוקים למבנה כלשהו כדי לנתח אותם.

כאן נכנס לתמונה סכמה בקריאה. הסכימה בקריאה היא מיזוג באיזו פורמט הנתונים נמצאים, היכן ניתן למצוא את הנתונים (זכור שהנתונים מפוזרים בין כמה שרתים), ומה יש לעשות לנתונים - משימה לא פשוטה. נאמר כי מניפולציה של נתונים במערכת Hadoop דורשת כישורים של אנליסט עסקי, סטטיסטיקאי ומתכנת ג'אווה. למרבה הצער, אין הרבה אנשים עם הכישורים האלה.

מהו כוורת?

אם Hadoop עמד להצליח, היה צורך לפשט את העבודה עם הנתונים. אז הקהל עם הקוד הפתוח התחיל לעבוד ויצר את כוורת:

    "כוורת מספקת מנגנון להקמת מבנה על נתונים אלה ושאילתת הנתונים באמצעות שפה דמוית SQL בשם HiveQL. יחד עם זאת שפה זו גם מאפשרת למפתחי / להפחית מתכנתים מסורתיים לחבר את המיפויים והמצמצמים שלהם בהתאמה לא נוחה או לא יעיל לבטא את ההיגיון הזה ב- HiveQL. "

כוורת מאפשרת את הטוב שבשני העולמות: אנשי מסד נתונים המכירים פקודות SQL יכולים לתפעל את הנתונים, ומפתחים המכירים את הסכימה בתהליך הקריאה עדיין מסוגלים ליצור שאילתות בהתאמה אישית.

איזה סוג נתונים מנתח Hadoop?

ניתוח אתרים הוא הדבר הראשון שעולה בראשכם, ניתוח יומני אינטרנט ותעבורת אינטרנט על מנת לבצע אופטימיזציה לאתרים. למשל, הוא בהחלט בניתוחי רשת, באמצעות Hadoop כדי למיין את טרה-בתים של נתונים שהחברה צוברת.

חברות משתמשות באשכולות Hadoop לביצוע ניתוח סיכונים, איתור הונאה ופילוח בסיס לקוחות. חברות שירות משתמשות בחאוד כדי לנתח נתוני חיישנים מרשת החשמל שלהם, ומאפשרות להם לייעל את ייצור החשמל. חברות מרכזיות כמו Target, 3M ו- Medtronics משתמשות ב- Hadoop כדי לייעל את חלוקת המוצרים, הערכות הסיכון העסקי ופילוח בסיס הלקוחות.

אוניברסיטאות מושקעות גם בהודו. בראד רובין, פרופסור חבר באוניברסיטת סנט תומאס תוכניות לתארים מתקדמים בתוכנה, הזכיר שמומחיותו של Hadoop מסייעת במיון הכמויות השפע של הנתונים שנאספו על ידי קבוצות מחקר באוניברסיטה.

האם אתה יכול לתת דוגמה מעולם האמת של Hadoop?

אחת הדוגמאות הידועות יותר היא TimesMachine. ל"ניו יורק טיימס "יש אוסף של תמונות TIFF בעיתונים המלאים, מטא נתונים קשורים ומאמר משנת 1851 עד 1922 בהיקף של טרה-בתים של נתונים. דרק גוטפריד של NYT, משתמש במערכת EC2 / S3 / Hadoop וקוד מיוחד,:

    "הציבו 405,000 תמונות TIFF גדולות מאוד, 3.3 מיליון מאמרים ב- SGML ו- 405,000 קבצי XML הממפים מאמרים לאזורים מלבניים ב- TIFF. נתונים אלה הומרו לתמונות יותר ידידותיות לאינטרנט 810,000 תמונות PNG (תמונות ממוזערות ותמונות מלאות) ול 405,000 קבצי JavaScript. "

באמצעות שרתים בענן שירותי האינטרנט של אמזון, גוטפריד ציין שהם הצליחו לעבד את כל הנתונים הדרושים ל- TimesMachine בפחות מ 36 שעות.

האם Hadoop כבר מיושנת או סתם מורפינג?

Hadoop קיימת כבר למעלה מעשור. רבים אומרים שזה מיושן. מומחה אחד, ד"ר דיוויד ריקו, אמר כי "מוצרי IT הם קצרי מועד. בשנות כלבים, מוצרי Googles הם בערך 70 ואילו Hadoop הוא 56."

יכול להיות שיש אמת במה שריקו אומר. נראה כי Hadoop עוברת שיפוץ גדול. למידע נוסף על זה, רובין הזמין אותי לישיבת קבוצת המשתמשים התאומים Hadoop התאומים, ונושא הדיון היה מבוא ל- YARN:

    "Apache Hadoop 2 כולל מנוע MapReduce חדש, שיש לו מספר יתרונות ביחס ליישום הקודם, כולל מדרגיות וניצול משאבים טוב יותר. היישום החדש בנוי על מערכת ניהול משאבים כללית להפעלת אפליקציות מבוזרות בשם YARN."
Hadoop זוכה להרבה באזז במעגלי ניהול מסדי נתונים ותוכן, אך עדיין יש סביבו הרבה שאלות וכיצד ניתן להשתמש בהן בצורה הטובה ביותר. אלה רק כמה. אם יש לך יותר, הם בדרך שלנו. ובכן ענו על הטובים ביותר באתר Techopedia.com.