Hadoop Analytics: שילוב נתונים דורש גישה מקורית-אגנוסטית

מקור: Agsandrew / Dreamstime.com

להסיר:

שיטות מקור-אגנוסטיות הן אידיאליות לעיבוד נתונים עבור ניתוח Hadoop.

שילוב מקורות נתונים בהאדופ הוא עסק מורכב. חלק מהסיבות לכך כוללות:

סקריפטים מותאמים אישית וספציפיים למקור המשלבים מקורות נתונים הם בעייתיים.
שימוש בשילוב נתונים או בכלי מדעי נתונים מביא יותר מדי אי וודאות.
הוספת נתונים ממקורות חיצוניים היא דבר בלתי אפשרי.

היום אני הולך לדון כיצד משפרת את האנליטיקה של Hadoop באמצעות טכנולוגיות מקור-אגנוסטיות שמקלות על שילוב מקורות נתונים פנימיים וחיצוניים. בנוסף לתיאור כיצד שיטות המקור-אגנוסטיות עובדות, אסקור גם מדוע ניתוח Hadoop זקוק ליכולות אינטליגנציה והעברת ידע מובנות, הבנה של מערכות יחסים ומאפייני נתונים, וארכיטקטורה ניתנת להרחבה וביצועים גבוהים.

שיטות מקור-אגנוסטיות כוללים מודל רזולוציה של ישות גמישה המאפשר להוסיף מקורות נתונים חדשים באמצעות תהליכי מדעי נתונים בעלי צלילים חזקים וניתנים לחזרה. תהליכים אלה ממנפים אלגוריתמים לאיסוף ידע מהנתונים, ולהעריך, לנתח אותם כדי לקבוע את גישת השילוב הטובה ביותר.
לא משנה כמה מקוטע או לא שלם רשומות המקור המקוריות, טכנולוגיות ניתוח Hadoop צריכות להיות מקור אגנוסטי ולהיות מסוגלות לאחד נתונים מבלי לשנות או לתפעל את נתוני המקור. טכנולוגיות אלה צריכות ליצור גם מדדי ישויות המבוססים על תוכן נתונים ותכונות אודות יחידים וכיצד הם קיימים בעולם. כדי להשיג זאת, עליהם להבין את תוכן הנתונים, ההקשר, המבנה וכיצד רכיבים קשורים זה לזה.
מומחיות מובנית במדעי נתונים ושילוב נתונים מאפשר לנקות, לתקנן ולתאם נתונים ברמה גבוהה של דיוק ודיוק. כלים ודיווחים להדמיה עוזרים לאנליסטים להעריך וללמוד מנתונים, ולבצע כוונון מערכת על בסיס ידע שנצבר משלבים שונים בתהליך.
הבנת מערכות יחסים בין ישויות מוביל תהליכי רזולוציית ישויות מדויקים יותר. מכיוון שישויות בעולם האמיתי אינן רק סכום התכונות שלהן, אלא גם הקשרים שלהן, יש להשתמש בידע מערכות יחסים כדי לזהות מתי הרשומות זהות. זה חשוב במיוחד לטיפול בתיקים בפינה ובנתונים גדולים.
אפיון נתונים משפר את הניתוח, הרזולוציה והקישור של נתונים על ידי זיהוי ומתן מידע למקורות נתונים. זה יכול לעזור באימות התוכן, הצפיפות וההפצה של נתונים בטורים של מידע מובנה. ניתן להשתמש באפיון נתונים גם כדי לזהות ולהוציא נתונים חשובים הקשורים לישויות (שם, כתובת, תאריך לידה וכדומה) ממקורות לא מובנים וחצי מובנים להתאמה עם מקורות מובנים.
אדריכלות מדרגית, מקבילה מבצע ניתוחים במהירות גם בתמיכה במאות מקורות נתונים מובנים, מובנים למחצה ולא מובנים, ועשרות מיליארדי רשומות.

Hadoop משנה את הדרך בה העולם מבצע ניתוחים. כאשר מתווספים ניתוחים מקוריים-אגנוסטיים למערכות האקולוגיות של Hadoop, ארגונים יכולים לחבר את הנקודות על פני מקורות נתונים פנימיים וחיצוניים רבים ולקבל תובנות שלא היו אפשריות קודם לכן.

מאמר זה פורסם במקור באתר Novetta.com. זה קנה כאן באישור. נובטה שומרת על כל זכויות היוצרים.