קטלוגי נתונים והתבגרות שוק למידת מכונות

וִידֵאוֹ: How to Prepare Data for Machine Learning and A.I.

תוֹכֶן

ציווי האינפונומיה
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך
מה קטלוגים של נתונים יכולים לעשות לעסקים
הוספת למידת מכונות
איך לבחור

מקור: Nmedia / Dreamstime.com

להסיר:

שוק ה- MLDC צומח, וארגונים המבקשים למנף ביעילות נתונים גדולים בעזרת למידת מכונה צריכים להיות מודעים לשמות המובילים בתחום ולדירוגיהם האישיים.

זה עידן ה- Big Data. אנו מוצפים במידע, ועסקים מוצאים שזה אתגר לנהל ולהפיק ממנו את הערך.

זרימת נתונים גדולים של ימינו כרוכה לא רק בנפח, מגוון ומהירות, אלא גם מורכבות. כפי שזוהה על ידי SAS בהיסטוריה של Big Data ובשיקולים שוטפים שזה גורם לזרמים "ממקורות מרובים, מה שמקשה על קישור, התאמה, ניקוי ושינוי נתונים על פני מערכות." (רוצה ללמוד עוד על נתונים גדולים? בדוק (ביג) דאטה עתיד גדול.)

מציאת תובנה בעלת ערך אינה שאלה של פשוט לצבור כמה שיותר נתונים, אלא למצוא את הנתונים הנכונים. אי אפשר לעבוד את כל זה עם תהליכים ידניים. זו הסיבה שיותר ויותר עסקים "פונים לקטלוגים של נתונים על מנת לדמוקרטיזציה של הגישה לנתונים, לאפשר לידע נתונים שבטיים לאצור מידע, ליישם מדיניות נתונים ולהפעיל את כל הנתונים לערך העסקי במהירות."

כאן נכנסים לתמונה קטלוגי נתונים (לעיתים ידועים גם כקטלוגי מידע). כפי שהוגדר כאן, הם מאפשרים "למשתמשים לחקור את מקורות הנתונים הנדרשים שלהם ולהבין את מקורות הנתונים שנחקרו, ובמקביל לסייע לארגונים להשיג יותר ערך מהשקעותיהם הנוכחיות." אחת הדרכים שהוא עושה זאת היא בכך שהיא מאפשרת גישה הרבה יותר גדולה לנתונים, בין סוגים שונים של משתמשים שיכולים לעשות בהם שימוש או לתרום להם.

ציווי האינפונומיה

גרטנר ציין את הביקוש הגדל באופן דרמטי לקטלוגי נתונים בסוף 2017, "השחור החדש". הם הוכרו כפתרון מהיר וחסכוני "למלאי ולסווג את הארגונים שהפיצו יותר ויותר לא מאורגנים נכסי נתונים ולמפות את שרשרות אספקת המידע שלהם." ההכרח לכך התעורר עקב עליית "אינפונומיקה", הקוראת ליישם את אותה הקפדה על מעקב אחר מידע כמו שקורה לניהול נכסים עסקיים אחרים. (למידע נוסף על שרשראות אספקה, ראה כיצד למידת מכונה יכולה לשפר את יעילות שרשרת האספקה.)

גרטנרים לוקחים ג'יבים עם The Forrester Wave ™: קטלוגי נתונים למידת מכונות, Q2 2018. יותר ממחצית משתתפי הסקר בדו"ח זה אמרו שהם מתכננים לבנות את יישום קטלוג הנתונים שלהם. סביר להניח שהם מונעים במידה רבה מהעובדה שלכל אחד מהם היו לפחות שבעה אגמי נתונים בארגונם. כפי שמסביר גרטנר על קטלוגי נתונים, קטלוגים של נתונים מועילים במיוחד לשלוף את ה"המצב, המשמעות והערך של נתונים "שנמצאים בדרך כלל בצורה לא מסווגת באגם נתונים.

פורסטר מדווח כי יותר משליש ממקבלי ההחלטות על נתונים ואנליטיקה עסקו ב -1,000 טרה-בתים או יותר ב -2017, סכום המדווח רק בין 10 ל -14 אחוז בשנה שקדמה לה. ניהול נתונים בסדר גודל זה הוא אתגר הולך וגובר, או ספציפית, שני אתגרים:

"1) מיזוג תהליכים עסקיים קיימים למקור נתונים כדי לנתח אותם וליישם תובנות ו -2) איסוף, איסוף, ניהול ושלטון הנתונים ככל שהם גדלים."

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

מה קטלוגים של נתונים יכולים לעשות לעסקים

גרטנר מזהה דרכים ספציפיות בהן קטלוגי נתונים יכולים לשפר את זרימת המידע והפרודוקטיביות של הארגונים:

איסוף ותקשורת של מלאי נכסי המידע המעודכן הזמין לארגון.
יצירת מילון מונחים עסקי המשותף המגדיר את הפרשנות והמשמעות הסמנטית של נתוני הארגונים, ובכך מספק אמצעים לתיווך ולפתרון חוסר עקביות סופי.
מה שמאפשר סביבת שיתוף פעולה דינאמית וזריזה כדי לאפשר לעמיתים לעסקים ו- IT להעיר, לתעד ולשתף נתונים.
מתן שקיפות שימוש בנתונים עם שושלת וניתוח השפעה.
מעקב, ביקורת ומעקב אחר נתונים לתמיכה בתהליכי ניהול מידע.
לכידת מטא נתונים לשיפור ניתוח פנימי של שימוש ושימוש חוזר בנתונים, מיטוב שאילתות ואישור נתונים.
יצירת מידע בתוך השימוש העסקי שלו באמצעות לכידת, תקשורת וניתוח של אילו נתונים קיימים, מאיפה הם מגיעים, באילו חסרונות הם משתמשים, מדוע הם נדרשים, כיצד הם זורמים בין תהליכים ומערכות, מי אחראי עליהם, מה המשמעות של זה ואיזה ערך יש לו.

קבלת הנתונים המזוהים כנגישים ונגישים לאנשי המפתח בארגון היא חשובה, אומר דוח גרטנר, לא רק כדי למצוא את הדרך "לייצר רווחים מנכסי נתונים לתוצאות עסקיות דיגיטליות", אלא לציית לתקנות, בין אם מדובר בתעשייה - ספציפיות כמו חוק ניידות וחשבון אחריות (HIPAA) או בעלי אופי כללי יותר כמו תקנת הגנת מידע כללית (GDPR).

הוספת למידת מכונות

אבל שום דבר אינו חסר חסרונותיו. עבור קטלוגים של נתונים, הבעיה הייתה התהליך האיטי והמייגע הכרוך בבנייתם באופן ידני עם כל המטא נתונים שצריך למקם. זה המקום אליו נכנס רכיב למידת המכונה.

קטלוגי הנתונים אותם העריך פורסטר נקראים MLDCs מכיוון שהם רותמים את הכוח של למידת מכונה, אחד המרכיבים של ה- AI. כפי שהוסבר בבלוג Podium Data, הדבר מאפשר "לבנות מאגר מתמשך של מטא נתונים ואז להחיל ML / AI כדי לחמוס ולחשוף תובנות פוטנציאליות מועילות לגבי נכסי נתונים בסיסיים."

איך לבחור

כדי לעזור לארגונים להעריך אילו עסקים צריכים לבחור, Forester ביצע 29 נקודות הערכה על 12 ה- MLDC המובילים. היא זיהתה את המובילים בשוק זה כמו: IBM, Relito, Unifi Software, Alation ו- Collibra. המופיעים החזקים שמצא הם Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics ו- Cloudera. הורטונוורקס עומד לבדו בדרגת "מתמודד".

עם זאת, אסור לעבור בדירוג הכללי בלבד. הדו"ח אכן מפרק את נקודות החוזק והחולשה של כל אחת מהן. לפיכך, אם תכונה מסוימת, כמו מחקר ופיתוח, היא בעלת חשיבות עליונה עבור ארגון, היא עשויה לשקול את הורטונוורקס כשווים בין יבמ וקולברה עבור אותו היבט מכיוון ששלושה אלה חולקים את הדירוג הגבוה ביותר של חמישה לאותה איכות, שהייתה שתי נקודות טובות יותר מאלציה וקולודרה וארבע נקודות טובות יותר מקמברידג 'סמנטיקס.

בהתאם, דו"ח פורסטר ממליץ למי שמשתמש בדו"ח שלו להנחיות שלא להניח שהחברה המדורגת המדורגת היא הבחירה הטובה ביותר עבור כולם. עליהם להקדיש תשומת לב לפירוט ההערכה כדי למצוא מה שעונה על הדרישות הספציפיות שלהם.