אתגר ה- Big Data של ימינו נובע מגיוון, לא מנפח או מהירות

תוֹכֶן

שלושה Vs של נתונים גדולים
מטפל בבעיית מגוון הנתונים
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

להסיר:

יותר מדי מחלקות IT זורקות את כל מה שיש להן בנושאי נפח ומהירות הנתונים, ושוכחות לטפל בסוגיה הבסיסית של מגוון הנתונים.

האתגר בניהול ומינוף של נתונים גדולים מגיע משלושה גורמים, לפי דאג לייני, סגן נשיא המחקר בגרטנר. לייני ציין לראשונה לפני למעלה מעשור כי נתונים גדולים מהווים בעיה כזו עבור הארגון מכיוון שהם מציגים נפח, מהירות ומגוון קשה לניהול. הבעיה היא שרוב מחלקות ה- IT יותר מדי זורקות את כל מה שיש להם לנושאים של נפח נתונים ומהירותם, ושוכחים לטפל בסוגיה הבסיסית של מגוון הנתונים.

עוד בשנת 2001 כתב לייני כי "ארגונים מובילים ישתמשו יותר ויותר במחסן נתונים מרכזי כדי להגדיר אוצר מילים משותף המשפר את שיתוף הפעולה הפנימי והחיצוני." סוגיית אוצר המילים ההוא - והשונות שמונעת מחברות ליצור אותו - נותרה היבט הכי פחות ממוכן של מצוקת המידע הגדול כיום. (בדוק מה יש למומחים אחרים לומר. בדוק מומחי ביג דאטה שעוקבים אחריהם.)

שלושה Vs של נתונים גדולים

עסקים רבים מצאו שיטות לרתום נפח נתונים ומהירות מוגברת. למשל, יכול לנתח כמויות עצומות של נתונים. כמובן, נתונים אלה מוצגים לעתים קרובות שוב ושוב באותו פרמטרים. זה הניע חידושים טכנולוגיים כמו מסדי נתונים של עמודות, שמשמשים כיום נרחב על ידי חברות אחרות העומדות בפני חנויות לא פחות גדולות של פריטי נתונים דומים.

מבחינת מהירות אילוף, ספקים כמו Splunk עוזרים לארגונים לנתח נתונים שנוצרו במהירות באמצעות קבצי יומן שתופסים כמה אלפי אירועים בשנייה. ניתוח זה של אירועים בעלי נפח גבוה מכוון למקרי שימוש באבטחה וניטור ביצועים. בדומה לאתגר נפח הנתונים, האתגר המהירתי טופל ברובו באמצעות טכניקות אינדקס מתוחכמות וניתוח נתונים מבוזר המאפשרים להתאים את יכולת העיבוד במהירות גבוהה יותר של נתונים.

אולם בכל הנוגע למגוון, יותר מדי חברות עדיין מתמודדות עם בעיה גדולה בגישתן לניתוח נתונים גדולים. בעיה זו מונעת על ידי שלושה גורמים: ראשית, עקב צמיחה, רכישות וחידושים טכנולוגיים שמוסיפים מערכות חדשות לסביבה, ארגונים נעולים בסביבה הטרוגנית מאוד והטרוגניות זו רק עולה עם הזמן. ארגונים צריכים לעקוב אחר שפע של סוגים של מערכות ולנהל עשרות אלפי סוגי נתונים, כמו גם אותם נתונים המיוצגים באמצעות נומינקלטורות ופורמטים שונים.

שנית, מערכות וסוגי נתונים אלה במקרים רבים מדווחים על מידע רלוונטי וגם על מידע שניתן לסנן בבטחה כלא רלוונטי לבעיה המטופלת. יש צורך לזהות באופן אמין מידע בעל השפעה.

הממד השלישי לאתגר המגוון הוא השונות או השינוי המתמיד בסביבה. מערכות משודרגות, מערכות חדשות מוצגות, סוגים חדשים של נתונים מתווספים ומוצגים nomenclature חדש. זה מאמצ עוד יותר את היכולת שלנו לאלף את אתגר מגוון הנתונים. זה מוסיף נדבך נוסף לאתגר המגוון. (לקבלת תובנה נוספת, עיין בביג דאטה: כיצד הם נלכדים, מרוסקים ומשמשים לקבלת החלטות עסקיות.)

מטפל בבעיית מגוון הנתונים

כדי לטפל בבעיית מגוון הנתונים, על ארגונים להתחיל עם תחום ה- IT, מכיוון שלעתים קרובות הוא מייצג את העבריינים הגרועים ביותר ואת הקורבנות הגרועים ביותר של בעיית המגוון. השלב הראשון הוא להתחיל בהגדרה מקיפה או בטקסונומיה של כל גורמי ה- IT או הנכסים. זה מספק קו בסיס או בסיס להתייחס לכל דבר ב- IT או סביבו ומאפשר לארגונים לנהל את ההטרוגניות הגוברת כנגד טקסונומיה או מונחים ידועים.

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

השלב הבא הוא לזהות את הדרכים הרבות שמייצג אותו אובייקט על פני מערכות רשומה שונות. זה מאפשר לאנשי IT להסתכל על הסביבה ההטרוגנית שלהם ולסנן ולדחוס את הנתונים לנתחים רלוונטיים וניתנים לניהול.

לבסוף, על מנהלי IT לנקוט בתהליך של בחינה מתמדת של הסביבה לצורך שינויים כמו סוגים חדשים של אלמנטים המוצגים או שמות חדשים להתייחס לאותו אלמנט.

בצעדים אלה, ארגוני IT יכולים לנהל את בעיית המגוון ולהפיק תובנות עמוקות שחמקו מבחינה היסטורית צוותי IT. יתר על כן, ניהול בעיית המגוון משפר במידה ניכרת את ההחזר על ההשקעה שלהם בכלים וטכניקות שמתמודדים עם בעיות המסורת הגדולות יותר של נפח ומהירות.