כמה מובנים הנתונים שלך? בחינת נתונים מובנים, לא מובנים וחצי מובנים

וִידֵאוֹ: Java tech talk: Spring Boot and GraphQl integration. Как сделать это просто?

תוֹכֶן

מה הם נתונים מובנים?
מה הם נתונים לא מובנים?
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך
נופל בין: נתונים מובנים למחצה
האם ניתן להפוך נתונים לא מובנים לנתונים מובנים?

מקור: monsitj / iStockphoto

להסיר:

למדו על נתונים מובנים, לא מובנים וחצי מובנים.

מבחינה היסטורית, אנליסטים נתונים היו מסוגלים לפענח ולחלץ מידע מסוג אחד בלבד של נתונים: נתונים מובנים. נתונים מסוג זה ניתן היה לחפש בקלות בגלל הדפוסים הברורים שלה, אך ייצג אחוז קטן מכלל הנתונים הזמינים.

נתונים לא מובנים כללו גם וידיאו, שמע, נתונים ונתונים שמגיעים ממדיה חברתית ומכשירים ניידים. זו היתה, למטה, השמורה הגדולה ביותר של מידע גולמי זמין, ובכל זאת איש לא הצליח להקיש על משאב זה בצורה אמינה.

אולם הדברים השתנו, ככל שהזמינות המוגברת של אחסון ויכולות עיבוד מעולות הולידה ניתוח נתונים לא מובנה - צורה חדשה, ולכן לא בשלה, של טכנולוגיה. אינטליגנציה עסקית טובה יותר מנצלת את ההזדמנות הזו במלואה, ומושקעים השקעות משמעותיות בכדי לצבור ניתוח נתונים מובנה ולא מובנה כדי לגשת למכרה הזהב האינסופי לכאורה.

בואו נבחן את שני פורמטי הנתונים האלה כדי להבין את ההבדלים ביניהם, ומה צופן העתיד לכל אנליסטים הנתונים.

מה הם נתונים מובנים?

נתונים מובנים הם מידע שנוצר על ידי אדם או מכונה ומאורגן מאוד שניתן לאחסן בקלות במבני מסדי נתונים בשורה המכונים מסדי נתונים יחסיים (RDB). זה כל דבר שקיים בפורמט שאפשר ללכוד, לאחסן ולארגן בקלות במבנה RDB שיניתוח מאוחר יותר. (למידע נוסף על בסיסי נתונים, עיין במבוא למאגרי המידע שלנו.)

דוגמאות לכך כוללות מיקודים, מספרי טלפון ודמוגרפיה של משתמשים כמו גיל ומין. ניתן למצוא שאילתות שנמצאות בבסיסי נתונים אלה באמצעות פונקציות Structured Query Language (SQL) או VLOOKUP בתוך גיליונות אלקטרוניים של Excel. ניתן לבצע אלגוריתמים לחיפוש מהיר בנתונים שנמצאים בשדות השונים באמצעות האינדקסים שלהם, או הנתונים המספריים והאלף-ביתיים שלהם. עם זאת, כל הנתונים מוגדרים בקפדנות מבחינת סוג השדה ושם, והיכולת לאחסן, לשאול ולנתח אותם מוגבלת אפוא במידה מסוימת.

יישומים אופייניים המשתמשים בנתונים מובנים כוללים תוכנת ניהול בתי חולים, יישומי ניהול קשרי לקוחות (CRM) ומערכות להזמנת חברות תעופה. בגלל הארגון המסודר והנגישות הקלה שלה, נתונים מובנים הם שימושיים ויעילים כאשר מתמודדים עם כמויות גדולות של מידע. עם זאת, כאשר מקדחים את השמן השחור המסתתר בכמות הנתונים הבלתי פוסקת המופקת מדי יום על ידי האנושות, לעומת זאת, חיפוש נתונים מובנים אינו אלא שריטות על פני השטח.

מה הם נתונים לא מובנים?

הרוב המכריע של הנתונים שנמצאים בארגון אינו מובנה, ויש המעריכים כי הם עד 80 אחוז מסך הנתונים הקיימים כיום. בהגדרה, נתונים לא מובנים הם כל מה שאין לו מבנה פנימי שניתן לזהות. עם זאת, סוגים מסוימים של נתונים הנכללים בקטגוריה זו יש לי איזושהי צורה של מבנה פנימי מעורפל, אך היא אינה תואמת למסד נתונים או לגיליון אלקטרוני.

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

רוב הנתונים העסקיים אינם מובנים, ונעים בין אינטראקציות עם שירות לקוחות, קבצים, יומני אינטרנט, סרטונים ותכני מולטימדיה אחרים, אוטומציה מכירות, פוסטים ופוסטים במדיה חברתית. אין צורך להסביר עד כמה נתונים אלה יכולים להיות חשובים אם ניתן לכרותם, לארגן אותם ולנתח אותם.

רוב הנתונים הלא מובנים נוצרים על ידי בני אדם, וכך נוצרים על ידי בני אדם אחרים. משמעות הדבר היא שהאינטליגנציה הממוחשבת הנחמדת אינה מבינה מידע מסוג זה מכיוון שהיא רחוקה מדי מהליניאריות של שפת מכונות ומסדי נתונים מובנים.

נופל בין: נתונים מובנים למחצה

נתונים מובנים למחצה הם סוג שלישי של נתונים המייצגים חתיכה קטנה בהרבה מהעוגה כולה (5-10 אחוזים). נתונים ממש מובנים בין שני העולמות, מכילים תגים וסמנטים סמנטיים פנימיים המזהים אלמנטים נפרדים, אך הם חסרים את המבנה הנדרש בכדי להתאים למסד נתונים יחסי.

לדוגמה, נתונים עשויים להיראות כמו נתונים מובנים מכיוון שהם יכולים להיות מסווגים לפי תאריך, גודל קובץ או זמן. עם זאת, הם אינם, מכיוון שהמידע החשוב ביותר הוא המידע שנמצא בתוכם, ולא התוויות הפשוטות יחסית שלו. זה לא יכול להיות מסודר באמת לפי תוכן ונושא, מכיוון שבני האדם אינם מדברים בתבניות כה קפדניות כדי לאפשר למכונה להבין אותם באופן חד משמעי. דוגמאות נוספות לנתונים מובנים למחצה כוללים בסיסי נתונים של NoSQL, JSON הסטנדרטית הפתוחה ושפת הסימון XML.

נתונים מובנים למחצה בדרך כלל נשאלים ומקטלגים לניתוח באמצעות ניתוח מטא נתונים. לדוגמה, סריקת רנטגן מורכבת ממספר עצום של פיקסלים המהווים את התמונה - שהם נתונים בלתי מובנים מטבעם שלא ניתן לגשת אליהם. עם זאת, קובץ הסריקה עדיין יכלול חלק מטא נתונים המספק מידע עליו, כגון הערות ומזהה משתמש.

האם ניתן להפוך נתונים לא מובנים לנתונים מובנים?

האתגר הבסיסי שעומד בפני כל מנתח נתונים הוא לארגן את המידע העומד בפניו בצורה מסודרת ומסודרת כך שניתן יהיה לגשת אליו ולהבין אותו. כלים לכריית נתונים בדרך כלל אינם מצוידים בכדי לנתח מידע שהוא, בהגדרה, דומה מדי לשפה אנושית, כלומר רק אדם אחר יכול לאסוף ולקטלג אותו.

עם זאת, הנפח העצום של נתונים לא מובנים עושה כל ניסיון לאחסן או לארגן אותם עמלנים ויקרים במיוחד. מאגר המידע שמקורו, למשל, במנוע חיפוש מבוסס-אתרים הוא כה מאסיבי, שרוב האלמנטים דורשים השקעה אדירה מבחינת עבודה ומשאבים רק כדי לחלץ את הבסיסיים ביותר. אפילו הטכניקות היעילות ביותר לכריית נתונים עדיין מפספסות כמות משמעותית של מידע שנמצא באינטרנט, וחמור מכך - בתוך הרשת העמוקה.

אבל טכניקות אכן קיימות. והם מתפתחים במהירות מדהימה. לדוגמה, מטא נתונים יכולים לשמש לחיבור נתונים מובנים ולא מובנים יחד. מידע שנקטף יכול להיות מסונן ואינדקס גם על ידי המשתמשים וגם האלגוריתמים, אלא רק לנתח נתונים רלוונטיים. פתרונות אחרים כוללים "התנצלות נתונים", זהו תהליך שבאמצעותו מאורגנים נתונים מורכבים צעד אחר צעד על ידי משתמשים לא טכניים. (למידע נוסף על משתמשים רגילים המטפלים בנתונים, ראה כיצד נתונים גדולים יכולים לעזור ב- Analytics בשירות עצמי.)

בשלב מסוים נוכל להפוך ביעילות כמויות מידע לא מאורגנות מאסיביות לפורמט מאורגן ומובנה יותר. אולי לא היום, אולי לא מחר, אבל בקרוב נוכל לפשט על הכספת הגדולה ביותר שהאנושות ראתה אי פעם: ביג דאטה.