כוחה של ההצעה: כיצד קטלוג נתונים מעצים אנליסטים

וִידֵאוֹ: Pass Every Coursera Peer-Graded Assignment With 100 % Credit| 2020 | Coursera Assignment | Coursera

להסיר: המארחת רבקה יוזוויאק מדברת על היתרונות של קטלוגי נתונים עם דז בלנשפילד, רובין בלור ודייויד קרופורד.

עליך להירשם לאירוע זה כדי לצפות בסרטון הווידאו. הירשמו לצפייה בסרטון.

רבקה יוז'ויאק: גבירותיי ורבותיי, שלום וברוך הבא ל- Hot Technologies משנת 2016. היום קיבלנו "כוח ההצעה: כיצד קטלוג נתונים מעצים אנליסטים." אני המארחת שלך רבקה יוז'ויאק, ממלאת את המארח הרגיל שלנו אריק קוואווה היום, בזמן שהוא מטייל בעולם, אז תודה שהצטרפת אלינו. השנה חם, לא סתם חם בטקסס איפה אני נמצא, אלא חם בכל מקום. יש פיצוץ של כל מיני טכנולוגיות חדשות שיוצאות. Weve קיבל IoT, הזרמת נתונים, אימוץ ענן, Hadoop ממשיכה להתבגר ולהיאומץ. יש לנו אוטומציה, למידת מכונה וכל הדברים האלה כמובן מודגשים על ידי נתונים. ועסקים הופכים ליותר ויותר נתונים המונעים על ידי היום. וכמובן, הנקודה היא להביא לידע, לגילוי, ואתם יודעים החלטות טובות יותר. אבל כדי לקבל באמת את המרב מהנתונים, זה צריך להיות קל להגיע אליו. אם אתה שומר אותו נעול, או קבור, או במוחם של כמה אנשים בתוך המפעל, זה לא יעשה הרבה טוב עבור הארגון בכללותו.

והייתי סוג של מחשבה על קטלוג נתונים וחשבתי על כמובן ספריות, איפה שכבר מזמן הלכת לשם אם היית צריך למצוא משהו, אם אתה צריך לחקור נושא, או לחפש קצת מידע, הלכת לספריה וכמובן שהלכת לקטלוג הכרטיסים, או לגברת המסורבלת שעבדה שם. אבל היה גם כיף להסתובב בסביבה, אם רק רצית להסתכל, ובטוח שאולי תגלה משהו מסודר, אולי תגלה כמה עובדות מעניינות שלא ידעת, אבל אם באמת היית צריך למצוא משהו, ידעת מה חיפשת, היית זקוק לקטלוג הכרטיסים, וכמובן שהמקבילה הארגונית היא קטלוג נתונים, שיכול לעזור להאיר את כל הנתונים שהמשתמשים שלנו יעשירו, יגלו, ישתפו, ישכלו ויעזרו באמת לאנשים להשיג לנתונים מהירים וקלים יותר.

אז היום יש לנו את דז 'בלנשפילד, מדען הנתונים שלנו, ויש לנו את הדוקטור רובין בלור, האנליטיקאי הראשי שלנו. יש לנו את דיוויד קרופורד מאלציה, שעומד לדבר על סיפור קטלוג הנתונים של החברה שלו, אבל ראשית אנחנו הולכים להוביל עם דז. דז, אני מעביר לך את הכדור והרצפה שלך.

דז בלנשפילד: תודה, תודה שהגעת אלי היום. זה עניין שאני מאוד מעוניין בו, מכיוון שכמעט בכל ארגון שאני נתקלתי בעבודתי היום יומית, אני מוצא בדיוק את אותו הנושא עליו דיברנו בקצרה מאוד בבנטה של לפני המופע, וזהו לרוב הארגונים שנמצאים בעסק במשך יותר מכמה שנים יש שפע של נתונים קבורים סביב הארגון, פורמטים שונים, ולמעשה יש לי לקוחות שיש להם מערכי נתונים שחוזרים ל- Lotus Notes, מסדי נתונים שעדיין פועלים בחלק מהם מקרים כמתמחים פסאודו שלהם, והם, כולם, נתקלים באתגר הזה של ממש למצוא היכן הנתונים שלהם נמצאים, וכיצד להשיג גישה אליו, למי לספק גישה אליו, מתי לספק גישה אליהם ואיך פשוט הקטלוג, וכיצד להגיע למקום בו כל אחד יכול: א) להיות מודע למה שיש שם ומה יש בו, ו- B), כיצד לקבל גישה אליו ולהשתמש בו. ואחד האתגרים הגדולים כמובן הוא למצוא את זה, האתגר הגדול האחר הוא לדעת מה יש שם ואיך לגשת אליו.

אני יכול בהחלט לדעת שיש לי עשרות מאגרי מידע, אבל אני לא יודע בעצם מה יש שם או איך לגלות מה יש שם, וכל כך תמיד שאנו מגלים כעת בנתונים שלפני המופע, אתה נוטה ללכת מסביב למשרד ולשאול שאלות, ולצעוק על קירות הקוביה ולנסות להבין, לעיתים קרובות הניסיון שלי הוא שאתה עשוי אפילו לגלות שאתה מסתובב אל דלפק הקבלה, קבלת הפנים, ושואל אם מישהו יודע מי אתה ' אתה הולך ללכת לדבר. לעתים קרובות מאוד, זה לא תמיד אנשי ה- IT מכיוון שהם לא מודעים למערך הנתונים מכיוון שמישהו פשוט יצר את זה, וזה יכול להיות משהו פשוט כמו - לעתים קרובות מאוד נמצא פרויקט כזה או אחר שעומד בסביבת IT ו מנהל הפרויקט השתמש בגיליון אלקטרוני של כל הדברים, והוא קיבל כמות עצומה של מידע חשוב סביב נכסים וחסרונות ושמות, אלא אם אתה מכיר את הפרויקט הזה ואתה מכיר את אותו אדם, אתה פשוט לא יכול למצוא את המידע הזה. זה פשוט לא זמין, ואתה צריך להשיג את הקובץ המקורי הזה.

ישנו ביטוי שמוטמע ביחס לנתונים ואני לא בהכרח מסכים עם זה, אבל אני חושב שזה זורק קטן וחמוד וזה כי כמות מסוימת של אנשים חושבים שהנתונים הם השמן החדש, ואני בטוח שאנחנו אני הולך לסקר את זה גם בהיבט כלשהו, בהמשך היום. אבל מה ששמתי לב, בוודאי שהם חלק מאותה שינוי, הוא שארגונים של עסקים שלמדו להעריך את הנתונים שלהם זכו ליתרון משמעותי על פני המתחרים שלהם.

היה מאמר מעניין של יבמ, לפני כחמש-שש שנים, והם סקרו כ -4,000 חברות כאן באוסטרליה, והם לקחו את כל המידע, כל נתוני הביצועים, כל נתוני הכספים והרכיבו אותם בסיר רותח ואז שלחו את זה לבית הספר לכלכלה באוסטרליה, והם למעשה התחילו כאן מגמה נפוצה, וזה היה שחברות שמנפות טכנולוגיה תמיד השיגו יתרון תחרותי כזה על פני חבריהן ומתחרותיהן כשלעצמן, שהמתחרות שלהן כמעט ולא מדביקות, ולדעתי זה בדיוק המקרה עכשיו עם נתונים שראינו מה שאנשים מכנים טרנספורמציה דיגיטלית, שם ארגונים שהבינו בבירור כיצד למצוא נתונים שיש להם, להנגיש את הנתונים ולהפוך אותם לזמינים בכמה מתכלה קלים מאוד אופנה לארגון, מבלי שתמיד לדעת תמיד מדוע הארגון עשוי להזדקק לו, ולהשיג יתרון משמעותי על פני המתחרים.

יש לי כמה דוגמאות בשקופית זו, שתוכלו לראות. השורה האחת שלי היא, שהשיבוש הגדול בהיקף כמעט בכל ענף תעשיה, לדעתי, מונע על ידי נתונים, ואם המגמות הנוכחיות צריכות לעבור משהו, אני חושב שרק עכשיו הגענו התחילו מכיוון שכאשר המותגים הוותיקים מתעוררים סוף סוף למשמעות זו ונכנסים למשחק, הם הולכים להיכנס למשחק בסיטונאות. כאשר סוג של הקמעונאים הגדולים שיש להם הרים של נתונים מתחילים ליישם ניתוח היסטורי על הנתונים, אם הם אפילו יודעים שהם קיימים, אז חלק מהשחקנים המקוונים עומדים לקבל מעט שיחת השכמה.

אבל עם רבים מרוב המותגים האלה, אני מתכוון שיש לנו את Uber שהיא חברת המוניות הגדולה בעולם. הם לא מחזיקים מוניות כלשהן, אז מה זה שגורם להם לקסם, מה הנתונים שלהם? ב- Airbnb, ספק האירוח הגדול ביותר, יש לנו WeChat, חברת הטלפונים הגדולה בעולם, אבל אין להם שום תשתית ממש, ואין מכשירים, אין קווי טלפון. עליבאבא, הקמעונאית הגדולה ביותר על פני כדור הארץ, אך הם לא מחזיקים במלאי כלשהו. , חברת המדיה הגדולה במילה. אני חושב שבספירה האחרונה היו להם עכשיו 1.4 מיליארד משתמשי נתונים פעילים, שזה מספר מדהים. זה לא בשום מקום קרוב - אני חושב שמישהו טען שרבע מכוכב הלכת נמצא בעצם כל יום ובכל זאת, הנה ספק תוכן שלמעשה לא יוצר את התוכן, כל הנתונים שהם משרתים לא נוצרים על ידיהם, זה נוצר על ידי שלהם מנויים, וכולנו מכירים את המודל הזה.

SocietyOne, שאולי שמעת עליו או שאולי לא שמעת עליו, זה מותג מקומי, אני חושב שבכמה מדינות זה בנק שעושה למעשה הלוואות מעמית לעמית, אז במילים אחרות, אין לו כסף. כל מה שהוא עושה זה שהוא מנהל את העסקאות והנתונים יושבים מתחתיו. נטפליקס, כולנו מכירים את זה מאוד. יש כאן אניה מעניינת. כשנטפליקס הצליחה להשתמש באופן חוקי באוסטרליה, כשהוכרז רשמית, לא היית צריך להשתמש ב- VPN כדי להגיע אליו, אנשים רבים ברחבי העולם נוטים - אם אתה לא מצליח להגיע אליו באזור שלך - מתי Netfix הושקה באוסטרליה, היא הגדילה את רוחב הפס הבינלאומי בקישורי האינטרנט שלנו בכ -40 אחוז, כך שכמעט הכפילה את השימוש באינטרנט באוסטרליה בן לילה, על ידי יישום אחד בלבד, יישום אירוח ענן שאינו עושה דבר מלבד לשחק עם נתונים. זה פשוט נתון מרתק.

וכמובן, כולנו מכירים את אפל וגוגל, אבל אלה עסקים בתחום התוכנה הגדולים בעולם, ובכל זאת הם לא כותבים את האפליקציות. מה הדבר העקבי עם כל הארגונים האלה? ובכן, זה נתונים, והם לא הגיעו לשם כי הם לא ידעו איפה הנתונים שלהם, והם לא ידעו איך לקטלג אותם.

מה שאנחנו מגלים כעת זה שיש כל סוג הנכסים החדש הזה המכונה נתונים, והחברות מתעוררות לזה. אבל אין להם תמיד את הכלים והידע והסיבה למפות את כל הנתונים האלה, לקטלג את כל הנתונים האלה ולהפוך אותם לזמינים, אבל גילינו שחברות שאין להן כמעט נכסים פיזיים צברו שווי שוק גבוה בזמן שיא באמצעות מחלקת נכסים חדשה זו. כפי שאמרתי, כמה מהשחקנים הוותיקים מתעוררים לזה ובוודאי מוציאים את זה.

אני מעריץ גדול של לקחת אנשים למסע קטן, כך שבשמונה עשרה מאות, שמונה עשרה מאות מאוחרות, ותהיה יותר מכיר את זה בשוק האמריקאי, התברר שכדי לנהל מפקד בכל שנה בערך, אני חושב שהם ניהלו אותם כל עשר שנים באותה נקודה, אבל אם אתה הולך לנהל מפקד כל שנה, יכול היה לקחת עד שמונה או תשע שנים לבצע בפועל את ניתוח הנתונים. התברר שאותו מערך נתונים נותר אז בתיבות במקומות בנייר, וכמעט אף אחד לא מצא את זה. הם פשוט המשיכו לשאוב את הדיווחים האלה, אבל הנתונים באמת היו קשה להגיע אליהם, יש לנו מצב דומה עם רגע אחר משמעותי בעולם, סביב שנות הארבעים של המאה העשרים, עם מלחמת העולם השנייה, והדבר הזה הוא פארק בלטצ'לי. , וזה היה כלי אנליטי מפוצץ מספרים שיעבור במערכות נתונים קטנות וימצא בו אותות וישמש לסייע בפיצוח קודים דרך האניגמה.

הדבר הזה שוב, היה למעשה מכשיר שתוכנן, לא הרבה לקטלוג, אלא לתייג ולמפות נתונים, ולאפשר לצלם דפוסים ולמצוא אותם בתוך מערכי הנתונים, במקרה זה, לשבור קודים, למצוא מפתחות וביטויים ולמצוא אותם באופן קבוע במערכות הנתונים, וכך עברנו את המסע הזה של מציאת דברים בנתונים והובלנו לקטלוג נתונים.

ואז הגיעו הדברים האלה, מתלי מכונות מסיביים בעלות נמוכה, רק מכונות מדף. ועשינו כמה דברים מאוד מעניינים, ואחד הדברים שעשינו איתם זה בנינו אשכולות בעלות נמוכה מאוד שיכולים להתחיל לאנדקס את כדור הארץ, ובאופן מפורסם המותגים הגדולים האלה שהגיעו והלכו, אבל כנראה שגוגל הוא הבית הנפוץ ביותר מותג שכולנו שמענו עליו - הוא הפך לפועל בפועל, ואתה יודע שאתה מצליח כאשר המותג שלך הופך לפועל. אבל מה שגוגל לימדה אותנו, מבלי להבין זאת, אולי בעולם העסקים, היא שהם הצליחו לאינדקס את כדור הארץ כולו לרמה מסוימת, ולקטלג את הנתונים שהיו ברחבי העולם ולהפוך אותם לזמינים בצורה קלה מאוד, טופס נוח בנוסחה קטנה עם שורה אחת, דף אינטרנט שכמעט שום דבר עליו, ואתה מקליד את השאילתה שלך, הוא הולך ומוצא אותה מכיוון שהם כבר סרקו את הכוכב, אינדקסו אותו והפכו אותו לזמין בקלות.

ומה ששמנו לב היה, "נו, רגע, אנחנו לא עושים זאת בארגונים - מדוע זה? מדוע יש לנו ארגון שיכול למפות את כדור הארץ כולו ולאנדקס אותו, לסרוק אותו לאינדקס ולהפוך אותו לזמין, נוכל לחפש אותו ואז ללחוץ על הדבר ללכת ולמצוא אותו, איך אנחנו לא יש את זה באופן פנימי? "אז יש הרבה מתלי מכונות קטנים כאלה ברחבי העולם שעושים זאת עבור אינטראטים ומוצאים דברים, אבל הם עדיין ממש מסתדרים עם הרעיון לחרוג מדף האינטרנט המסורתי, או שרת קבצים.

במקום להיכנס לדור הבא של קטלוג הנתונים במובנים רבים, לגלות גישה לנתונים באמצעות תוויות פוסט-זה ושיחות מצנן מים היא לא ממש שיטה מתאימה לגילוי וקטלוג נתונים, ולמעשה, אני לא חושבת שזה היה באמת . אנחנו כבר לא יכולים להוביל את האתגר כולו לאנשים שרק מעבירים הערות, מפרסמים הערות ומפטפטים על זה. אנו נמצאים היטב ובאמת מעבר לתחום בו הגישה האלקטרונית הבאה לקטלוג נתונים הגיעה ונעלמה. אנחנו צריכים לסובב את הזרועות שלנו. אם זו הייתה בעיה קלה, היינו כבר פותרים את זה בהרבה מובנים קודם, אבל אני חושב שזה לא עניין קל, רק יצירת אינדקס וקריאת הנתונים הם רק חלק אחד ממנו, לדעת מה יש בנתונים ובניית מטא נתונים סביב מה שאנחנו מגלים, ואז הופכים אותו לזמין בצורה קלה ומתכלה, במיוחד לשירות עצמי ואנליטיקה. זו עדיין בעיה שנפתרת, אך חלקים רבים של הפאזל בחמש שנים נפתרים וזמינים היטב.

כידוע, קטלוג נתונים של בני אדם הוא מתכון לכישלון מכיוון ששגיאה אנושית היא אחד הסיוטים הגדולים ביותר שאנו עוסקים בהם בעיבוד נתונים, ואני מדבר בקביעות על נושא זה, שם בעיניי, בני אדם שממלאים טפסים מנייר הוא כנראה הסיוט הגדול ביותר. אנו עוסקים בנתונים גדולים ואנליטיים, כל הזמן צורך לתקן דברים שהם עושים, אפילו לדברים פשוטים כמו התאריכים והשדות, אנשים שמציבים אותם בפורמט לא נכון.

אבל כאמור, ראינו שמנועי חיפוש באינטרנט אינדקסים את העולם כל יום, אז כעת אנו מביאים את הרעיון שניתן לעשות זאת על מערכי נתונים עסקיים בתהליך הגילוי, וכלים ומערכות נמצאים כעת זמין כמו שאתה עומד ללמוד היום. אז הטריק, לדעתי, הוא בחירת הכלים הנכונים, הכלים הטובים ביותר לתפקיד. ועוד יותר מתאים נוסף על כך, למצוא את החלק הנכון בו כדי לעזור לך להתחיל בדרך זו. ואני מאמין שאנחנו הולכים לשמוע על זה היום, אבל לפני שנעשה את זה, אני הולך לעבור למכללה שלי, רובין בלור, ולשמוע את ההתייחסות שלו לנושא. רובין, אני יכול לעבור אליך?

רובין בלור: כן, בהחלט תוכלו. בוא נראה אם זה עובד, אה כן. אוקיי, אני בא מכיוון אחר מאשר דז באמת, אבל אני בסופו של דבר באותו מקום. זה קשור לחיבור לנתונים, אז פשוט חשבתי שאעבור במציאות של חיבור לנתונים, נקודה אחר נקודה באמת.

יש עובדה שהנתונים מפוצלים יותר מכפי שהיו אי פעם. נפח הנתונים גדל בצורה פנומנלית, אך למעשה, מקורות הנתונים השונים צומחים גם הם בקצב מדהים, ולכן הנתונים מתפצלים כל הזמן. אבל בגלל אפליקציות אנליטיקה בפרט - אבל אלה לא היישומים היחידים - יש לנו סיבה ממש טובה להתחבר לכל הנתונים האלה, אז אנחנו תקועים במקום קשה, אנחנו תקועים בעולם של נתונים מקוטעים, ויש הזדמנות בנתונים כפי שקרא לזה דז, השמן החדש.

על נתונים, ובכן, זה היה פעם לחיות על דיסק מסתובב, או במערכות קבצים או בבסיסי נתונים. עכשיו הוא חי בסביבה הרבה יותר מגוונת, הוא חי במערכות קבצים, אך הוא חי גם במופעי Hadoop בימינו, או אפילו במקרים של Spark. הוא חי במינים רבים של מסד נתונים. לפני זמן לא רב, אנו סוגנו סטנדרט כלשהו של מסד נתונים יחסי, ובכן אתה יודע שיצא מהחלון בחמש השנים האחרונות, מכיוון שיש צורך במאגרי מסמכים, ויש צורך במאגרי נתונים גרפיים, כך שאתה יודע, יש למשחק השתנה. אז זה חי על דיסק מסתובב, אבל עכשיו הוא חי על SSD. הכמות האחרונה של SSD - בהחלט יחידת ה- SSD האחרונה יוצאת מסמסונג - עשרים ג'יגה-בייט, וזה ענק. עכשיו זה חי בזיכרון, במובן זה שהעותק העיקרי של נתונים יכול להיות בזיכרון, ולא בדיסק, לא היינו בונים מערכות כאלה; אנחנו עושים עכשיו. וזה חי בענן. מה שאומר שהוא יכול לחיות בכל אחד מהדברים האלה, בענן, אתה בהכרח לא יודע איפה הוא בענן, תהיה לך רק הכתובת שלו.

רק כדי לחזור הביתה את הנקודה, Hadoop עד כה נכשלה כחנות נתונים הניתנת להרחבה. קיווינו שהיא תהפוך לחנות נתונים רחבת היקף הניתנת להרחבה, והיא פשוט תהפוך למערכת קבצים אחת לכל דבר, והיא תעשה - קשתות גשם יופיעו בשמיים, בעיקרון, וחדי קרן יחולו סביב, וכל זה לא קרה. מה שאומר שבסופו של דבר יש לנו בעיה של הובלת נתונים, ואין צורך בהעברת נתונים לפעמים, אבל זה גם קושי. לנתונים באמת יש כוח משיכה בימינו, ברגע שנכנסתם למרב-טרה-בתים של נתונים, לאסוף אותם ולזרוק אותם, סוג של גורמים לאיחור להופיע ברשת שלכם או להופיע במקומות שונים. אם אתה רוצה להעביר נתונים מסביב, תזמון הוא גורם. יש כמעט תמיד, בימינו, כמה מגבלות על כמה זמן יש לך להשיג דבר אחד, נתונים ממקום למקום אחר. היה פעם מה שחשבנו עליו כחלונות אצווה, כשהמכונה הייתה די בטלה, ולא משנה כמה נתונים היו לך, אתה פשוט יכול לזרוק אותה והכל יסתדר. ובכן זה נעלם, אנו חיים בעולם הרבה יותר בזמן אמת. לכן תזמון הוא גורם. ברגע שאתה רוצה להעביר נתונים מסביב, אז אם לנתונים יש כוח משיכה, סביר להניח שאתה לא יכול להזיז אותם.

ניהול נתונים הוא גורם במובן זה שבעצם עליכם לנהל את כל הנתונים הללו, אינכם מקבלים זאת בחינם, ושכפול עשוי להיות נחוץ על מנת שבאמת יגרום לנתונים לבצע את העבודה שהם צריכים לעשות, מכיוון שהם עשויים להיות לא להיות בכל מקום ששמת את זה. יתכן ולא יהיו לו מספיק משאבים כדי לבצע את העיבוד הרגיל של הנתונים. אז הנתונים משוכפלים, ונתונים משוכפלים יותר ממה שהייתם יכולים לדמיין. אני חושב שמישהו אמר לי מזמן שהנתונים הממוצעים משוכפלים לפחות פעמיים וחצי. ESBs או Kafka מציגים אפשרות לזרימת נתונים, אך בימינו היא דורשת ארכיטקטורה. בימינו אתה באמת צריך לחשוב בצורה כזו או אחרת, על המשמעות של למעשה לזרוק את הנתונים. לפיכך, בדרך כלל, עדיף לגשת לנתונים באשר הם, כל עוד אתה יכול כמובן להשיג את הביצועים הדרושים לך כשאתה ממש הולך על הנתונים וזה תלוי במצב. כך שממילא זה מצב קשה. מבחינת שאילתות נתונים, פעם היינו יכולים לחשוב במונחים של SQL, אנו עולים באמת עכשיו, אתה יודע, צורות שונות של שאילתות, SQL כן, אבל סמוכים, גם שאילתות גרף, ניצוץ הוא רק דוגמא אחת לעשות גרף מכיוון שאנו גם צריכים לבצע חיפוש, יותר מאי פעם, גם לחפש סוגים מחדש של חיפושים, שזה ממש חיפושים מסובכים אחר דפוסים, והתאמת דפוסים אמיתית, כל הדברים האלה ממש מבעבעים. וכולם מועילים מכיוון שהם משיגים לך את מה שאתה מחפש, או שהם יכולים להשיג לך את מה שאתה מחפש.

שאילתות בימינו כוללות נתונים מרובים, כך שהיא לא תמיד עשתה זאת ולעיתים קרובות הביצועים מחרידים אם תעשה זאת. אז זה תלוי בנסיבות, אבל אנשים מצפים שיוכלו לשאול נתונים ממקורות נתונים מרובים, ולכן איחוד נתונים כזה או אחר הופך להיות יותר ויותר עדכני. וירטואליזציה של נתונים, שהיא דרך אחרת לעשות זאת, תלוי בביצועים, נפוצה גם היא. שאילתות נתונים הן למעשה חלק מתהליך ולא כל התהליך. ראוי רק לציין שאם אתה בוחן למעשה את ביצועי האנליטיקה, האנליטיקס בפועל יכול לקחת הרבה יותר זמן מאשר איסוף הנתונים, מכיוון שזה תלוי בנסיבות, אך שאילתות נתונים הן הכרח מוחלט אם אתה רוצה לעשות משהו סוג של ניתוח בכמה מקורות נתונים, וזה פשוט, אתה באמת צריך להיות בעל יכולות שמשתרעות.

אז לגבי קטלוגים.קטלוגים קיימים מסיבה מסוימת, לפחות אנו אומרים שידוע לך, שלה, יש לנו ספריות, ויש לנו סכימות במאגרי מידע, ויש לנו כל קטלוג ויש לנו לאן שאתה הולך, אתה תמצא מקום אחד ואז תוכל למעשה תמצא שיש איזשהו קטלוג, והקטלוג הגלובלי המאוחד הוא רעיון טוב ככל הנראה. אבל למעט מאוד חברות יש דבר כזה. אני כן זוכר, שוב בשנת אלפיים - שנת האלפיים בהלה - אני זוכר שקומוניסטים אפילו לא יכלו לציין כמה הפעלות היו להם, לא משנה כמה חנויות נתונים שונות היו להם, וזה כנראה המקרה עכשיו, אתה דע, שרוב החברות אינן יודעות באופן פעיל במובן הגלובלי, אילו נתונים יש להן. אך ברור שיותר ויותר נחוץ לנהל קטלוג עולמי, או לפחות לקבל תמונה גלובלית של המתרחש בגלל הצמיחה של מקורות נתונים, והמשך הגידול של יישומים, וזה הכרחי במיוחד לניתוח, מכיוון שאתה גם בדרך אחת, ויש כאן סוגיות אחרות כמו שושלת ובעיות בנתונים, וזה הכרחי לביטחון, היבטים רבים של ממשל הנתונים, אם אתה באמת לא יודע איזה נתונים יש לך, הרעיון שאתה הולכים לשלוט זה פשוט אבסורד. לכן, כל הנתונים מקוטלגים בדרך כלשהי זו רק עובדה. השאלה היא האם הקטלוג קוהרנטי, ולמעשה מה אתה יכול לעשות איתו. אז אחזור לרבקה.

רבקה יוז'ויאק: אוקיי, תודה רובין. בשלב הבא יש לנו את דיוויד קרופורד מאלציה, דייוויד אני הולך להמשיך ולהעביר לך את הכדור ותוכל לקחת אותו משם.

דיוויד קרופורד: תודה רבה לך. אני מאוד מעריך אתכם החבר'ה שלכם עם התוכנית הזו. אני חושב שאני הולך להתחיל את זה, אז אני חושב שהתפקיד שלי כאן הוא לקחת חלק מהתיאוריה הזו ולראות איך היא מיושמת בפועל, ואת התוצאות שאנו מסוגלים לנהוג אצל לקוחות אמיתיים וכך תוכלו לראות כמה בשקופית, אני רוצה לדבר על אילו תוצאות נוכל לראות בשיפור אנליטי אולי. אז כדי להניע את הדיון, אנחנו הולכים לדבר על איך הם הגיעו לשם. אז מזל שיש לי לעבוד די קרוב עם הרבה אנשים חכמים באמת, הלקוחות האלה, ואני רק רוצה להצביע על כמה שהצליחו למדוד, ולדבר על כך שהקטלוג של נתונים השפיע על האנליסט שלהם. זרימת עבודה. ורק כדי להישאר בקצרה בחזית, אני חושב שאחד הדברים שאנחנו רואים משתנים, עם קטלוגי נתונים פסוקים לפתרונות מתווכים קודמים ואחת הדרכים שהיחסים באמת חושבים על הפתרונות שהרכבנו, היא להתחיל מהאנליסטים. ולעבוד הפוך. אם נאמר, בואו לעשות זאת בנוגע לאפשר את התפוקה של אנליסטים. בניגוד לציות, או בניגוד למלאי, אנו מייצרים כלי שהופך אנליסטים לפרודוקטיביים יותר.

לכן, כשאני מדבר עם מדען נתונים בכיכר חברת השירותים הפיננסיים, יש בחור, ניק, שסיפר לנו על האופן בו, הוא נהג לקחת כמה שעות כדי למצוא את מערך הנתונים הנכון כדי להתחיל דוח, עכשיו הוא יכול עשה זאת תוך שניות בעזרת חיפוש בנתח שוק, דיברנו עם ה- CTO שלהם שמשך את האנליסטים שלו שהשתמשו בכיכר, סליחה, השתמש ב- Alation, כדי לברר מה שלהם, מה היתרונות שהם ראו, והם דיווחו על 50 עלייה בפריון של אחוז, וכי, אחד הקמעונאים המובילים בעולם, eBay, יש להם יותר מאלף אנשים שעושים ניתוח SQL על בסיס קבוע, ואני עובד די קרוב עם Deb Says שם, מיהו הפרויקט. מנהלת בצוות כלי הנתונים שלהם, והיא גילתה שכאשר שאילתות מאמצות את Alation, מאמצות קטלוג, הן רואות כפול מהמהירות של כתיבת שאילתות חדשות מול בסיס הנתונים.

אז אלה תוצאות אמיתיות, מדובר באנשים שמיישמים את הקטלוג בארגון שלהם ואני רוצה לעבור את מה שנדרש כדי להתקין. כיצד מתבסס קטלוג בחברה, ואולי הדבר החשוב ביותר לומר, הוא שהרבה ממנו קורה אוטומטית, אז דז דיברה על מערכות, למדה על מערכות, וזה בדיוק מה שקטלוג הנתונים המודרני עושה. אז הם מתקינים את Alation במרכז הנתונים שלהם ואז הם מחברים אותה למקורות מטא נתונים שונים בסביבת הנתונים שלהם. אני אתמקד מעט במאגרי המידע ובכלי ה- BI - משני אלה אנו הולכים לחלץ מטא נתונים טכניים, בעיקרון על מה שקיים. נכון, אז אילו טבלאות? אילו דוחות? מהן הגדרות הדוח? אז הם מחלצים מטא נתונים טכניים אלה, ודף קטלוג נוצר אוטומטית עבור כל אובייקט בתוך המערכות האלה, ואז הם גם מחלצים ושכבות על גבי מטא-נתונים טכניים אלה, הם מכילים מעל נתוני השימוש. זה נעשה בעיקר על ידי קריאת יומני שאילתה מהמאגר, וזה מקור מידע מעניין באמת. לכן, בכל פעם שאנליטיקאי כותב שאילתה, בכל פעם שכלי דיווח, בין אם הוא מגודל ביתי או מהמדף, האם כלי דיווח מפעיל שאילתה על מנת לעדכן לוח מחוונים, כאשר יישום מפעיל שאילתה כדי להכניס נתונים להפעלה מערך נתונים - כל הדברים האלה נלכדים ביומני שאילתות מסדי נתונים. בין אם יש לך קטלוג ובין אם לא, הם נלכדים ביומן השאילתה עם בסיס הנתונים. מה שקטלוג נתונים יכול לעשות ובמיוחד מה שקטלוג Alations יכול לעשות הוא לקרוא את היומנים האלה, לשאול את השאלות שבתוכם וליצור גרף שימוש מעניין באמת על בסיס אותם יומנים, ואנחנו מביאים את זה לשחק כדי ליידע משתמשים עתידיים. מהנתונים על אופן השימוש המשתמשים בעבר בהם.

אז, אנו מכניסים את כל הידע הזה לקטלוג, ופשוט כדי להפוך אותו לממשי, אלה הם השילובים שכבר פרוסים אצל לקוחות, כך שראינו את אורקל, טרטה, רדשיפט, ורטיקה ועוד המון מאגרי מידע יחסים. בעולם Hadoop, יש מגוון SQL ב- Hadoop, מעין חנויות מטא-יחסיות על גבי מערכת הקבצים Hadoop, אימפלה, Tez, Presto ו- Hive, ראינו גם הצלחה עם ספקים פרטיים בענף Hadoop כמו Altiscale, ואנחנו גם הצליחו להתחבר לשרתי Tableau, שרתי MicroStrategy ולאינדקס את לוח המחוונים שם, כמו גם שילובים עם כלי תרשימי מדעי נתונים כמו Plotly.

אז, אנו מתחברים לכל המערכות הללו, חיברנו את המערכות הללו ללקוחות, הוצאנו את המטא נתונים הטכניים, הכנסנו את נתוני השימוש ואנחנו סוגנו אוטומטית את קטלוג הנתונים, אבל בדרך זו, אנחנו מרכז את הידע, אלא רק ריכוז הדברים בקטלוג נתונים, לא כשלעצמו מספק את אותם פרודוקטיביות ממש נפלאות שדיברנו עליהן עם ה- eBay, הכיכר ונתח השוק. בכדי לעשות זאת, אנו צריכים למעשה לשנות את הדרך בה אנו חושבים על העברת ידע לאנליסטים. אחת השאלות שהם מבקשים להתכונן לכך, הייתה "איך הקטלוג באמת משפיע על זרימת העבודה של אנליסט?"

על זה אנו מבלים כל היום במחשבה, וכדי לדבר על שינוי זה בחשיבה, על דחיפת פסוקים על מודל משיכה, רציתי לעשות אנלוגיה מהירה למה שהעולם היה לפני ואחרי שקראתי ב- Kindle. אז זו פשוט חוויה שחלק מכם עשויה להיות, כשאתם קוראים ספר פיזי, אתם נתקלים במילה, אתם לא בטוחים שאתם מכירים את ההגדרה של המילה בצורה טובה במיוחד, אתם יכולים אולי לנחש את זה ממצב, לא סביר שתוכלו הולכים לקום מהספה, לצעוד למדף הספרים שלך, למצוא את המילון שלך, לאבק אותו ולהפוך למקום הנכון ברשימת המילים האלפביתית כדי לוודא, כן, הייתה לך ההגדרה הזו בדיוק, ואתה יודע הניואנסים שבדבר. אז זה לא באמת קורה. אז אתה קונה אפליקציית קינדל ומתחיל לקרוא שם ספרים, ואתה רואה מילה שאתה לא לגמרי בטוח בה ואתה נוגע במילה. פתאום, ממש באותו המסך, היא ההגדרה המילונית של המילה, על כל הניואנסים שלה, שימושים לדוגמה שונים, ואתה מחליק מעט, ומקבל מאמר בוויקיפדיה בנושא זה, אתה שוב מחליק, אתה מקבל כלי תרגום שיכול לתרגם אותו לשפות אחרות או משפות אחרות, ופתאום הידע שלך בשפה הוא כל כך עשיר יותר, וזה פשוט קורה מספר מדהים של פעמים, בהשוואה למתי שהיית צריך ללכת למשוך לעצמך את המשאב הזה.

ולכן מה שאני מתווכח הוא שזרימת העבודה של אנליסט והאופן בו אנליסט יתמודד עם תיעוד נתונים, למעשה דומה מאוד לאופן בו הקורא יעבור אינטראקציה עם המילון, אם זה פיזי, או אם כי להדליק, ולכן מה שאנחנו, באופן שראינו באמת את התגברות הפרודוקטיביות הזו, לא שופכים את הקטלוג, אלא מחברים אותו לזרימת העבודה של האנליטיקאי, וכך הם ביקשו ממני לעשות כאן הדגמה, ואני רוצה כדי להפוך את זה למוקד של מצגת זו. אבל אני רק רוצה להגדיר את הסכמת ההדגמה. כשאנחנו חושבים לדחוף את מידע המידע למשתמשים כשהם זקוקים לו, אנו חושבים שהמקום הנכון לעשות זאת, המקום בו הם מבלים את זמנם ואיפה שהם עושים את הניתוח, הוא כלי שאילתת SQL. מקום שאתה כותב ומריץ שאילתות SQL. וכך בנינו אחד, ובנינו אותו, והדבר ששונה בו באמת מכלי שאילתה אחרים הוא האינטגרציה העמוקה שלו עם קטלוג הנתונים.

כך שכלי השאילתה שלנו נקרא Alation Compose. זה כלי שאילתה מבוסס אינטרנט ואני אראה לך את זה תוך שנייה. כלי שאילתה מבוסס אינטרנט שעובד על כל סמלי מסדי הנתונים שראית בשקופית הקודמת. מה שאני אנסה להדגמה בפרט הוא האופן שבו המידע בקטלוג מגיע למשתמשים. והיא עושה זאת דרך שלוש דרכים שונות. זה עושה זאת דרך התערבויות, וכאן מישהו שמנהל נתונים, או דייל נתונים או מעין מנהל דרך כלשהי, או מנהל, יכול לומר, "אני רוצה לבצע סוג של התערבות עם פתק או אזהרה ב זרימת העבודה וודא שהיא תועבר למשתמשים בזמן הנכון. "אז זו התערבות ומראה היטב את זה.

הצעות חכמות היא דרך בה הכלי משתמש בכל הידע המצטבר שלו בקטלוג כדי להציע אובייקטים וחלקים משאילתה כפי שאתה כותב אותו. הדבר החשוב ביותר לדעת הוא שהוא באמת מנצל את יומן השאילתה כדי לעשות זאת, להציע דברים המבוססים על שימוש וגם למצוא אפילו חלקים משאילתות שנכתבו קודם. ובכן תראו זאת.

ואז תצוגה מקדימה. תצוגה מקדימה היא כפי שאתה מקליד את שם האובייקט, אנו מראים לך את כל מה שהקטלוג יודע, או לפחות את הדברים הרלוונטיים ביותר שהקטלוג יודע על אותו אובייקט. אז דוגמאות לנתונים, שהשתמשו בהן בעבר, השם ההגיוני והתיאור של אותו אובייקט, כל אלה באים אליך בזמן שאתה כותב אותו מבלי שתצטרך לבקש אותו.

אז בלי לדבר יותר, אני אגיע להדגמה, ואני רק אחכה שהיא תופיע. מה שאני אראה לכם כאן הוא כלי השאילתה. זה ממשק כתיבה SQL ייעודי. זה ממשק נפרד מהקטלוג, במובן מסוים. דז ורובין דיברו על הקטלוג, ואני קפץ קצת מעל ממשק הקטלוג היישר לאופן בו הוא הובא ישירות לשירות העבודה.

אני רק מראה כאן מקום שאני יכול להקליד SQL, ובתחתית אתה תראה שיש לנו מידע שמופיע על האובייקטים שהפנו אליהם. אז אני רק מתחיל להקליד שאילתה ואפסיק כשאגיע לאחת ההתערבויות האלה. אז אני סוג "בחר" ואני רוצה את השנה. אני רוצה את השם. ואני הולך לחפש כמה נתוני שכר. אז זהו מערך נתוני חינוך. יש בו מידע על מוסדות להשכלה גבוהה, ואני בוחן את השכר הממוצע של סגל ההוראה באחד מהטבלאות הללו.

אז למעשה הקלדתי את המילה "משכורת". זה לא בדיוק בשם הטור בצורה זו. אנו משתמשים במטא-נתונים הגיוניים ובמטא-נתונים הפיזיים כדי לבצע הצעות. ומה שאני רוצה לציין כאן זה התיבה הצהובה הזו שמופיעה כאן. זה אומר אזהרה בטור זה. אני לא הלכתי לחפש את זה, לא לקחתי שיעור כיצד להשתמש בנתונים אלה כמו שצריך. זה הגיע אליי, וזה במקרה מדובר באזהרה לגבי הסכם סודיות שקשור לנתונים אלה. אז ישנם כמה כללי גילוי. אם אני מתכוון לבצע שאילתות בנתונים אלה, אני הולך להוציא נתונים מהטבלה הזו, עלי להיות זהיר לגבי האופן בו אני חושף אותם. אז יש לך כאן מדיניות ממשל. יש כמה אתגרי ציות שמקלים כל כך על קיום המדיניות הזו כשאני יודע עליה באותו זמן שאני מסתכל על הנתונים.

אז יש לי את זה שמגיע אלי ואז אני גם הולך להסתכל על שכר הלימוד. וכאן אנו רואים שהתצוגה המקדימה נכנסת לפעולה. בטור שכר הלימוד הזה אני רואה - יש עמוד שכר לימוד בטבלת המוסדות, ואני רואה פרופיל של זה. Alation הולך ומוציא נתונים מדגימה מהטבלאות, ובמקרה זה, זה מראה לי משהו שהוא די מעניין. זה מראה לי את התפלגות הערכים, וזה מראה לי שערך האפס הופיע 45 פעמים במדגם, ויותר מכל ערך אחר. אז יש לי איזושהי תחושה שאולי חסר לנו כמה נתונים.

אם אני אנליסט מתקדם, זה עשוי להיות חלק מזרימת העבודה שלי כבר. במיוחד אם אני קפדנית במיוחד, שם הייתי עושה חבורה של שאילתות פרופיל לפני כן. בכל פעם שאני ניגש לנתון חדש, אני תמיד חושב מה הכיסוי של הנתונים שלנו. אבל אם אני חדש לניתוח נתונים, אם אני חדש במערך נתונים זה, אני יכול להניח שאם יש טור, הוא מלא כל הזמן. או שאני יכול להניח שאם זה לא מלא, הוא לא אפס, הוא בטל או משהו כזה. אבל במקרה הזה, יש לנו הרבה אפסים, ואם הייתי עושה ממוצע, הם בטח היו טועים, אם רק הייתי מניח שהאפסים האלה הם אפס במקום נתונים חסרים.

אבל Alation, על ידי הכנסת תצוגה מקדימה זו לזרימת העבודה שלך, סוג של מבקש מכם להציץ במידע זה ונותן אפילו סוג של אנליסטים מתחילים לראות שיש שם לב אליו בנתונים האלה. אז יש לנו את התצוגה המקדימה הזו.

הדבר הבא שאני הולך לעשות הוא לנסות לברר מאילו טבלאות ניתן לקבל מידע זה. אז הנה אנו רואים את ההצעות החכמות. זה נמשך כל הזמן, אבל במיוחד כאן, אני אפילו לא הקליד כל דבר מלבד זה הולך להציע לי באילו טבלאות אולי ארצה להשתמש בשאילתה זו. והדבר החשוב ביותר לדעת על זה הוא שהוא מנצל את סטטיסטיקות השימוש. אז בסביבה כמו למשל eBay, שבה יש לך מאות אלפי טבלאות במאגר נתונים יחיד, שיש לך כלי שיכול להכות את החיטה מן המוץ, ולהשתמש בסטטיסטיקות השימוש הללו, זה באמת חשוב להכנת אלה הצעות ששוות משהו.

אז זה הולך להציע טבלה זו. כשאני מסתכל על התצוגה המקדימה, אנו למעשה מדגישים שלוש מהעמודות שציינתי כבר בשאילתה שלי. אז אני יודע שיש לה שלושה, אבל אין לזה את השם. אני צריך לקבל את השם, אז אני הולך להצטרף. כשאני מצטרף, עכשיו יש לי את התצוגה המקדימה הזו שיעזרו לי למצוא, היכן נמצא הטבלה עם השם. אז אני רואה שלזה יש שם מעוצב יפה, סוג של היוון כראוי. נראה שיש שורה אחת עם שם לכל מוסד, אז אני הולך לתפוס את זה, ועכשיו אני צריך תנאי להצטרף.

וכך, הנה מה שעושה Alation הוא שוב להביט אחורה ביומני השאילתה, לראות פעמים קודמות שאליהן הצטרפו שני הטבלאות הללו, ולהציע דרכים שונות להצטרף אליהם. שוב, יש התערבות מסוימת. אם אני מסתכל על אחד מאלה, יש לו אזהרה שמראה לי שיש להשתמש בזה רק לניתוח מצטבר. כנראה שזה יפיק את הדבר הלא נכון אם אתה מנסה לעשות משהו דרך המוסד על ידי מוסד. ואילו זה, עם מזהה OPE, מאושר כדרך הנכונה להצטרף לשתי טבלאות אלה אם אתה רוצה נתונים ברמת האוניברסיטה. אז אני עושה את זה, וזה שאילתה קצרה, אבל כתבתי את השאילתה שלי מבלי שיהיה לי בהכרח שום תובנה לגבי הנתונים. מעולם לא בחנתי דיאגרמת ER של מערך הנתונים הזה, אבל אני יודע די הרבה על נתונים אלה מכיוון שהמידע הרלוונטי מגיע אלי.

אז אלה הן סוג של שלוש הדרכים שקטלוג יכול, באמצעות כלי שאילתה משולב, להשפיע ישירות על זרימת העבודה כששאלות כתיבתך. אבל אחד היתרונות האחרים של שילוב כלי שאילתה בקטלוג הוא שכאשר אני מסיים את השאילתה ואני שומר אותה, אני יכול לשים כותרת כמו "שכר לימוד מוסדות ושכר סגל", ואז יש לי כאן כפתור מאפשר לי פשוט לפרסם אותו בקטלוג. מאוד קל לי להאכיל את זה. אפילו אם אני לא מפרסם את זה, הוא נלכד כחלק מיומן השאילתה, אבל כשאני מפרסם אותו, הוא הופך למעשה לחלק מהדרך שבה מתרכז המקום בו כל הידע על מידע חי.

אז אם אני לוחץ על חפש את כל השאלות ב- Alation, אני הולך לקחת אותי - וכאן תוכלו לראות עוד כמה מממשק הקטלוג - אני נלקח לחיפוש שאילתות ייעודי המראה לי דרך למצוא שאילתות בכל הארגון כולו. ואתה רואה שהשאילתה החדשה שלי שפורסמה נמצאת בראש. ויש שאולי יבחינו כאן בשעה שאנו לוכדים את השאילתות, אנו גם לוכדים את המחברים ואנחנו מייצרים קשר זה ביני ככותב לבין אובייקטי הנתונים האלה שעכשיו אני יודע עליהם משהו. ואני הוקם כמומחה בשאילתה זו ובאובייקטים אלה. זה ממש מועיל כשאנשים צריכים ללמוד על נתונים, אז הם יכולים למצוא את האדם הנכון ללכת ללמוד עליו. ואם אני באמת חדש לנתונים, בין אם אני מנתח מתקדם - כאנליטיקאי מתקדם, אני יכול להסתכל על זה ולראות חבורה של דוגמאות שיובילו אותי למערכת נתונים חדשה. כמי שאולי לא מרגיש בקיאות רבה עם SQL, אני יכול למצוא שאילתות מוכנות מראש שהם דוחות שאני יכול לנצל אותם.

כאן אחד מאת פיל מאזנט על ציוני SAT חציוניים. לחץ על זה ואני מקבל סוג של דף קטלוג לשאילתה עצמה. זה מדבר על מאמר שנכתב שמפנה לשאילתה זו, ולכן יש לי כמה תיעודים שאוכל לקרוא אם אני רוצה ללמוד להשתמש בה. ואני יכול לפתוח אותו בכלי השאילתה על ידי לחיצה על כפתור הכתיבה, ואני יכול פשוט להריץ אותו בעצמי כאן אפילו בלי לערוך אותו. ובעצם, תוכלו לראות מעט את יכולות הדיווח הקלות שלנו, כאשר כשאתם כותבים שאילתה תוכלו להוריד משתנה של תבנית כמו זה וזה יוצר דרך פשוטה ליצור טופס לביצוע שאילתה המבוססת על כמה פרמטרים.

אז זה מה שיש לי להדגמה. אני הולך לחזור לשקופיות.רק כדי לסקור מחדש, הראנו כיצד מנהל מערכת, מושל נתונים, יכול להתערב על ידי הצבת אזהרות על אובייקטים המופיעים בכלי השאילתה, כיצד Alation משתמש בידע שלו על השימוש באובייקטים של נתונים כדי להציע הצעות חכמות, כיצד הוא מביא בפרופילים וטיפים אחרים לשיפור זרימת העבודה של אנליסטים כאשר הם נוגעים באובייקטים מסוימים, וכיצד כל אותם סוגים מזינים חזרה לקטלוג כאשר נכתבים שאילתות חדשות.

ברור שאני דובר מטעם החברה. אני הולך לומר דברים נחמדים על קטלוגים של נתונים. אם אתה רוצה לשמוע ישירות מאחד הלקוחות שלנו, קריסטי אלן בספאווי מנהלת צוות אנליסטים ויש לה סיפור מגניב ממש על תקופה בה היא הייתה צריכה להכות את השעון באמת על מנת לבצע ניסוי שיווקי, ואיך שלמה צוות השתמש ב- Alation כדי לשתף פעולה ולהסתובב ממש במהירות בפרויקט הזה. כך שתוכלו לעקוב אחר קישור bit.ly זה כדי לבדוק את הסיפור הזה, או אם אתם רוצים לשמוע מעט על האופן בו Alation יכולה להכניס קטלוג נתונים לארגון שלכם, אנו שמחים להגדיר הדגמה אישית. תודה רבה.

רבקה יוז'ויאק: תודה רבה, דייוויד. אני בטוח שלדז ורובין יש כמה שאלות לפני שאני פונה לקהל שאלות ותשובות. דז, אתה רוצה ללכת קודם?

דז בלנשפילד: בהחלט. אני אוהב את הרעיון של מושג זה של שאילתות שפורסמו וקשר אותו בחזרה למקור הכותב. הייתי אלוף ותיקים של הרעיון הזה של חנות אפליקציות פנימית ואני חושב שזה בסיס ממש נהדר לבנות עליו.

הגעתי קצת לקבל תובנות על כמה מהארגונים שאתה רואה שעושים את זה, וכמה מסיפורי ההצלחה שהיו עשויים עם כל המסע הזה של לא רק למנף את הכלי והפלטפורמה שלך כדי לגלות את הנתונים, אלא גם אז להפוך את התכונות הפנימיות והתרבותיות שלהם. כעת יש חנות אפליקציות פנימית מסוג זה שבה אתה פשוט מוריד, את הרעיון בו הם לא יכולים רק למצוא אותו, אלא שהם יכולים למעשה לפתח קהילות קטנות עם שומרי הידע הזה.

דיוויד קרופורד: כן, אני חושב שהופתענו. אנו מאמינים בערך של שיתוף שאילתות, הן מעברי כמנהל מוצר באדטק והן מכל הלקוחות שאיתם דיברנו, אך איתי עדיין הופתעה באיזו תדירות אחד הדברים הראשונים שהלקוחות מדברים עליהם הוא הערך שהם יוצאים מאלציה.

ביצעתי בדיקות משתמשים בכלי השאילתה אצל אחד הלקוחות שלנו שנקרא Invoice2go, והיה להם מנהל מוצר שהיה יחסית חדש, והם אמרו - הוא אמר לי בפועל, ללא התייצבות במהלך מבחן המשתמש, "אני באמת לא הייתי כותב SQL בכלל פרט לזה שעשה את זה קל על ידי Alation. "וכמובן, כראש הממשלה, אני הולך" למה אתה מתכוון, איך עשינו את זה? "והוא אמר," ובכן, באמת זה רק בגלל שאני אני יכול להתחבר ואני יכול לראות את כל השאלות הקיימות הללו. "להתחיל עם צפחה ריקה עם SQL זה דבר קשה להפליא, אבל לשנות שאילתה קיימת שבה אתה יכול לראות את התוצאה שהוצגה ותוכל להגיד," הו , אני רק צריך את העמודה הנוספת הזו, "או," אני צריך לסנן אותו לטווח תאריכים מסוים ", זה דבר הרבה יותר קל לעשות.

ראינו סוג של תפקידים נלווים אלה, כמו מנהלי מוצרים, אולי אנשים במכירות, שמתחילים להרים, ומי שרצה תמיד ללמוד SQL ולהתחיל לאסוף אותה באמצעות הקטלוג הזה. ראינו גם שהרבה חברות ניסו לעשות סוג של קוד פתוח. אייב ניסה לבנות דברים מסוג זה באופן פנימי, שם הם עוקבים אחר השאלות ומנגישים אותם, ויש כמה אתגרים עיצוביים מסובכים באמת כדי להפוך אותם לשימושיים. היה לו כלי פנימי שהם קראו ל- HiPal, שכבש את כל השאלות שנכתבו ב- Hive, אבל מה שתגלה הוא שאם אתה לא מדחיק את המשתמשים בדרך הנכונה, אתה פשוט מסיים רשימה ארוכה מאוד של הצהרות נבחרות. וכמשתמש שמנסה להבין אם שאילתה מועילה לי או אם זה מועיל, אם רק אעבור ברשימה ארוכה של הצהרות נבחרות, ייקח לי הרבה יותר זמן להגיע למשהו חסר ערך מאשר מתחיל מהתחלה. חשבנו די בזהירות כיצד להכין קטלוג שאילתה שמביא את החומר הנכון לחזית ומספק אותו בצורה שימושית.

דז בלנשפילד: אני חושב שכולנו עוברים את המסע הזה מגיל צעיר מאוד, לבגרות, במובנים רבים. חבורה של טכנולוגיות. אני, באופן אישי, עברתי את אותו הדבר האמיתי, כמו ללמוד ללמוד לחתוך קוד. הייתי עוברת על מגזינים ואז על ספרים והייתי לומדת לרמה מסוימת ואז הייתי צריכה ללכת ולמעשה לקבל קצת יותר הכשרה וחינוך בנושא.

אבל שלא בכוונה גיליתי שגם כשהלכתי מללמד את עצמי ולקרוא מגזינים ולקרוא ספרים ולקצץ תכניות של עמים אחרים והלכתי לקורסים בנושא, עדיין בסופו של דבר למדתי כל כך הרבה מלימוד הקורסים כמו שדיברתי עם אחרים אנשים שעברו חוויות. ואני חושב שזה תגלית מעניינת שכעת כשאתה מביא את זה לניתוח נתונים, בעצם אתה רואה את אותה הקבלה, שבני אדם הם תמיד חכמים למדי.

הדבר האחר שאני באמת מעוניין להבין הוא, ברמה גבוהה מאוד, ארגונים רבים הולכים לשאול, "כמה זמן לוקח להגיע לנקודה הזו?" מה נקודת המוצא בזמן שאנשים מקבלים את הפלטפורמה שלך מותקנים והם התחילו לגלות את סוגי הכלים? באיזו מהירות אנשים פשוט רואים את הדבר הזה הופך לרגע "א-חה" מיידי באמת שבו הם מבינים שהם בכלל לא דואגים להחזר ה- ROI בגלל שזה שם, אבל עכשיו הם באמת משנים את האופן שבו הם עושים עסקים? והם גילו אמנות אבודה והם מצפים שהם יכולים לעשות משהו באמת, ממש כיף עם זה.

דיוויד קרופורד: כן, אני יכול לגעת בזה קצת. אני חושב שכשאנחנו מתקינים, אחד הדברים הנחמדים, אחד הדברים שאנשים אוהבים בקטלוג שמחובר ישירות למערכות הנתונים, זה שאתה לא מתחיל ריק במקום שאתה צריך למלא אותו בדף על ידי עמוד. וזה נכון לפתרונות נתונים קודמים שבהם אתה צריך להתחיל עם כלי ריק וצריך להתחיל ליצור דף לכל מה שאתה רוצה לתעד.

מכיוון שאנו מתעדים כל כך הרבה דברים באופן אוטומטי על ידי חילוץ המטא נתונים, למעשה תוך מספר ימים מרגע התקנת התוכנה, תוכל לקבל תמונה של סביבת הנתונים שלך, לפחות 80 אחוז שם בכלי. ואז אני חושב ברגע שאנשים מתחילים לכתוב שאילתות עם הכלי, הם נשמרים אוטומטית בחזרה לקטלוג, וכך הם יתחילו להופיע גם כן.

אני לא רוצה להתלהב באמירתו. אני חושב ששבועיים הם אומדן שמרני למדי למדי, לחודש. שבועיים עד חודש, הערכה שמרנית של באמת להסתובב ולהרגיש כאילו אתה מוציא מזה ערך, כמו שאתה מתחיל לשתף קצת ידע ולהיות מסוגל להגיע לשם ולברר דברים על הנתונים שלך.

דז בלנשפילד: זה די מדהים, באמת, כשחושבים על זה. העובדה שחלק מפלטפורמות הנתונים הגדולות שאתה מיישם אינדקס וקטלוג ביעילות ייקח לפעמים עד שנה ליישום ולפריסה ולעמוד כראוי.

השאלה האחרונה שיש לי עבורך לפני שאני מוסר לרובין בלור, היא מחברים. אחד הדברים שמיד קופץ עליי הוא שברור שיש לך את האתגר כולו. אז כמה שאלות פשוט ממש מהר. ראשית, כמה מהר מיישמים מחברים? ברור שאתה מתחיל עם הפלטפורמה הגדולה ביותר, כמו האורקלס והטראדאטאס וכדומה ו- DB2s. אך באיזו תדירות אתה רואה מחברים חדשים עוברים, ואיזה זמן מפנה הם לוקחים? אני מתאר לעצמי שיש לך מסגרת סטנדרטית עבורם. וכמה עמוק אתה נכנס לאלה? לדוגמה, אורקל ו- IBM של העולם, ואפילו Tereadata, ואז כמה מהפופולריות יותר של פלטפורמות קוד פתוח מאוחרות. האם הם עובדים ישירות איתך? האם אתם מגלים זאת בעצמכם? האם אתה צריך להיות בעל פנים בפלטפורמות האלה?

איך נראה סוג של פיתוח מחבר, וכמה עמוק אתה מעורב בשותפויות האלה כדי להבטיח שהמחברים האלה מגלים את כל מה שאתה יכול?

דיוויד קרופורד: כן, בטח, זו שאלה נהדרת. אני חושב שלרוב נוכל לפתח את המחברים. בהחלט עשינו כשהיינו סטארט-אפ צעיר יותר ולא היו לנו לקוחות. אנו יכולים לפתח את החיבורים ללא צורך בלי גישה פנימית. לעולם איננו מקבלים גישה מיוחדת למערכות הנתונים אשר אינן זמינות לציבור, ולעתים קרובות ללא צורך במידע פנים. אנו מנצלים את שירותי המטא נתונים העומדים לרשות מערכות הנתונים עצמן. לעתים קרובות אלה יכולים להיות די מורכבים וקשים לעבוד איתם. אני מכיר את SQL Server בפרט, את הדרך בה הם מנהלים את יומן השאילתה, ישנם מספר תצורות שונות ומשהו שבאמת צריך לעבוד עליו. אתה צריך להבין את הניואנסים ואת הידיות והחייגים עליו כדי להתקין אותם כראוי, וזה משהו שאנחנו עובדים עם הלקוחות מאז שביצענו את זה כמה פעמים בעבר.

אך במידה מסוימת, סוג ממשקי ה- API הציבוריים שלהם או ממשקים ציבוריים זמינים שאנו ממנפים. יש לנו שותפויות עם כמה מהחברות הללו, וזו בעיקר עילה להסמכה, כך שהם ירגישו בנוח לומר שאנחנו עובדים וגם הם יכולים לספק לנו משאבים לבדיקה, לפעמים גישה מוקדמת אולי לפלטפורמה שתצא לוודא ש אנו עובדים על הגרסאות החדשות.

כדי להפוך קשר חדש, הייתי אומר שוב, מנסה להיות שמרן, נניח שישה שבועות עד חודשיים. זה תלוי עד כמה זה דומה. אז חלק מהפוסטגר עובד בצורה דומה מאוד ל- Redshift. Redshift ו- Vertica חולקים הרבה מהפרטים שלהם. כך שנוכל לנצל את הדברים האלה. אבל כן, שישה שבועות עד חודשיים יהיה הוגן.

יש לנו גם ממשקי API, כך - אנו חושבים על Alation כפלטפורמת מטא נתונים גם כן, כך שאם דברים שאינם זמינים לנו להושיט יד ולתפוס באופן אוטומטי, ישנן דרכים שתוכלו לכתוב את המחבר בעצמכם ולדחוף אותו למערכת שלנו כך שהכל עדיין מתרכז במנוע חיפוש יחיד.

דז בלנשפילד: פנטסטי. אני מעריך את זה. אז עמדו למסור את זה לרובין, כי אני בטוח שיש לו גם שפע של שאלות. רובין?

רבקה יוז'ויאק: רובין עשוי להיות אילם.

דז בלנשפילד: יש לך עצמך אילם.

רובין בלור: כן בטח. סליחה השתקתי את עצמי. כאשר אתה מיישם זאת, מה התהליך? אני סוג של סקרנות מכיוון שיכולים להיות הרבה נתונים במקומות רבים. אז איך זה עובד?

דיוויד קרופורד: כן בטח. אנו נכנסים, תחילה מסוג זה של IT לוודא שהשרתים שלנו מספקים, לוודא שיש חיבורי רשת זמינים, שהיציאות פתוחות כך שנוכל ממש לגשת למערכות. לעיתים קרובות כולם יודעים עם אילו מערכות הם רוצים להתחיל. הידיעה בתוך מערכת נתונים, אשר - ולעיתים אנו נעזור להם. ובכן עזרו להם לבחון ראשוני את יומן השאילתות שלהם כדי להבין מי משתמש בכמה וכמה משתמשים יש להם במערכת. אז כל שעליך לעשות הוא לגלות היכן - לעתים קרובות, אם יש להם מאות או אלפי אנשים שעשויים להיכנס למאגרי מידע, הם למעשה לא יודעים היכן הם מתחברים, כך שנוכל לגלות מיומני השאילתה כמה חשבונות משתמש ייחודיים עושים אתה ממש מתחבר ומבצע שאילתות כאן בעוד כחודש.

כך שנוכל לנצל זאת, אך לעיתים קרובות רק בחשובים שבהם. אנו מגדילים אותם ואז מתחיל תהליך של אמירה, "ניתן לתעדף." יש מגוון פעילויות שיכולות לקרות במקביל. הייתי מתמקד בהדרכה לשימוש בכלי השאילתה. ברגע שאנשים מתחילים להשתמש בכלי השאילתה, קודם כל, הרבה אנשים אוהבים את העובדה שזה ממשק יחיד לכל המערכות השונות שלהם. הם גם אוהבים את העובדה שמערכת האינטרנט שלה אינה כוללת התקנות אם הם לא רוצים. מבחינת אבטחה, הם אוהבים לקבל מעין נקודת כניסה יחידה, מנקודת מבט של רשת, בין מעין רשת IT קורפית למרכז הנתונים בו חיים מקורות נתוני הייצור. וכך, הם יגדירו את Alation ככלי שאילתה ויתחילו להשתמש ב- Compose כנקודת גישה לכל המערכות הללו.

אז ברגע שזה קורה, מה שאנחנו מתמקדים בו באימונים, זה להבין מה הם כמה מההבדלים בין כלי שאילתה מבוסס אינטרנט או כלי שרת מבוסס לעומת מחשב אחד שיש לך על שולחן העבודה שלך, וחלק מהניואנסים של השימוש בזה. ובאותו זמן מה לנסות לעשות זה לזהות את הנתונים החשובים ביותר, לנצל שוב את המידע ביומן השאילתה, ולומר, "היי, אולי תרצה להיכנס ולעזור לאנשים להבין את אלה. בואו נתחיל לפרסם שאילתות מייצגות בטבלאות האלה. "לפעמים הדרך היעילה ביותר לגרום לאנשים להסתחרר במהירות רבה. בואו נסתכל על היסטוריית השאילתה שלך, פרסם את הדברים האלה כך שהם יופיעו כשאילתות ראשונות. כשאנשים מסתכלים על דף טבלה הם יכולים לראות את כל השאילתות שנגעו בטבלה הזו, והם יכולים להתחיל משם. ואז נתחיל להוסיף כותרות ותיאורים לאובייקטים אלה כך שיהיה להם קל יותר לחפש ולחפש אותם, כך שתכירו כמה מהניואנסים כיצד להשתמש בהם.

אנו דואגים שנבחן לעומק את יומן השאילתה, כך שנוכל לייצר שושלת. אחד הדברים שאנחנו עושים הוא להסתכל ביומן השאילתה בזמנים שבהם הנתונים עוברים מטבלה לשנייה, וזה מאפשר לנו לשים אחת מהשאלות הנפוצות ביותר על טבלת נתונים, מאיפה זה הגיע? איך אני סומך על זה? וכך מה שאנו יכולים להראות אינו רק מאילו שולחנות אחרים הוא הגיע, אלא כיצד הוא עבר שינוי לאורך הדרך. שוב, זה מופעל על ידי יומן השאילתה.

אז אנו מוודאים שהדברים הללו הוקמו ושכללו שושלת למערכת, וכיוונו לחלקי המטא נתונים החשובים ביותר והממונפים ביותר שנוכל לבסס על דפי הטבלה, כך שכאשר תחפשו, אתה מוצא משהו מועיל.

רובין בלור: בסדר. השאלה האחרת - יש הרבה שאלות מהקהל, אז אני לא רוצה לקחת יותר מדי מהזמן כאן - השאלה הנוספת שעולה לי בראש היא רק נקודות הכאב. הרבה תוכנות שנרכשו מכיוון שאנשים מתקשים בדרך זו או אחרת במשהו. אז מהי נקודת הכאב הנפוצה שמובילה אנשים לאלציה?

דיוויד קרופורד: כן. אני חושב שיש כמה, אבל אני חושב שאחד הדברים שאנחנו שומעים לעיתים קרובות הוא אנליסטים באונדינג. "אני אצטרך להעסיק 10, 20, 30 אנשים בטווח הקרוב אשר יצטרכו להפיק תובנות חדשות מהנתונים האלה, איך הם יתקדמו במהירות?" אז אנליסטים באנליסט הם דבר שאנחנו בהחלט מתמודדים עם. Theres גם רק משחרר את האנליסטים הבכירים מלהוציא את כל זמנם לענות על שאלות מאנשים אחרים על נתונים. זה גם תכוף מאוד. ושניהם בעצם בעיות חינוך.

ואז הייתי אומר מקום אחר שאנו רואים שאנשים מאמצים את Alation הוא כאשר הם רוצים להקים סביבת נתונים חדשה לגמרי למישהו שיעבוד בה. הם רוצים לפרסם ולשווק זאת באופן פנימי כדי שאנשים יוכלו לנצל אותם. ואז הפיכת Alation לקצה הקדמי של אותה סביבה אנליטית חדשה מאוד מושכת. יש לו את התיעוד, יש לו נקודת מבוא יחידה לנקודה אחת - גישה למערכות, וכך זה מקום אחר שאנשים יבואו אלינו.

רובין בלור: אוקיי, אני אעביר אותך לרבקה כי הקהל מנסה להגיע אליך.

רבקה יוז'ויאק: כן, יש לנו כאן הרבה שאלות קהל ממש טובות. ודוד, זה הוצב לך במיוחד. זה ממישהו שככל הנראה יש לו ניסיון כלשהו עם אנשים שמניעים שימוש לרעה בשאילתות, והוא סוג של אומר שככל שאנו מעצימים משתמשים, כך קשה יותר לשלוט באחריות על שימוש במשאבי מחשוב. אז אתה יכול להתגונן מפני התפשטות של ביטויים שאילתיים שגויים אך נפוצים?

דיוויד קרופורד: כן, אני רואה את השאלה הזו. זו שאלה נהדרת - שאלה שאנחנו מקבלים לעתים קרובות למדי. ראיתי את הכאב בעצמי בחברות קודמות, שם אתה צריך להכשיר משתמשים. לדוגמה, "זהו טבלת יומנים. היומנים שלה חוזרים לאורך שנים. אם אתה הולך לכתוב שאילתה בטבלה זו, אתה באמת צריך להגביל לפי תאריך. "אז, למשל, זו הכשרה שעברתי בחברה קודמת לפני שניתנה לי גישה למאגר.

יש לנו כמה דרכים שאנו מנסים לטפל בזה. הייתי אומר שאני חושב שנתוני יומן השאילתה הם באמת בעלי ערך ייחודי כדי לטפל בהם. זה נותן תובנה נוספת לעומת מה שמסד הנתונים עושה באופן פנימי עם מתכנן השאילתות שלו. ומה שאנחנו עושים זה, אחת מאותן התערבויות - יש לנו את ההתערבויות הידניות שהראיתי, וזה מועיל, נכון? אז למשל על הצטרפות מסוימת, אתה יכול להגיד, "ניתן לבטל את זה." יהיה לו דגל אדום גדול כשהוא מופיע בהצעה חכמה. אז זו דרך אחת לנסות להגיע לאנשים.

דבר נוסף שאנחנו עושים הוא אוטומציה בהתערבויות בזמן ביצוע. זה באמת ישתמש בעץ הניתוח של השאילתה לפני שאנחנו מפעילים אותה לראות, האם זה כולל פילטר מסוים או כמה דברים אחרים שאנחנו עושים גם שם. אבל אחד הערכים והפשוטים ביותר להסביר הוא האם זה כולל פילטר? אז כמו הדוגמא הזו שרק הגעתי לה, טבלת יומני זו, אם אתה הולך לשאול אותה, צריך שיהיה לך טווח תאריכים, תוכל לציין בדף הטבלה שם שאתה מחייב את המסנן של טווח התאריכים ליישום. אם מישהו ינסה להריץ שאילתה שאינה כוללת את המסנן הזה, היא למעשה תעצור אותם עם אזהרה גדולה, והיא תאמר "אתה בטח צריך להוסיף SQL שנראה כך לשאילתה שלך." הם יכולים להמשיך אם הם רוצים . לא התכוונו לאסור עליהם לחלוטין להשתמש בזה - זו גם שאילתה, עליה בסוף, להפעיל שאילתות. אבל אנחנו שמים מחסום די גדול לפנינו ואנחנו נותנים להם הצעה, הצעה קונקרטית להחלה כדי לשנות את השאילתה כדי לשפר את הביצועים שלהם.

אנו למעשה עושים זאת באופן אוטומטי במקרים מסוימים, שוב על ידי התבוננות ביומן השאילתה. אם אנו רואים שאחוז גדול באמת מהשאילתות בטבלה זו מנצל פילטר מסוים או סעיף הצטרפות מסוים, אז בעצם קופץ את זה. ובכן לקדם את זה להתערבות. למעשה, זה קרה לי במערך נתונים פנימי. יש לנו נתוני לקוחות ויש לנו מזהי משתמש, אך מזהה המשתמש מוגדר, כיוון שסוגו - יש לנו מזהי משתמש בכל לקוח. זה לא ייחודי, כך שאתה צריך להתאים אותו עם מזהה לקוח כדי לקבל מפתח הצטרפות ייחודי.וכתבתי שאילתה וניסיתי לנתח משהו וזה צץ ואמר, "היי, נראה שכל השאר מצטרפים לטבלאות האלה גם עם מזהה הלקוח וגם מזהה המשתמש. האם אתה בטוח שאתה לא רוצה לעשות את זה? "וזה בעצם מנע ממני לבצע ניתוח לא נכון. אז זה עובד גם לדיוק הניתוח וגם לביצועים. אז ככה אנחנו לוקחים את הבעיה הזו.

רבקה יוז'ויאק: זה נראה לי יעיל. אמרת שאתה לא בהכרח יחסום אנשים מלגייס משאבים, אבל מעין ללמד אותם שמה שהם עושים אולי לא הכי טוב, נכון?

דיוויד קרופורד: אנו תמיד מניחים שהמשתמשים אינם זדוניים - תן להם את הכוונה הטובה ביותר - ואנחנו מנסים להיות די פתוחים בדרך זו.

רבקה יוז'ויאק: בסדר. הנה שאלה נוספת: "מה ההבדל בין מנהל קטלוגים, כמו עם הפיתרון שלך, לכלי MDM? או שהוא בעצם מסתמך על מנהל אחר על ידי הרחבת הבחירה בטבלאות השאילתה, ואילו MDM היה עושה זאת באופן אוטומטי, אך עם אותו עיקרון בסיסי לאיסוף מטא נתונים. "

דיוויד קרופורד: כן, אני חושב שכשאני מסתכל על פתרונות MDM מסורתיים, ההבדל העיקרי הוא זה פילוסופי. הכל על מי המשתמש. כמו שאמרתי בתחילת המצגת שלי, Alation, אני חושב שכאשר הקמנו, הוקמנו במטרה לאפשר לאנליסטים לייצר יותר תובנות, לייצר אותם מהר יותר, להיות מדויקים יותר בתובנות שהם ליצר. אני לא חושב שאי פעם הייתה המטרה של פיתרון MDM מסורתי. פתרונות אלה נוטים להיות מכוונים לאנשים שצריכים להפיק דיווחים על נתונים שנלכדו ב- SCC או באופן פנימי למטרת ביקורת מסוג אחר. לפעמים זה יכול לאפשר אנליסטים, אך לעתים קרובות יותר, אם זה יאפשר למטפל בעבודתו, סביר יותר שיאפשר לאדריכל נתונים כמו DBA.

כשאתה חושב על דברים מנקודת מבטו של אנליסט, זה כשאתה מתחיל לבנות כלי שאילתה שכלי MDM לעולם לא יעשה. זה כשאתה מתחיל לחשוב על ביצועים כמו גם על דיוק, כמו גם להבין אילו נתונים קשורים לצורך העסקי שלי. כל הדברים האלה הם דברים שמופעלים בראשנו כשאנו מעצבים את הכלי. זה נכנס לאלגוריתמי החיפוש שלנו, הוא נכנס לפריסה של דפי הקטלוג ויכולת לתרום ידע מכל רחבי הארגון. זה נכנס לעובדה שבנינו את כלי השאילתה ובנינו את הקטלוג ישירות לתוכו, כך שלדעתי הוא באמת נובע מזה. איזה משתמש בראש ובראשונה?

רבקה יוז'ויאק: אוקיי, טוב. זה באמת עזר להסביר את זה. שגסס לתפוס את הארכיונים בגלל שנאלץ לעזוב, אבל הוא באמת רצה שהשאלה שלו תיענה. הוא אמר שהוזכר בהתחלה שיש מספר שפות, אך האם SQL היא השפה היחידה הממונפת בתוך רכיב ה- Compose?

דיוויד קרופורד: כן זה נכון. ואחד הדברים ששמתי לב אליהם, כיוון שהייתי עדה לפיצוץ של סוגים שונים של מאגרי מידע, של מסדי נתונים של מסמכים, של מסדי נתונים של גרפים, של חנויות ערך מרכזיות, הוא שהם באמת חזקים לפיתוחי יישומים. הם יכולים לשרת שם צרכים מסוימים ממש טוב, בדרכים טובות יותר ממה שמסדי נתונים יחסיים יכולים.

אבל כשאתה מחזיר אותו לניתוח נתונים, כשאתה מחזיר אותו אליו - כשאתה רוצה לספק מידע זה לאנשים שהולכים לעשות דיווחים אד הוק או לחפור אד-הוק בנתונים, שהם תמיד חוזרים למערכת יחסים , לפחות, ממשק לבני האדם. חלק מזה נובע רק מכיוון ש- SQL הוא הלשון פרנקה של ניתוח נתונים, כך שזה אומר, עבור בני האדם, זה גם עבור הכלים שמשתלבים. אני חושב שזו הסיבה ש- SQL ב- Hadoop כל כך פופולרי ויש כל כך הרבה ניסיונות לפתור אותה, זה בגלל שבסופו של יום, זה מה שאנשים יודעים. יש כנראה מיליוני אנשים שיודעים לכתוב SQL, והייתי מסתכן שלא מיליונים שיודעים לכתוב שאלת מסגרת צינור מצטבר מונגו. וזו שפה סטנדרטית המשמשת לשילוב בין מגוון רחב מאוד של פלטפורמות. אז כל מה שנאמר, לעתים רחוקות מאוד התבקשו לצאת ממנו כי זה הממשק שרוב האנליסטים משתמשים בו, וזה מקום בו התמקדנו, במיוחד ב- Compose, שהתמקדנו בכתיבת SQL.

הייתי אומר שמדעי המידע הם המקום בו הם מסתכנים ביותר מחוץ, וכך אנו מקבלים מדי פעם שאלות על השימוש בחזיר או ב- SAS. אלה דברים שאנחנו בהחלט לא מתעסקים בהם ב- Compose, ושאנחנו רוצים לצלם בקטלוג. ואני רואה גם את R ואת פייתון. יש לנו כמה דרכים בהן יצרנו ממשקים שתוכלו להשתמש בשאילתות שנכתבו ב- Alation בתוך סקריפטים של R ו- Python, כך שלעתים קרובות כאשר אתם מדענים נתונים ואתם עובדים בשפת סקריפט, נתוני המקור שלכם נמצאים במערכת יחסים מאגר מידע. אתה מתחיל בשאילתת SQL ואז אתה מעבד אותה הלאה ויוצר גרפים בתוך R ו- Python. ויצרנו חבילות שתוכלו לייבא לסקריפטים שמושכים את השאילתות או את תוצאות השאילתה מ- Alation, כך שתוכלו למצוא שם זרימת עבודה מעורבת.

רבקה יוז'ויאק: אוקי מצויין. אני יודע שאנחנו עוברים קצת מעבר לשעה, אני רק הולך לשאול שאלה אחת או שתיים נוספות. אני יודע שדיברת על כל המערכות השונות שאליהן אתה יכול להתחבר, אבל בכל הנוגע לנתונים שמתארחים חיצונית ונתונים שמתארחים באופן פנימי, האם ניתן לחפש ביחד את התצוגה היחידה שלך, לפלטפורמה האחת שלך?

דיוויד קרופורד: בטוח. יש כמה דרכים לעשות זאת. כלומר, מתארח חיצונית, הייתי מדמיין, אני מנסה לחשוב על מה זה יכול להיות אומר. זה יכול להיות מסד נתונים שמישהו מארח ב- AWS עבורך. זה יכול להיות מקור נתונים ציבורי מ- data.gov. אנו מתחברים ישירות למסדי נתונים על ידי כניסה ממש כמו יישום אחר, עם חשבון מסדי נתונים וככה אנו מחלצים את המטא נתונים. אז אם יש לנו חשבון ויש לנו יציאת רשת פתוחה, נוכל להגיע אליו. ואז, כשאין לנו את הדברים האלה, יש לנו משהו שנקרא מקור נתונים וירטואלי, שמאפשר לך לדחוף תיעוד, בין אם אוטומטית, על ידי כתיבת מחבר משלך, או על ידי מילויו על ידי ביצוע אפילו כמו העלאת CSV, לתעד הנתונים לצד הנתונים הפנימיים שלך. זה נכנס למנוע החיפוש. זה הופך להיות ניתן להפנות פנימה של מאמרים ותיעוד ושיחות אחרים בתוך המערכת. כך אנו מתמודדים כשאנחנו לא יכולים להתחבר ישירות למערכת.

רבקה יוז'ויאק: אוקיי, זה הגיוני. אני פשוט תעל לך שאלה אחת נוספת. משתתף אחד הוא לשאול, "כיצד יש לאמת את תוכן קטלוג הנתונים, לאמת אותו או לתחזק אותו, כאשר עדכוני נתוני המקור, כשינוי נתוני המקור וכו '."

דיוויד קרופורד: כן, זו שאלה שאנחנו מקבלים הרבה, ואני חושב שאחד הדברים שאנחנו - אחת מהפילוסופיות שלנו, כמו שאמרתי, אנחנו לא מאמינים שהמשתמשים זדוניים. אנו מניחים שהם מנסים לתרום את הידע הטוב ביותר. הם לא מתכוונים להיכנס ולהטעות אנשים במכוון בנתונים. אם זו בעיה בארגון שלך, אולי Alations לא הכלי המתאים לך. אבל אם אתה מניח כוונות טובות מצד המשתמשים, אם כן, אנו חושבים על זה כמשהו היכן, העדכונים נכנסים, ואז בדרך כלל מה שאנחנו עושים זה להפקיד דייל האחראי על כל אובייקט נתונים או כל חלק בנתונים. ואנחנו יכולים להודיע לאותם דיילים כאשר מתבצעים שינויים במטא-נתונים והם יכולים להתמודד עם זה בדרך זו. הם רואים עדכונים נכנסים, הם מאמתים אותם. אם הם לא צודקים, הם יכולים לחזור ולשנות אותם וליידע, ובתקווה אפילו לפנות למשתמש שתרם את המידע ולעזור לו ללמוד.

אז זו הדרך העיקרית בה אנו חושבים לעשות זאת. סוג כזה של הצעות מצד הקהל וההנהלה על ידי הדיילים, כך שיש לנו כמה יכולות סביב זה.

רבקה יוז'ויאק: אוקיי טוב. ואם אתה יכול פשוט ליידע את האנשים כיצד הם יכולים להתחיל לעבוד בצורה הטובה ביותר עם Alation, ולאן הם יכולים ללכת במיוחד כדי לקבל מידע נוסף. אני יודע ששיתפת את זה קצת. האם זה המקום הכי טוב?

דיוויד קרופורד: Alation.com/learnmore אני חושב שזו דרך נהדרת ללכת. כדי להירשם להפגנה באתר Alation.com יש הרבה משאבים גדולים, ניירות לבנים של לקוחות וחדשות על הפיתרון שלנו. אז אני חושב שזה מקום נהדר להתחיל בו. אתה יכול גם .

רבקה יוז'ויאק: אוקי מצויין. ואני יודע, משתתפים, סליחה אם לא הגעתי לכל השאלות היום, אבל אם לא, הם יועברו לדוד או לצוות המכירות שלו או למישהו באלציה, כך שהם בהחלט יכולים לעזור לענות על השאלות שלך ולעזור להבין מה Alation עושה או מה שהם עושים הכי טוב.

ועם זה, אנשים, אני אמשיך לחתום אותנו. אתה תמיד יכול למצוא את הארכיונים ב- InsideAnalysis.com. אתה יכול למצוא אותו גם ב- Techopedia.com. הם נוטים להתעדכן קצת יותר מהר, אז בהחלט בדקו זאת. ותודה רבה לדיוויד קרופורד, דז בלנשפילד ורובין בור היום. זה היה שידור אינטרנט נהדר. ועם זה, אני אפרד ממך. תודה, אנשים. ביי ביי.

דיוויד קרופורד: תודה.