5 אזורים עיקריים שבהם Big Data משפיע באופן משמעותי

וִידֵאוֹ: אדריכלות קאטה מס’ 1 - תחקיר עם מומחה [איך עובד אדריכל פתרון אמיתי] #ityoutubersru

תוֹכֶן

איך זה קרה
ביג דאטה, הזדמנות גדולה
משהו שצריך לצפות בו

מקור: Nmedia /Dreamstime.com

להסיר:

נתונים גדולים הם עסק גדול בכל מקום, אך כמה תחומים ספציפיים ממנפים את הטכנולוגיה הזו בצורה המרבית.

כשהתחלתי את המאמר הזה, תכננתי לרשום את הסוגים השונים של פלטפורמות ה- Big Data. אבל, לאחר שלושה ימים של ניסיון לתאם את כל הצעות הנתונים הגדולים השונים - יחסיים מול לא יחסיים, SQL מול NoSQL ומסד נתונים מול מסגרת - לכדי מראית עין של סדר, החלטתי להימנע מהבלגן הזה.

כדי להוסיף עלבון לפציעה קיוויתי להציג את האדם שטבע את המונח "ביג דאטה" כחלק מהמאמר. אבל, אני אפילו לא יכול לעשות את זה. אין תשובה מוסכמת. למען האמת, יש פרויקט מחקרי מלא שבוחן מי הגיע עם נתונים גדולים במקור. במקום זאת, אני הולך לבדוק כמה מהדרכים העיקריות בהן משתמשים בנתונים גדולים. זה הרבה יותר חשוב. וזה יותר מעניין ומפתיע מכפי שאפשר לחשוב.

איך זה קרה

אנליסטים המשתמשים בכריית נתונים מסורתית מבצעים מניפולציה של נתונים במשך שנים. אותם אנליסטים מתקשים כעת להתמודד עם הכמות ומגוון הנתונים שנשמרים על ידי עסקים, ארגונים פרטיים וסוכנויות ממשלתיות.

הזן נתונים גדולים, השלב האבולוציוני הבא בכריית נתונים. נתונים גדולים נועדו להתמודד עם מסדי נתונים ענקיים וסוגים רבים של נתונים שנוצרים בעולם הדיגיטלי של ימינו. אם "מסיבית" חושבת על גוגל ועל כל הנתונים שהיא אוספת, היית בגן המשחקים. מה שעשוי להפתיע אותך הוא שגוגל נמצאת רק במקום הרביעי ברשימת עשרת המובילים של מסדי הנתונים הגדולים בעולם. החל מינואר 2014, מרכז הנתונים העולמי לאקלים עמד בראש הרשימה עם 220 טרה-בתים של נתונים, ונחשבים כולם לגבי גודל מסדי הנתונים הנשלטים על ידי סוכנויות ממשלתיות מסוימות.

כמובן שהנתונים הגדולים המריאו מכיוון שהיא מאפשרת לתפעל כמויות אדירות של נתונים שונים, ולגלות דברים מדהימים - ומפורטים להפליא ואישיים -. ג'ון סומר, אנליסט בענף משאבי אנוש, מספק את הדוגמא הבאה:

"היום אנו יוצרים השערות ואוספים נתונים. מחר נעשה את ההיפוך. הצטברות קבועה ויציבה של נתונים תאפשר לנו להתבונן בנתונים לפני שנוצר שאלות. זה אומר שנקבל תשובות לשאלות שלא עשינו '. אני לא יודע לשאול. אנו חושבים על שלל דברים שאנו מניחים שהם עובדות. "

כמובן ששמענו כולנו על כמה מהדרכים המפחידות שנעשה בהן שימוש בנתונים, כמו יכולת Targets להבחין בהריון של נשים צעירות עוד לפני שמשפחתה תגלה זאת. אבל משתמשים בנתונים גדולים גם מסיבות הרבה פחות רעות. להלן מספר ארגונים שממנפים את זה הכי הרבה:

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

נתונים גדולים שברורים מאליהם יעזור הוא בטיפול ברשומות בריאות אלקטרוניות בבטחה ובמדויק ברחבי ארגונים רפואיים. קיום רשומות מדויקות יספק לחולים שירות טוב יותר וירידה בשגיאות. תחום שירותי הבריאות, מסיבות מובנות, הוא התאמת נתונים גדולים בקצב איטי יותר בכדי להתאים לתקנות הממשלה בנושא סודיות המטופלים.

כאמור, נתונים גדולים ידועים כמספקים תשובות לשאלות שלא נשאלו. בתחום שירותי הבריאות, משמעות הדבר עשויה למצוא תרופה או טיפול חדש שלא היה נמצא אחרת. על פי חברת McKinsey & Company, נתונים גדולים עשויים לאפשר את הדברים הבאים בעתיד הלא רחוק:

דוגמנות חזויות של תהליכים ביולוגיים ותרופות הופכת למתחכמת ונפוצה יותר.
המטופלים מזוהים להירשם לניסויים קליניים בהתבסס על מקורות מידע רבים יותר, כמו מדיה חברתית.
הניסויים מנוטרים בזמן אמת כדי לזהות במהירות בעיות בטיחות או תפעול.
במקום ממגורות נתונים קשיחות שקשה לנצל, נתונים נלכדים אלקטרונית וזורמים בקלות בין יחידות שונות.

ביג דאטה, הזדמנות גדולה

אמנם ממונפים נתונים גדולים באזורים ספציפיים מסוימים, אך הם מציעים הזדמנות לכל הארגונים בתחומים הבאים:

כמעט כל יומן נתוני מחשוב ורשת. כמות הנתונים שנרשמת הופכת במהירות לא נעימה. נתונים גדולים יכולים לנהל בקלות את כמות הנתונים הזו, ומאפשרים למנהלי מערכת לפקח על פעילות רשת, לאבחן בעיות או בדוגמה שרובין נתן לי לחפש דפוסי תנועה מסוימים ברשת שיצביעו על פעילות תוכנה זדונית.

אם אתה קורא מאמר זה, זה הימור בטוח למדי שאתה מודע לסוגיית Heartbleed סביב OpenSSL. מלבד הבעיה הטכנית, קיים החשש שהפגיעות קיימת כבר כמה שנים. רובין ציין כי נתונים גדולים מאפשרים למנהלי רשת, העובדים עם אנליסטים של נתונים, ליצור תוכנית שתבצע חיפוש ביומני הרשת אחר פעימות לב זדוניות. פוסט EFF זה מזכיר:

"כל מפעילי רשת שיש להם יומני מנות נרחבים יכולים לבדוק פעימות לב זדוניות, אשר לרוב יש עומס מטען של TCP של 18 03 02 00 03 01 או 18 03 01 00 03 01 (או אולי אפילו 18 03 03 00 03 01)."

הדוגמה הבאה היא פלט מדגם מפקודת הביקורת של התוכנית:

נתב # הצגת ביקורת

* 14 בספטמבר 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD משתמש:

14 בספטמבר 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 משתמש:

* 14 בספטמבר 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC משתמש:

14 בספטמבר 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE משתמש:

14 בספטמבר 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 משתמש:

אם אתה עוקב אחר חותמות הזמן, מרווח הזמן עבור כל אותם ערכים היה פחות משנייה אחת. אני אפילו לא רוצה לסחוט את זה למשך יום, קל וחומר שנתיים!

משהו שצריך לצפות בו

אם אתה בודק את מודעות העבודה, יש צורך קשה במומחי נתונים גדולים. שאלתי את רובין בעניין זה. הוא הסכים, כשהזכיר כי תלמידיו התלהבו מהסיכויים שלהם. אז הבנתי שפלטפורמות נתונים גדולות, ובמיוחד אלה שנחשבות קוד פתוח, עוקבות אחר ציר זמן הדומה מאוד לאופן בו לינוקס הפכה למיינסטרים.

אוניברסיטאות מאמצות גרסאות קוד פתוח של פלטפורמות של נתונים גדולים, בפרט Hadoop, מכיוון שהן חינמיות, והתלמידים יכולים לתפעל את קוד המקור. אז הבוגרים שממלאים את כל פתיחות המשרות האלה יעדיפו לעבוד עם פלטפורמות קוד פתוח, מכיוון שזה מה שהם יודעים הכי טוב. יהיה מעניין לצפות.