האם אי פעם יש יותר מדי נתונים בביג נתונים?

מְחַבֵּר: Laura McKinney
תאריך הבריאה: 4 אַפּרִיל 2021
תאריך עדכון: 1 יולי 2024
Anonim
Is there scientific proof we can heal ourselves? | Lissa Rankin, MD | TEDxAmericanRiviera
וִידֵאוֹ: Is there scientific proof we can heal ourselves? | Lissa Rankin, MD | TEDxAmericanRiviera

תוֹכֶן

ש:

האם אי פעם יש יותר מדי נתונים בביג נתונים?


ת:

התשובה לשאלה היא כן מהדהד. בהחלט יכולים להיות יותר מדי נתונים בפרויקט נתונים גדולים.

ישנן מספר דרכים בהן הדבר יכול לקרות, וסיבות שונות לכך שאנשי מקצוע צריכים להגביל ולאצור נתונים בכל מספר דרכים בכדי להשיג את התוצאות הנכונות. (קרא 10 מיתוסים גדולים על ביג דאטה.)

באופן כללי, מומחים מדברים על הבחנה בין ה"אות "ל"רעש" במודל. במילים אחרות, בים של נתונים גדולים, נתוני התובנה הרלוונטיים נעשים קשים למיקוד. במקרים מסוימים, אתה מחפש מחט בערימת שחת.

לדוגמה, נניח שחברה מנסה להשתמש בנתונים גדולים כדי לייצר תובנות ספציפיות על קטע של בסיס לקוחות, ואת הרכישות שלהם לאורך זמן מסוים. (קרא מה עושים נתונים גדולים?)

נטילת כמות עצומה של נכסי נתונים עשויה לגרום לכניסת נתונים אקראיים שאינם רלוונטיים, או שהיא עשויה אף לייצר הטיה שמטעה את הנתונים לכיוון זה או אחר.

זה גם מאט את התהליך באופן דרמטי, מכיוון שמערכות מחשוב צריכות להתמודד עם מערכי נתונים גדולים יותר וגדולים יותר.

בפרויקטים מסוגים רבים ושונים, חשוב מאוד שמהנדסי נתונים יאצרו את הנתונים למערכות נתונים מוגבלות וספציפיות - במקרה שלמעלה, זה יהיה רק ​​הנתונים עבור אותו פלח לקוחות שנלמד, רק הנתונים באותה תקופה. מסגרת הנלמדת, וגישה שמשדלת מזהים נוספים או מידע רקע שיכול לבלבל דברים או להאט מערכות. (תפקיד ReadJob: מהנדס נתונים.)


לקבלת מידע נוסף, בואו נראה כיצד זה עובד בגבול למידת מכונה. (קראו למידת מכונה 101.)

מומחי למידת מכונה מדברים על משהו שנקרא "התאמה יתר" בו מודל מורכב מדי מוביל לתוצאות פחות אפקטיביות כאשר תוכנית הלמידה של המכונה משחררת את נתוני הייצור החדשים.

התאמת יתר מתרחשת כאשר קבוצה מורכבת של נקודות נתונים תואמת מערך אימונים ראשוני מדי, ואינה מאפשרת לתוכנית להסתגל בקלות לנתונים חדשים.

כעת מבחינה טכנית, התאמה יתר נגרמת לא בגלל קיומם של יותר מדי דגימות נתונים, אלא כתוצאה מהכתרת נקודות נתונים רבות מדי. אבל אתה יכול לטעון כי גם מידע רב יכול להיות גורם תורם לבעיה מסוג זה. התמודדות עם קללת המימד כרוכה בכמה מאותן טכניקות שנעשו בפרויקטים גדולים של נתונים גדולים, מאחר שאנשי מקצוע ניסו להצביע על מה הם מאכילים מערכות IT.

בשורה התחתונה, נתונים גדולים יכולים להועיל מאוד לחברות, או שזה יכול להפוך לאתגר גדול. היבט אחד זה הוא האם לחברה יש את הנתונים המתאימים. מומחים יודעים שלא רצוי פשוט לזרוק את כל נכסי הנתונים לתוך הופר ולהגיע עם תובנות בצורה כזו - במערכות נתונים חדשות-מקוריות ומתוחכמות בענן, יש מאמץ לשלוט ולנהל ואצור נתונים כדי להיות מדויקים יותר שימוש יעיל בנכסי נתונים.