מהן כמה דרכים מרכזיות לאוטומציה של תהליכי מדעי הנתונים ואופטימיזציהם? googletag.cmd.push (פונקציה () {googletag.display (div-gpt-ad-1562928221186-0);}); ש:

תוֹכֶן

ש:

מהן כמה דרכים מרכזיות לאוטומציה של תהליכי מדעי הנתונים ואופטימיזציהם?

ת:

ניתן לחלק את תהליכי מדעי הנתונים במונחים של למידת מכונה ו- AI לארבעה שלבים שונים:

רכישת נתונים וחקירה,
בניין מודל,
פריסת מודל
הערכה ועידון מקוון.

מהניסיון שלי, השלבים המכשילים ביותר הם שלבי רכישת נתונים ומודל פריסת מודלים בכל תהליך מדעי נתונים מבוסס למידה מכונה, והנה שתי דרכים לייעל אותם:

1. הקימו מאגר נתונים נגיש ביותר.

ברוב הארגונים, הנתונים לא נשמרים במיקום מרכזי אחד. בואו ניקח רק מידע הקשור ללקוחות. יש לך פרטי קשר עם לקוחות, תמיכת לקוחות, משוב לקוחות והיסטוריית גלישה של לקוחות אם העסק שלך הוא יישום אינטרנט. כל הנתונים הללו מפוזרים באופן טבעי, מכיוון שהם משרתים מטרות שונות. הם עשויים להתגורר בבסיסי נתונים שונים וחלקם עשויים להיות מובנים לחלוטין וחלקם לא מובנים, ואף עשויים להיות מאוחסנים כקבצים רגילים.

לרוע המזל, הפיזור של מערכי הנתונים הללו מגביל מאוד את עבודת מדעי הנתונים כבסיס לכל בעיות NLP, למידת מכונות ובעיות AI הוא נתונים. אז כל הנתונים האלה במקום אחד - מאגר הנתונים - הוא בעל חשיבות עליונה בהאצת פיתוח ופריסת המודל. בהתחשב בכך שמדובר בחלק מכריע בכל תהליכי מדעי הנתונים, ארגונים צריכים להעסיק מהנדסי נתונים מוסמכים שיעזרו להם לבנות את מאגרי הנתונים שלהם. זה יכול להתחיל בקלות כשישוף פשוט של נתונים למיקום אחד ולגדול לאט לאט למאגר נתונים מחושב היטב, מתועד לחלוטין ואפשר לשאול אותו בעזרת כלי שירות לייצוא קבוצות משנה של נתונים לפורמטים שונים למטרות שונות.

2. חשוף את הדגמים שלך כשירות לשילוב חלק.

בנוסף לאפשר גישה לנתונים, חשוב גם להיות מסוגלים לשלב את המודלים שפותחו על ידי מדעני נתונים במוצר. זה יכול להיות קשה ביותר לשלב מודלים שפותחו בפייתון עם יישום אינטרנט שמופעל על רובי. בנוסף, הדגמים עשויים להיות בעלי תלות נתונים רבה אשר המוצר שלך לא יוכל לספק.

אחת הדרכים להתמודד עם זה היא להקים תשתית חזקה סביב הדגם שלך ולחשוף מספיק פונקציונליות הדרושה למוצר שלך על מנת להשתמש במודל כ"שירות אינטרנט. "לדוגמה, אם היישום שלך זקוק לסיווג סנטימנטים על ביקורות על מוצרים. כל מה שצריך לעשות הוא להפעיל את שירות האינטרנט, לספק את הרלוונטי והשירות יחזיר את סיווג הסנטימנטים המתאים בו המוצר יכול להשתמש ישירות. בדרך זו האינטגרציה היא פשוט בצורה של שיחת API. ניתוק הדגם והמוצר שמשתמש בו מקלים על מוצרים חדשים שאתה מוצא בהם להשתמש גם בדגמים אלה עם מעט טרחה.

כעת, הגדרת התשתית סביב הדגם שלך היא סיפור אחר לגמרי ודורשת השקעה ראשונית כבדה מצוותי ההנדסה שלך. ברגע שהתשתית שם, זה רק עניין של בניית דגמים באופן שמתאים לתשתית.