חיזוק למידה נגד. למידת חיזוק עמוק: מה ההבדל?

תוֹכֶן

מהי למידת חיזוק?
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך
מהו למידת חיזוק עמוק?

להסיר:

פנינו למומחים וביקשנו מהם לענות על ההבדלים החשובים בין למידת חיזוק ולמידת חיזוק עמוקה

אלגוריתמים של למידת מכונה יכולים להקל על החיים והעבודה, לשחרר אותנו ממשימות מיותרות תוך עבודה מהירה יותר - וחכמה יותר מאשר צוותים שלמים של אנשים. עם זאת, ישנם סוגים שונים של למידת מכונה. לדוגמה, יש למידת חיזוק ולמידה לחיזוק עמוק.

"למרות שלימוד תגבור ולמידה של חיזוק עמוק הן שתיהן טכניקות למידת מכונות שלומדות באופן אוטונומי, ישנם כמה הבדלים," לדברי ד"ר קיהו לים, פרופסור למדעי המחשב באוניברסיטת וויליאם פטרסון בוויין, ניו ג'רזי. "למידת חיזוק היא למידה דינמית בשיטת ניסוי וטעייה כדי למקסם את התוצאה, בעוד שלימוד חיזוק עמוק הוא למידה מהידע הקיים ויישוםו על מערך נתונים חדש."

אבל מה, בדיוק, זה אומר? הלכנו למומחים - וביקשנו מהם לספק המון דוגמאות!

מהי למידת חיזוק?

כמו שאומר לימים, למידת חיזוק היא תרגול של למידה על ידי ניסוי וטעייה - ותרגול. "בדיסציפלינה זו, מודל לומד בפריסה בכך שהוא מתגמל באופן מצטבר על חיזוי נכון ונענש על תחזיות לא נכונות," על פי הונאיד המאמד, חניך מדעי נתונים בחברת Data Science Dojo ברדמונד, וושינגטון. (קריאת למידת חיזוק יכולה לתת ספין דינאמי נחמד לשיווק.)

"למידת חיזוק נראית בדרך כלל במשחקי AI ומשתפרת במשחק לאורך זמן."

שלושת המרכיבים החיוניים בלימוד חיזוק הם סוכן, פעולה ותגמול. "למידת חיזוק דבקה במתודולוגיה ספציפית וקובעת את האמצעים הטובים ביותר להשגת התוצאה הטובה ביותר", אומר ד"ר אנקור טלי, ראש מדעי הנתונים במעבדות כנר במאונטיין ויו, קליפורניה. "זה מאוד דומה למבנה האופן בו אנו משחקים משחק וידאו, בו הדמות (הסוכן) עוסקת בסדרת ניסויים (פעולות) כדי להשיג את הציון הגבוה ביותר (תגמול)."

עם זאת, זו מערכת הוראה עצמית אוטונומית. בעזרת הדוגמה של משחק הווידיאו, טלי אומרת כי תגמולים חיוביים עשויים להגיע כתוצאה מהגדלת הניקוד או הנקודות, ותגמולים שליליים עשויים לנבוע מהיתקל במכשולים או ביצוע מהלכים לא טובים.

כריס ניקולסון, מנכ"ל סן פרנסיסקו, סקימינד מבוסס קליפורניה, בונה את הדוגמא כיצד אלגוריתמים לומדים על ידי ניסוי וטעייה. "דמיין שאתה משחק לראשונה אחים סופר מריו, ומנסה לגלות כיצד לנצח: אתה חוקר את המרחב, אתה ברווז, קופץ, מכה במטבע, נוחת על צב ואז אתה רואה מה קורה. "

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אינך יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

על ידי למידת הפעולות הטובות והמעשים הרעים, המשחק מלמד אותך כיצד להתנהג. "למידת חיזוק עושה את זה בכל סיטואציה: משחקי וידאו, משחקי לוח, הדמיות של מקרי שימוש בעולם האמיתי." למעשה, ניקולסון אומר כי הארגון שלו משתמש בלימודי חיזוק והדמיות כדי לעזור לחברות להבין את דרך ההחלטה הטובה ביותר במצב מורכב.

בלמידת חיזוק, סוכן מקבל כמה החלטות קטנות יותר להשיג מטרה גדולה יותר. דוגמא נוספת היא לימוד רובוט ללכת. "במקום הוראות קידוד קשה להרים רגל אחת, לכופף את הברך, להניח אותה וכדומה. גישה למידה של חיזוק עשויה לבצע את ניסוי הרובוט עם רצפי תנועות שונים ולברר אילו שילובים הם המוצלחים ביותר בהפיכתו. התקדם קדימה, "אומר סטיבן ביילי, מדען נתונים ומומחה לכלי ניתוח באימוטה בקולג 'פארק.

מלבד משחקי וידאו ורובוטיקה, יש דוגמאות נוספות שיכולות לעזור להסביר כיצד למידת חיזוק עובדת. ברנדון הייני, מדען הנתונים הראשי ברחוב בבל בוושינגטון הבירה, משווה זאת ללמידה אנושית לרכוב על אופניים. "אם אתה נייח ומרים את הרגליים בלי לדווש, נפילה - או עונש - קרובה."

עם זאת, אם תתחיל לדווש, תישאר על האופניים - תגמול - ותתקדם למצב הבא.

"למידת חיזוק כוללת יישומים המשתרעים על כמה תחומים, כולל החלטות פיננסיות, כימיה, ייצור וכמובן רובוטיקה," אומרת היי.

מהו למידת חיזוק עמוק?

עם זאת, ייתכן שההחלטות יהפכו מורכבות מדי לגישת הלמידה המחוזקת. הייני אומר שזה יכול להיות מהמם עבור האלגוריתם ללמוד מכל המדינות ולקבוע את מסלול התגמול. "כאן למידה של חיזוק עמוק יכולה לסייע: החלק 'העמוק' מתייחס ליישום של רשת עצבית כדי להעריך את המדינות במקום להצטרך למפות כל פיתרון, ליצור מרחב פתרונות הניתן לניהול יותר בתהליך ההחלטה."

זה לא מושג חדש. הייני אומר שהוא קיים מאז שנות השבעים. "אך עם כניסת המחשוב הזול והחזק, היתרונות הנוספים של רשתות עצביות יכולים כעת לסייע בהתמודדות עם אזורים כדי להפחית את המורכבות של הפיתרון," הוא מסביר. (קרא מה ההבדל בין בינה מלאכותית לרשתות עצביות?)

אז איך זה עובד? לדברי פיטר מקנזי, צוות AI מוביל, אמריקה ב Teradata, זה מידע רב מדי לאחסון בטבלאות, ושיטות טבלאיות ידרשו מהסוכן לבקר בכל שילוב של מדינה ופעולה.

עם זאת, למידת חיזוק עמוק מחליפה שיטות טבליות להערכת ערכי המצב בקירוב פונקציות. "קירוב פונקציות לא רק מבטל את הצורך לאחסן את כל זוגות המצב והערך בטבלה, הוא מאפשר לסוכן להכליל את הערך של מצבים שמעולם לא ראתה מעולם, או יש לו מידע חלקי אודות, באמצעות ערכים של מצבים דומים," מקנזי אומר.

"חלק ניכר מההתקדמות המלהיבות בלימוד חיזוק עמוק נוצרו בגלל היכולת החזקה של רשתות עצביות להכליל בין מרחבים גדולים במדינה." ומקנזי מציינת שלימוד חיזוק עמוק שימש בתוכניות שזכו בכמה מהמתחרים האנושיים הטובים ביותר. במשחקים כמו שחמט וגו, ואחראים גם לרבים מההתקדמות ברובוטיקה. (קראו 7 מובילות נשים בתחומי AI, למידת מכונות ורובוטיקה.)

ביילי מסכים ומוסיף, "מוקדם יותר השנה, סוכן AI בשם AlphaStar גבר על שחקן StarCraft II הטוב בעולם - וזה מעניין במיוחד מכיוון שבניגוד למשחקים כמו שחמט וגו, שחקנים ב StarCraft לא יודעים מה היריב שלהם עושה." במקום זאת, הוא אומר שהם היו צריכים לבצע אסטרטגיה ראשונית ואז להסתגל כשהם מגלים מה מתכנן יריבם.

אבל איך זה אפילו אפשרי? אם לדגם יש רשת עצבית של יותר מחמש שכבות, חמד אומר שיש לו את היכולת לספק נתונים ממדיים גבוהים. "בשל כך, המודל יכול ללמוד לזהות דפוסים בפני עצמו מבלי שיהיה מהנדס אנושי באוצר ולבחור את המשתנים שצריך להזין למודל כדי ללמוד," הוא מסביר.

בתרחישים פתוחים אפשר לראות באמת את היופי של למידת חיזוק עמוקה. טלי משתמשת בדוגמה של הזמנת שולחן במסעדה או הזמנת הזמנה לפריט - מצבים בהם הסוכן צריך להגיב לכל קלט מהקצה השני.

"ניתן להשתמש בלמידה לחיזוק עמוק כדי להכשיר סוכן שיחה ישירות מאותו שמע או מהקצה השני", הוא אומר. "בעת שימוש באות שמע, הסוכן עשוי ללמוד ללמוד להרים רמזים עדינים בשמע כמו הפסקות, אינטונציה וכו '- זהו הכוח של למידת חיזוק עמוק."

ויישומים חדשים של למידת חיזוק עמוק ממשיכים להופיע. בקביעת הפעולה הבאה הטובה ביותר ליצירת קשר עם לקוח, MacKenzie אומר כי "המצב והפעולות עשויים לכלול את כל שילובי המוצרים, ההצעות וההודעות בכל הערוצים השונים, כאשר כל אחד מהם מותאם אישית - ניסוח, תמונות, צבעים, גופנים."

דוגמה נוספת היא אופטימיזציה של שרשרת האספקה, למשל, משלוח מוצרים מתכלים ברחבי ארה"ב. "המדינות האפשריות כוללות את המיקום הנוכחי של כל סוגי התחבורה השונים, המלאי בכל המפעלים, המחסנים ושקעי השיווק, ותחזית הביקוש לכל החנויות ", אומר מקנזי.

"שימוש בלמידה מעמיקה לייצוג המדינה ומרחב הפעולה מאפשר לסוכן לקבל החלטות לוגיסטיות טובות יותר המביאות למשלוחים בזמן יותר ובעלות נמוכה יותר."