מה ההבדל בין דיבור לטקסט וצ'אט בוטים?

תוֹכֶן

ש:

מה ההבדל בין דיבור ל- chatbots?

ת:

ההבדלים המשמעותיים הרבים בין דיבור לטכנולוגיות צ'אט בוטים הם חלק ממה שנבדק בהתפתחות המהירה של פרויקטים צ'אט-בוט וקולי קולות.

דיבור לטכנולוגיה הוא פשוט כזה שממיר דיבור מילולי בדף דיגיטלי. זו התפקיד המלא שלה, אבל זה לא פשוט לעיצוב. כדי להמיר דיבור מילולי, הטכנולוגיה צריכה לפרק מילים ומשפטים לפונמות בודדות ולעבוד איתם על פי אלגוריתמים מורכבים כדי ליצור מדויק ומייצג את מה שהדובר אמר.

לעומת זאת, צ'אט בוטים הם טכנולוגיות שמשיגות את המטרה של תקשורת עם אדם. ישנם שני סוגים של צ'אט בוטים: צ'אט בוטים וקולי קולות. צ'אט בוטים היו הרבה יותר זמן, מכיוון שהם אינם זקוקים לאלמנט הדיבור-אל-שיכול להשתמש בו.

ההבדל העיקרי בין דיבור לטכנולוגיות וצ'אט בוטים הוא היקף. כאמור, כל הדיבור לטכנולוגיה שצריך לעשות זה לתמלל את הדיבור המילולי. לעומת זאת, הצ'ט-בוט צריך לנאום בכל צורה שנועדה, להבין אותו ולספק תגובות המבקשות לעבור את מבחן טיורינג - המבחן האם טכנולוגיה יכולה להטעות את האדם במחשבה שהוא או היא מדבר עם אדם אחר.

עם זאת בחשבון, הרבה יותר קל ליצור קובצי צ'אט מאשר באמצעות קולי קולי. צ'אט בוט לוקח את בני האדם ומספק מענה. אפילו צ'אט בוטים יחסית יחסית הצליחו לספק תוצאות מעניינות ומהנות לבני אדם מאז סוף שנות השמונים ותחילת שנות התשעים.

מאידך הקולי, לעומת זאת, צריך לקחת דיבור מילולי, להמיר אותו, לבדוק אותו לדיוק, לייצר תגובה ולבנות את התגובה הזו משפת מכונה לדיבור נשמע. מספר גדול זה של משימות משמעותיות למדי פירושו שהקולי קולי לוקח הרבה כוח מחשוב והרבה עיצוב לבנות.

פרויקטים כמו סירי, קורטנה ואלכסה מדגימים חלק מהחלל של טכנולוגיות ה- Voicebot. הם גם ממחישים שהטכנולוגיה הזו עדיין בחיתוליה. למרות שאלכסה וטכנולוגיות אחרות יכולות להגיב מילולית לדיבור אנושי, הן אינן מסוגלות במיוחד במובן זה שאנו מקשרים לדיבור אנושי מילולי בכלל. במילים אחרות, יש לא מעט מגבלות לתגובות הטכנולוגיות הללו יכולות לספק. יש אפילו יכולת מוגבלת של דור העוזרים האישיים של ימינו להפיק דיבור באמת, למשל, למטרות תעתיק או עזרה למישהו לכתוב מאמר מבלי להשתמש בידיים. כמה מתכניות הדיבור-אל הספציפיות בשוק עושים זאת טוב יותר מסירי או קורטנה, ככל הנראה בגלל הקצאת המשאבים. עם זאת, ישנם סימנים לכך שההתקדמות הקולית של הרשת הקולית תתחיל בקרוב - כמו פלטפורמת Amazons Lex המאפשרת סביבת סטודיו לבניית סוגים אלה של טכנולוגיות.

במאמר חכם ומלמד בנושא, טוביאס גבל מדבר על ההבדל בין טכנולוגיות אלה, מנוגד לתהליך "התמלול", מה הדיבור לעשות, לתפקיד ההבנה, מה צ'אט בוטים אמורים לעשות.

"אמנם ביטול הצורך בזיהוי דיבור מקל על צ'אט בוט, האתגר העיקרי לבנות בוטים מתפקדים טמון בהבנת השפה הטבעית", כותב גבל.

גבל מזהה גם רבים מהשחקנים הנוכחיים בענף:

מובילת השוק לזיהוי דיבור היא Nuance העומדת מאחורי מערכות ידועות כמו Dragon Naturally מדברים על תכתיב במחשב האישי, שקיים מאז שנות התשעים, אך גם סירי: משימת זיהוי / תעתיק דיבור שנערכה בענן אפל משתמשת טכנולוגיית ניואנס מאחורי הקלעים. אחרים הם LumenVox, Verbio, או אינטראקציות, אך זיהוי דיבור מוצע כעת גם כשירות ענן דרך APIs על ידי אוהבי אמזון, גוגל, מיקרוסופט ו- IBM.

עם התפתחות צ’אט-בוטים, ההנחה היא שההבנה שלהם תמשיך להתגבר על מסלול מסוים - וגם ההנחה היא ברובה שטכנולוגיית בוט נוספת תעבור מממשקים לממשקים מילוליים, ותדרוש כמויות נוספות של כוח מחשוב.