בית חשיבה קדימה עוזרים נבונים: מה קורה אחרי סירי?

עוזרים נבונים: מה קורה אחרי סירי?

2024

עוזרים אינטליגנטים - סירי, גוגל עכשיו, קורטנה וכדומה - עברו מסקרנות וטריקי טרקלין לפני מספר שנים לכלים חיוניים שאנשים רבים משתמשים בהם בחיי היומיום שלהם. בשבוע שעבר נפלתי בכנס העוזרים האינטליגנטיים בניו יורק, שהוצג על ידי Opus Research והתרשמתי מההתקדמות שעושה התוכנה במגוון תעשיות, כולל ההתקדמות של חברות פיננסיות, ביטוחיות ורפואיות בבניית סוכנים ספציפיים..

מייסד חברת Opus Research, דן מילר, הסביר כי רבות מטכנולוגיות הליבה, כמו זיהוי דיבור, קיימות כבר למעלה מעשרים שנה. למרות שהוא ראה לאחרונה כמה שיפורים גדולים, ולא מהפכה, הוא אמר "אנחנו בדרך אבולוציונית", עם המון מוצרים על רצף עם יכולות שונות. הוא ציין כי ישנם מאות עוזרים אינטליגנטיים לארגון שניתן להשתמש בהם לשיחה פשוטה מבוססת טקסט באנגלית רגילה באמצעות מערך נתונים קבוע, ולדברים כמו ניווט באתר אינטרנט או שאלות נפוצות. בקצה השני של הספקטרום, יש כנראה רק כמה עשרות "אפליקציות דינאמיות, עם תחושה אנושית", שמודעות יותר לשיחות ולהקשר.

מילר הצביע על יישומים שזכו בפרסים בכנס. ג'ולי של אמטרק התחילה כסוכנת שירות טלפונית לתגובה קולית לפני שנים, אך כעת התפתחה לסוכן שעובד באתר האינטרנט כדי להדריך מטיילים דרך Amtrak.com, המבוסס על סוכן מטעם Next IT. בטלפוניקה מקסיקו יש סוכן בשם ניקו שיש לו אווטרה ומספק תמיכה גם באמצעות טוויטר ופייסבוק, המבוסס על הפלטפורמה של AgentBot. ל- ING הולנד יש את Inge, אפליקציה שמאפשרת לך לבדוק את יתרת חשבון הבנק שלך או להעביר כסף באמצעות קול באמצעות טכנולוגיה ביומטרית קולית מ- Nuance, כדי לאמת את זהותך.

אזכורים מכובדים כוללים יישומי בריאות, כמו אפליקציה שעוזרת לך לבחור תוכנית בריאות. אפליקציות אחרות ששמעתי עליהן בתכנית כוללות את דומינו'ס פיצה, שיש לה אפליקציה בשם Dom המאפשרת להשתמש בקול להזמנת פיצה; וב.מ.וו, שיש לה סוכן וירטואלי כחלק מזרוע המימון האוטומטי של Up2drive.

ברט ברנק של נונס, דיבר על כך שההתקדמות ברשתות עצביות למידה עמוקה שיפרה דברים כמו הבנת שפה טבעית כמו גם זיהוי קולי, וכיצד זה מתכנס כעת בכדי לאפשר התעניינות רבה יותר בתחום. העוזרת של נינה של נונס הייתה דוגמה מוקדמת, ומאז היא גדלה להרבה אפליקציות ספציפיות, החל ממערכות תגובה אינטראקטיביות בחברות ביטוח ועד אפליקציות קניות. לכל אחד מהיישומים הללו יש אישיות שונה, תלוי במה שהיא מנסה לעזור לכם.

פיצ'ר חדש אחד גדול עליו דן היה ביומטריה קולית, בה הקול שלך מחליף סיסמה. הוא דיבר על כך שחברות כמו ING באירופה מפתחות סוכנים שלא רק משתמשים בזיהוי קולי ובעיבוד שפה טבעית, אלא גם מתחילים להשתמש בקול כדי לזהות את האדם שמתקשר. הוא אמר שזה בטוח וגם יותר טבעי מסיסמא מסורתית.

בעוד שמחקרים אחרונים חששו כי הקלטות קוליות עלולות לשטות במערכות כאלה, נואנס ציין כי הטכנולוגיה של ימינו כוללת תכונות שמטרתן להרים חריגות מקולות שהוקלטו והצביעו על מחקרים אחרים שקיבלו נקודת מבט אחרת. מלבד זאת, לדבריו, מעצבים יכולים להשתמש ברמות שונות של ביומטריה קולית עבור פונקציות שונות, כגון שימוש בזיהוי פשוט כדי לבדוק איזון בחשבון, או לבקש ממך לחזור על רצף מילים אקראי להעברות כסף משמעותיות.

נראה כי ביומטריה קולית צוברת מעט מתיחה. בסימפוזיון גרטנר בשבוע שעבר, ישיבה בנושא "תיקי לקוחות מגניבים" בשירותים פיננסיים כללה אפליקציית Citibank שהשתמשה בתכונה זו.

ל- MyWave יש עוזר בשם פרנק שנועד להיות מאופשר על ידי עסקים מרובים כדי לאפשר לך ליצור איתם קשר בצורה יותר שיחה, במקום לגרום לכל עסק לפתח משלו. השימושים הראשונים כוללים בנק ניו זילנדי ואפליקציה בשם Saveawatt שנועדה לעזור לכם לבחור את ספק החשמל שלכם.

המנכ"לית ג'רלדין מקברייד הסבירה כי החברה מנסה ליצור עוזרים המגשרים על הפער בין לקוחות לאפליקציות שירות, עם מה שהיא מכנה "קשרים מנוהלים על ידי לקוחות" או CMR, ספין ביישומי CRM מסורתיים. הבדל אחד גדול, היא אמרה, הוא שהלקוח אחראי על כל הנתונים שלו ולא על העסק.

לחברה חדשה יחסית יחסית, Expect Labs יש מוצר בשם MindMeld שעובד כתמיכה עבור מספר חברות שרוצות להציע ממשק קולי להחלפת ממשקים מסורתיים וטיפול בשאלות ותשובות. זה יכול לשמש למגוון יישומים, כמו צפייה בתכניות טלוויזיה על ידי שאלת השם פשוט ושאילתת המערכת במספר מערכות. (ל- Fire TV של אמזון יש כמה מהתכונות הללו, אך אינו משולב בתיבת הכבלים שלך, בעוד שאחד המשקיעים ב- Expect Labs הוא חברת הכבלים Liberty Global.)

המנכ"ל טים טאטל הסביר כי MindMeld נוטה להשתמש בזיהוי הדיבור שכבר קיים ברוב המכשירים ובמקום זאת מתמקד בהבנת שפה טבעית ובבניית גרף ידע של המידע הזמין. לדבריו, המשרד מנסה להגדיל את המערכת כך שתכלול מידע נוסף ממספר מקורות, ולפרק את ההיררכיות של קטגוריות מידע שונות המהוות חלק ממרבית מערכות כאלה. הבנת שאלות באמת פירושה היכולת להבין כוונה במגוון קטגוריות, אמר.

דבר אחד ששמעתי ממספר המשתתפים היה סטטיסטיקות שמרמזות כי כעשרה אחוזים מכל החיפושים ברשת מתבצעים כעת באמצעות סוכני מודיעין. (חלוץ AI אנדרו נג אמר שזה נכון לחיפוש קולי בבאידו בשנה שעברה וכמה אנשים אמרו שזה נכון גם בגוגל, אבל לא שמעתי שום אישור ממקור ראשון.)

במבט קדימה, מילר המחקר של אופוס אמר שעדיין יש לעשות הרבה עבודה. לרמת הדיוק הבסיסית של המערכות יש מקום רב לשיפור, במיוחד במעבר מדברים שאתה אומר למה שאתה מתכוון למה לעשות כתוצאה מכך. הוא הזכיר שיחה של מנכ"ל חברת PARC, סטיבן הובר, בכנס, שאמר כי המערכות כיום מדויקות עד 90 אחוז מהבנת כוונתנו, אך 10 אחוזים הם עדיין בעיה מכיוון שזה מה שרוב האנשים זוכרים כשהם מתמודדים עם מערכת. ומילר אמר שיש מקום להתאמה אישית טובה יותר, כי אם המערכת יודעת עם מי היא מדברת, היא יכולה לתת תוצאות טובות יותר. למשל, הוא ציין שפייסבוק יודעת מי משתמש במערכת מכיוון שאתה מחובר; ואמר שלעשות זאת בצורה חלקה עם יותר סוכנים, תהיה חשובה יותר.

זו ללא ספק קטגוריה מרתקת, ואני משער שכולנו נבלה הרבה יותר זמן בשיחות עם הטלפונים והמחשבים שלנו, ושיחברנו עם סוכנים שאינם ממש אנושיים. אני מוצא את אחד המגמות המסקרנות ביותר בתחום המחשוב בימינו.