Blog  

בחירת קול 📢


אמזון נובה סוניק: מודל שפת AI חדש למערכות דיאלוג טבעיות יותר

פורסם ב: 14 באפריל 2025 / עדכון מ: 14 באפריל 2025 - מחבר: קונרד וולפנשטיין

אמזון נובה סוניק: מודל שפת AI חדש למערכות דיאלוג טבעיות יותר

אמזון נובה סוניק: מודל שפת AI חדש למערכות דיאלוג טבעיות יותר

אמזון מציגה את נובה סוניק לפני -מודל שפת AI מתקדמת

שיחות טבעיות נוספות בזכות נובה סוניק של אמזון

עם נובה סוניק, אמזון מציגה מודל שפת AI מתקדם המאפשר שיפור חוויית המשתמש באמצעות סטנדרטיזציה של ההבנה וייצור השפה. התוצאה היא שיחות נזילות יותר, טבעיות יותר עם עוזרים דיגיטליים. נובה סוניק מאופיינת בזיהוי דיבור מדויק, זמני תגובה מהירים ויכולת הסתגלות הקשורה להקשר ובכך מתחרה ישירות עם מודלים כמו GPT-4O ו- Gemini.

מתאים לכך:

עיבוד שפה חדש על ידי ארכיטקטורה מאוחדת

מערכות AI מבוקרות קוליות קונבנציונאליות מבוססות בדרך כלל על שילוב מורכב של מספר מודלים נפרדים: האחד לזיהוי דיבור כדי להמיר שפה מדוברת לטקסט, מודל שפה גדול נוסף (LLM) להבנה ויצירת תשובות, ולבסוף מודל טקסט לדיבור להמרת הטקסט לשפה. גישה מקוטעת זו לא רק מובילה למורכבות גבוהה יותר, אלא גם מאבדת ניואנסים אקוסטיים חשובים כמו טון, פרודיה ודיבור, החיוניים לשיחה טבעית.

נובה סוניק פותרת בעיות אלה בגישה שונה ביסודה: המודל מעבד שפה יליד ומשלב הבנת שפה ודור בארכיטקטורה אחידה. סטנדרטיזציה מהפכנית זו מאפשרת למערכת להתאים את תגובת השפה שנוצרה להקשר האקוסטי ולקלט המדובר, מה שמוביל לדיאלוג טבעי יותר באופן משמעותי.

API לזרם דו כיווני לאינטראקציות בזמן אמת

אחת מעוצמות הליבה של נובה סוניק היא יישום סוג חדש של API לסטרימינג דו כיווני, המשולב באמזון DAMPF. ממשק API זה מאפשר:

  • הזרמת תוכן סימולטנית בשני הכיוונים
  • העברת שמע רציפה מהמשתמש לדגם
  • עיבוד שפה מקבילה ודור
  • תשובות מודל בזמן אמת ללא זמני המתנה להצהרות שלמות

הארכיטקטורה עוקבת אחר פרוטוקול מבוסס אירועים בו הלקוח והמודל מחליפים אירועי JSON מובנים השולטים במחזור חיי ההפעלה, הזרמת שמע, מילות טקסטנט ואינטראקציות כלים. יכולת בזמן אמת זה מכריעה לתקשורת נמוכה ותקשורת אינטראקטיבית בין משתמשים למודל AI.

הבנה לניואנסים טבעיים של שיחה

נובה סוניק מאופיינת במיוחד בהבנתו העמוקה של הניואנסים של התקשורת האנושית. הדגם יכול:

  • להבין הפסקות טבעיות והיסוסו של הדובר
  • המתן ל"זמן הנכון "לתשובות
  • הפרעות מעבד באלגנטיות
  • שקול את השיחה למרות הרעש

מיומנויות אלה מאפשרות זרימת שיחה טבעית בהרבה בה הדגם, למשל, סופג ניואנסים, קצב וסגנוני של המשתמש ויכול לשלב אותם בתשובה שלו.

ביצועים מצטיינים בהשוואה לתחרות

אמזון מציבה את נובה סוניק כמובילה בקטגוריית מודל השפה ומדגישה טענה זו על ידי תוצאות מדד שונות בהשוואה למוצרים מתחרים כמו OpenAIS GPT-4O ו- Gemini Flash 2.0 של גוגל.

דיוק זיהוי דיבור מעולה

נובה סוניק מדגימה יכולות זיהוי דיבור מרשימות בשפות שונות ותנאים אקוסטיים:

  • במבחנים במערך הנתונים של רב -לשוני של ליבוי, המודל השיג שיעור שגיאות מילים (WHO) של 4.2% בלבד בממוצע על פני אנגלית, צרפתית, איטלקית, גרמנית וספרדית
  • זה נמוך ב -36.4% מאלו של דגם התמלול GPT-4O מ- Openai
  • בהקלטות שמע באנגלית מתוך מדד המפגש עם האינטראקציה המוגברת רב-מפלגתית (AMI), המורכבת משיחות אמיתיות ורועשות עם כמה דוברים, נובה סוניק יש קרוב משפחה של 24.2%, שהשוואה למודל OpenAIS GPT-4O
  • במבחנים במצבי מפגש אמיתיים, זה טוב יותר ב -47% בשמע בשפה האנגלית מאשר GPT-4O Transcribe

חביון נמוך ויעילות עלות גבוהה

יתרון מכריע נוסף של נובה סוניק הוא החביון הנמוך וביצועי המחיר המצוינים:

  • החביון הנתפס על ידי הלקוח הוא בממוצע 1.09 שניות מהזמן בו המשתמש מסיים את השיחה עד הזמן בו המערכת מייצרת את תגובת השפה הראשונה
  • לשם השוואה, החביון של OpenAIS GPT-4O (בזמן אמת) הוא 1.18 שניות וגוגל Gemini Flash 2.0 ב 1.41 שניות
  • לדברי אמזון, נובה סוניק זולה בכ- 80% מ- OpenAIS GPT-4O, מה שהופך אותו למודל השפה AI החסכוני ביותר בשוק

במבחני השוואה ישירה עם מודלים מתחרים בזמן אמת, נובה סוניק השיגה שיעורי ניצחון מרשימים:

  • בתפוקת קול אמריקאית-אנגלית עם קול גברי, הוא השיג שיעור מנצח של 51% בהשוואה ל- GPT-4O ואפילו 69.7% מול תאומים
  • הדגם גם מנותק טוב יותר באנגלית בריטית

אזורים רב -תכליתיים של יישומים ושילובים

נובה סוניק תוכנן למגוון רחב של יישומים ומציגה פוטנציאל מיוחד באזורים שונים.

שילוב בנוף המוצר של אמזון

אמזון כבר משלבת את נובה סוניק במערכת האקולוגית של המוצר שלה:

  • חלקים מהדגם משמשים כבר ב- Alexa+, עוזר הקול הדיגיטלי המשופר של אמזון,
  • הדגם זמין באמזון דונגונק, פלטפורמת המפתחים של אמזון ליישומי ACI ארגוניים
  • זה בונה על המומחיות של אמזון במערכות תזמור גדולות המהווים פיגומים טכניים של אלקסה

שימוש בכלי אינטליגנטי וזרימות עבודה סוכנות

אחד המיומנויות המצטיינות של נובה סוניק הוא שימוש חכם בכלים ושירותים חיצוניים:

  1. המודל תומך בכלים ליישומים בהם יש לבסס התשובות לנתוני החברה, כגון תוכניות תמחור, מלאי זמין וזמינות
  2. זה יכול להעביר פניות משתמשים לממשקי API שונים על מנת לגשת למידע מהאינטרנט בזמן אמת, לנתח מקורות נתונים קנייניים או לפעול ביישומים חיצוניים
  3. נובה סוניק יכולה לפתור פניות לקוחות מורכבות ולבצע משימות מטעם הלקוח, כגון "מצא הזמנה" או "למצוא טיסות אלטרנטיביות"
  4. זה תומך גם בדור מוגבר לאחזור (סמרטוט) לעיגון בנתונים ארגוניים

שימושים חוצים -תעשייתיים

נובה סוניק מתאימה למגוון יישומים בענפים שונים:

  • אוטומציה של שיחות לקוחות במרכזי קשר
  • סוכני AI בתחומים כמו נסיעות, חינוך, שירותי בריאות ובידור
  • חינוך אינטראקטיבי ולמידה בשפה
  • מערכות שיווק וסיוע אישי יוצאות

כמה חברות כבר החלו להשתמש בנובה סוניק:

  • ASAPP משתמשת במודל עבור הסוכן הגנריטי שלו, רמקול AI דנאי מנחה לחלוטין למרכזי קשר
  • חינוך ראשון (EF) משתמש בנובה סוניק כדי לאפשר לתלמידים לתרגל אוצר מילים חדש ולשפר את ההגייה שלהם בסביבת למידה דינאמית
  • הסטטיסטיקה מבצעת משתמשת במערכת לניתוח נתוני ספורט

זמינות ומפרטים טכניים

נובה סוניק זמינה כעת דרך אמזון פדרוק באזור AWS במזרח ארה"ב (נ 'וירג'יניה). הדגם תומך כיום:

  • שלושה קולות אקספרסיביים, כולל קולות נשמעים גברים ונשים כאחד הזמינים באנגלית
  • דור שפות במבטאים אנגלים שונים, כולל אמריקאים ובריטים
  • התמיכה בשפות ומבטאים נוספים צריכה לעקוב בקרוב

המודל פותח תוך התחשבות בפיתוח AI אחראי ושילב אמצעי הגנה כמו מתינות תוכן וסימן מים. אמזון מספקת גם כרטיסי שירות של AWS AI המתארים את היישומים, ההגבלות ואת נוהלי ה- AI האחראיים של המודל.

צעד משמעותי בפיתוח עוזרי קול

עם נובה סוניק, אמזון התקדמה משמעותית בפיתוח מודלים של שפת AI. הארכיטקטורה הסטנדרטית להבנת שפה ודור מתגברת על הגבלות על גישות מקוטעות קונבנציונאליות ומאפשרת מערכות דיאלוג טבעיות יותר, רגישות להקשר. דיוק זיהוי הדיבור המצטיין, חביון נמוך ויעילות עלות מיקום נובה סוניק כמתחרה רציני להקמת דגמים כמו GPT-4O ו- Gemini.

האינטגרציה במערכת האקולוגית של המוצר של אמזון, במיוחד ב- Alexa+, מצביעה על כך שהחברה רודפת אחר שאיפות גדולות בתחום האינטליגנציה הכללית המלאכותית (AGI). עם היכולת להשתמש בכלים חיצוניים ולקיים אינטראקציה עם נתוני החברה, נובה סוניק מציעה הזדמנויות מבטיחות לחברות בענפים שונים, החל משירות לקוחות לחינוך ועד שירותי בריאות.

בעוד שאנגלית נתמכת כיום בעיקר, ההתרחבות המוצהרת לשפות ומבטאים אחרים צריכה להגדיל את תחולתו הגלובלית של המודל בעתיד. נובה סוניק מסמנת צעד חשוב בהתפתחותם של עוזרים דיגיטליים, שלעתים קרובות נתפסו כנוקשים ולא טבעיים בעבר, לקראת מערכות דיאלוג טבעיות יותר ואנושיות יותר.

מתאים לכך:

 

טרנספורמציית AI שלך, שילוב AI ומומחה לתעשיית הפלטפורמה AI

☑️ השפה העסקית שלנו היא אנגלית או גרמנית

☑️ חדש: התכתבויות בשפה הלאומית שלך!

 

חלוץ דיגיטלי - קונראד וולפנשטיין

קונרד וולפנשטיין

אני שמח להיות זמין לך ולצוות שלי כיועץ אישי.

אתה יכול ליצור איתי קשר על ידי מילוי טופס יצירת הקשר או פשוט להתקשר אליי בטלפון +49 89 674 804 (מינכן) . כתובת הדוא"ל שלי היא: וולפנשטיין xpert.digital

אני מצפה לפרויקט המשותף שלנו.

 

 

☑️ תמיכה ב- SME באסטרטגיה, ייעוץ, תכנון ויישום

☑️ יצירה או התאמה מחדש של אסטרטגיית AI

פיתוח עסקי חלוץ


Blog