Selección de voz 📢


Amazon Nova Sonic: un nuevo modelo de lenguaje de IA para sistemas de diálogo más naturales

Publicado el 14 de abril de 2025 / Actualización del: 14 de abril de 2025 - Autor: Konrad Wolfenstein

Amazon Nova Sonic: un nuevo modelo de lenguaje de IA para sistemas de diálogo más naturales

Amazon Nova Sonic: un nuevo modelo de lenguaje de IA para sistemas de diálogo más naturales

Amazon presenta el modelo de lenguaje AI Nova Sonic antes de la IA progresiva

Conversaciones más naturales gracias a Nova Sonic de Amazon

Con Nova Sonic, Amazon presenta un modelo de lenguaje AI avanzado que permite una mejor experiencia del usuario a través de su estandarización de la comprensión y la generación de idiomas. El resultado son conversaciones más fluidas y más naturales con asistentes digitales. Nova Sonic se caracteriza por un reconocimiento de voz preciso, tiempos de respuesta rápidos y adaptabilidad relacionada con el contexto y, por lo tanto, compite directamente con modelos como GPT-4O y Gemini.

Adecuado para:

Nuevo procesamiento del lenguaje por arquitectura unificada

Los sistemas de IA controlados por voz convencionales generalmente se basan en una combinación compleja de varios modelos separados: uno para el reconocimiento de voz para convertir el lenguaje hablado en texto, otro modelo de lenguaje grande (LLM) para comprender y generar respuestas, y finalmente un modelo de texto a voz para convertir el texto nuevamente en lenguaje. Este enfoque fragmentado no solo conduce a una mayor complejidad, sino que también pierde importantes matices acústicos como el tono, la prosodia y el habla, que son esenciales para la conversación natural.

Nova Sonic resuelve estos problemas con un enfoque fundamentalmente diferente: el modelo procesa el lenguaje nativo y combina la comprensión del lenguaje y la generación en una arquitectura uniforme. Esta estandarización revolucionaria permite que el sistema adapte la respuesta del lenguaje generada al contexto acústico y la entrada hablada, lo que conduce a un diálogo significativamente más natural.

API de transmisión bidireccional para interacciones en tiempo real

Una de las fortalezas centrales de Nova Sonic es la implementación de un nuevo tipo de API de transmisión bidireccional, que está integrada en Amazon DAMPF. Esta API habilita:

  • Transmisión simultánea de contenido en ambas direcciones
  • Transmisión de audio continua del usuario al modelo
  • Procesamiento y generación del lenguaje paralelo
  • Respuestas del modelo en tiempo real sin tiempos de espera para declaraciones completas

La arquitectura sigue un protocolo basado en eventos en el que el cliente y el modelo intercambian eventos JSON que controlan el ciclo de vida de la sesión, la transmisión de audio, las palabras textantes y las interacciones de herramientas. Esta capacidad en tiempo real es crucial para la baja latencia y la comunicación interactiva entre los usuarios y el modelo AI.

Comprensión de los matices naturales de la conversación

Nova Sonic se caracteriza particularmente por su profunda comprensión de los matices de la comunicación humana. El modelo puede:

  • Comprender los descansos naturales y la duda del orador
  • Espere el "momento adecuado" para respuestas
  • Interrupciones de proceso elegante
  • Considere la conversación a pesar del ruido

Estas habilidades permiten un flujo de conversación mucho más natural en el que el modelo, por ejemplo, absorbe el tono, el ritmo y los matices estilísticos del usuario y pueden integrarlos en su propia respuesta.

Rendimiento sobresaliente en comparación con la competencia

Amazon posiciona a Nova Sonic como líder en la categoría de modelo de idioma y subraya esta afirmación por varios resultados de referencia en comparación con productos competitivos como OpenAIS GPT-4O y Gemini Flash 2.0 de Google.

Precisión superior de reconocimiento de voz

Nova Sonic demuestra impresionantes habilidades de reconocimiento de voz en diferentes idiomas y condiciones acústicas:

  • En las pruebas en el conjunto de datos multilingües de Librispeech, el modelo logró una tasa de error de palabras (OMS) de solo 4.2% en promedio sobre inglés, francés, italiano, alemán y español
  • Esto es 36.4% más bajo que el del modelo de transcripción GPT-4O de OpenAI
  • En grabaciones de audio en inglés de la interacción de múltiples fiestas aumentadas (AMI) de referencia de reunión de reuniones, que consiste en conversaciones reales y ruidosas con varios oradores, Nova Sonic tiene un pariente 24.2% más bajo que comparó con el modelo de transcripción de OpenAIS GPT-4O
  • En las pruebas en situaciones de reuniones reales, es un 47% mejor en audio en inglés que la transcripción de GPT-4O

Baja latencia y alta eficiencia rentable

Otra ventaja decisiva de Nova Sonic es la baja latencia y el excelente rendimiento del precio:

  • La latencia percibida por el cliente es un promedio de 1.09 segundos desde el momento en que el usuario finaliza la conversación hasta el momento en que el sistema genera la primera respuesta del idioma
  • En comparación, la latencia de OpenAIS GPT-4O (TIEMPO REAL) es de 1.18 segundos y Gemini Flash 2.0 de Google a 1.41 segundos
  • Según Amazon, Nova Sonic es aproximadamente un 80% más barato que OpenAIS GPT-4O, lo que lo convierte en el modelo de idioma IA más rentable en el mercado

En pruebas de comparación directa con modelos de idiomas en tiempo real en competencia, Nova Sonic logró tasas de victoria impresionantes:

  • En la producción de voz en inglés inglés con voz masculina, logró una tasa ganadora del 51% en comparación con GPT-4O e incluso el 69.7% contra Gemini
  • El modelo también se corta mejor en inglés británico

Áreas versátiles de aplicación e integraciones

Nova Sonic fue diseñado para una amplia gama de aplicaciones y muestra un potencial especial en varias áreas.

Integración en el panorama de productos de Amazon

Amazon ya integra Nova Sonic en su ecosistema de productos:

  • Las partes del modelo ya se usan en Alexa+, el asistente de voz digital mejorado de Amazon,
  • El modelo está disponible en Amazon Dongonk, la plataforma de desarrolladores de Amazon para aplicaciones ACI corporativas
  • Se basa en la experiencia de Amazon en grandes sistemas de orquestación que forman el andamio técnico de Alexa

Uso inteligente de herramientas y flujos de trabajo de agente

Una de las habilidades sobresalientes de Nova Sonic es el uso inteligente de herramientas y servicios externos:

  1. El modelo admite herramientas para aplicaciones en las que se deben basar las respuestas a los datos de la compañía, como los planes de precios, el inventario disponible y la disponibilidad
  2. Puede reenviar las consultas de los usuarios a diferentes API para acceder a la información de Internet en tiempo real, para analizar fuentes de datos propietarias o actuar en aplicaciones externas
  3. Nova Sonic puede resolver consultas complejas de clientes y realizar tareas en nombre del cliente, como "encontrar una reserva" o "encontrar vuelos alternativos"
  4. También admite la generación aumentada de recuperación (RAG) para el anclaje en datos corporativos

Usos cruzados

Nova Sonic es adecuada para una variedad de aplicaciones en diversas industrias:

  • Automatización de llamadas de clientes en centros de contacto
  • Agentes de IA en áreas como viajes, educación, atención médica y entretenimiento
  • Educación interactiva y aprendizaje de idiomas
  • Sistemas de marketing y asistencia personal de salida

Varias compañías ya han comenzado a usar Nova Sonic:

  • ASAPP utiliza el modelo para su agente generativo, un altavoz de IA generativo totalmente conversable para centros de contacto
  • La educación primero (EF) utiliza Nova Sonic para permitir a los estudiantes practicar nuevos vocabulario y mejorar su pronunciación en un entorno de aprendizaje dinámico
  • Las estadísticas realizan el sistema para el análisis de datos deportivos

Disponibilidad y especificaciones técnicas

Nova Sonic ahora está disponible a través de Amazon Fedrock en la región de AWS de US East (N. Virginia). El modelo actualmente es compatible:

  • Tres voces expresivas, incluidas las voces que se encuentran en inglés tanto masculinas como femeninas que están disponibles en inglés.
  • Generación de idiomas en varios acentos en inglés, incluidos los estadounidenses y británicos
  • El apoyo para otros idiomas y acentos debe seguir en breve

El modelo se desarrolló con el desarrollo de IA responsable en mente y ha integrado medidas de protección, como la moderación de contenido y la marca de agua. Amazon también proporciona tarjetas de servicio AWS AI que describen las aplicaciones, las restricciones y las prácticas de IA responsables del modelo.

Un paso significativo en el desarrollo de asistentes de voz

Con Nova Sonic, Amazon ha hecho un progreso significativo en el desarrollo de modelos de idiomas de IA. La arquitectura estandarizada para la comprensión del lenguaje y la generación supera las restricciones en los enfoques fragmentados convencionales y permite sistemas de diálogo más naturales y sensibles al contexto. La precisión del reconocimiento de voz sobresaliente, la baja latencia y la posición de rentabilidad Nova Sonic como un competidor serio para establecer modelos como GPT-4O y Gemini.

La integración en el ecosistema de productos de Amazon, especialmente en Alexa+, indica que la compañía está buscando grandes ambiciones en el campo de la inteligencia general artificial (AGI). Con la capacidad de usar herramientas externas e interactuar con los datos de la compañía, Nova Sonic ofrece oportunidades prometedoras para empresas en diversas industrias, desde el servicio al cliente hasta la educación hasta la salud.

Si bien el inglés actualmente es compatible principalmente, la expansión anunciada a otros idiomas y acentos debería aumentar la aplicabilidad global del modelo en el futuro. Nova Sonic marca un paso importante en la evolución de los asistentes digitales, que a menudo han sido percibidos como rígidos y antinaturales en el pasado, hacia sistemas de diálogo significativamente más naturales y humanos.

Adecuado para:

 

Su transformación de IA, integración de IA y experto en la industria de la plataforma de IA

☑️ Nuestro idioma comercial es inglés o alemán.

☑️ NUEVO: ¡Correspondencia en tu idioma nacional!

 

Pionero digital - Konrad Wolfenstein

Konrad Wolfenstein

Estaré encantado de servirle a usted y a mi equipo como asesor personal.

Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein xpert.digital

Estoy deseando que llegue nuestro proyecto conjunto.

 

 

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación.

☑️ Creación o realineación de la estrategia de IA

☑️ Desarrollo empresarial pionero


⭐️ Inteligencia artificial (IA): blog de IA, punto de acceso y centro de contenido ⭐️ XPaper