Publicado em: 14 de abril de 2025 / atualização de: 14 de abril de 2025 - Autor: Konrad Wolfenstein
Amazon apresenta Nova Sonic antes -Modelo de Idioma AI Progressivo
Conversas mais naturais graças à Nova Sonic da Amazon
Com o Nova Sonic, a Amazon apresenta um modelo de idioma AI avançado que permite uma melhor experiência do usuário através de sua padronização de entendimento e geração de idiomas. O resultado é mais fluido e conversas mais naturais com assistentes digitais. O Nova Sonic é caracterizado por reconhecimento preciso da fala, tempos de resposta rápida e adaptabilidade relacionada ao contexto e, portanto, compete diretamente com modelos como GPT-4O e Gêmeos.
Adequado para:
- Mini Robô Inovador da Samsung: Robô doméstico “Ballie Ai” faz com que o robô Astro da Amazon e a competição Enabot Ebo X
Novo processamento de idiomas por arquitetura unificada
Os sistemas de IA convencionais controlados por voz geralmente são baseados em uma combinação complexa de vários modelos separados: um para o reconhecimento de fala para converter a linguagem falada em texto, outro modelo de linguagem grande (LLM) para entender e gerar respostas e, finalmente, um modelo de texto em fala para converter o texto de volta em linguagem. Essa abordagem fragmentada não apenas leva a uma complexidade mais alta, mas também perde importantes nuances acústicas, como tom, prosódia e fala, essenciais para conversas naturais.
A Nova Sonic resolve esses problemas com uma abordagem fundamentalmente diferente: o modelo processa a linguagem nativa e combina a compreensão e a geração da linguagem em uma arquitetura uniforme. Essa padronização revolucionária permite que o sistema adapte a resposta de linguagem gerada ao contexto acústico e à entrada falada, o que leva a um diálogo significativamente mais natural.
API de streaming bidirecional para interações em tempo real
Um dos principais pontos fortes de Nova Sonic é a implementação de um novo tipo de API de streaming bidirecional, que é integrada no Amazon DAMPF. Esta API permite:
- Transmissão simultânea de conteúdo em ambas as direções
- Transmissão contínua de áudio do usuário para o modelo
- Processamento e geração da linguagem paralela
- Respostas do modelo em tempo real sem tempos de espera para declarações completas
A arquitetura segue um protocolo baseado em eventos no qual o cliente e o modelo trocam eventos JSON estruturados que controlam o ciclo de vida da sessão, o streaming de áudio, as palavras textantes e as interações de ferramentas. Essa capacidade em tempo real é crucial para baixa latência e comunicação interativa entre os usuários e o modelo de IA.
Entendimento para nuances naturais de conversa
Nova Sonic é particularmente caracterizado por sua profunda compreensão das nuances da comunicação humana. O modelo pode:
- Entenda pausas naturais e hesitação do orador
- Espere pela "hora certa" para respostas
- Processar interrupções elegantemente
- Considere a conversa apesar do barulho
Essas habilidades permitem um fluxo muito mais natural de conversa, no qual o modelo, por exemplo, absorve o tom, o ritmo e as nuances estilísticas do usuário e pode integrá -las à sua própria resposta.
Excelente desempenho em comparação com a competição
A Amazon posiciona Nova Sonic como líder na categoria Modelo de Idioma e sublinha essa reivindicação por vários resultados de referência em comparação com produtos concorrentes, como o OpenAis GPT-4O e o Gemini Flash 2.0 do Google.
Precisão de reconhecimento de fala superior
Nova Sonic demonstra impressionantes habilidades de reconhecimento de fala em diferentes idiomas e condições acústicas:
- Nos testes no conjunto de dados multilíngues da bibliotecia, o modelo alcançou uma taxa de erro de palavra (OMS) de apenas 4,2% em média em inglês, francês, italiano, alemão e espanhol
- Isso é 36,4% menor do que o do modelo de transcrição GPT-4O do OpenAI
- Nas gravações de áudio inglesas da interação aumentada de interação com vários partidos (AMI), que consiste em conversas reais e barulhentas com vários palestrantes, a Nova Sonic tem um parente de transcrição de 24,2% mais baixo que em comparação com o OpenAis GPT-4o Transcrib Model
- Nos testes em situações reais de reuniões, é 47% melhor no áudio em inglês do que o GPT-4o Transcribe
Baixa latência e alta eficiência de custos
Outra vantagem decisiva do Nova Sonic é a baixa latência e excelente desempenho de preços:
- A latência percebida pelo cliente é uma média de 1,09 segundos a partir do momento em que o usuário termina a conversa até o momento em que o sistema gera a resposta do primeiro idioma
- Em comparação, a latência do OpenAis GPT-4O (RealTime) é de 1,18 segundos e o Gemini Flash 2.0 do Google a 1,41 segundos
- De acordo com a Amazon, Nova Sonic é cerca de 80% mais barato que o OpenAis GPT-4O, o que o torna o modelo de idioma AI mais econômico do mercado
Em testes de comparação direta com modelos de idiomas em tempo real concorrentes, a Nova Sonic alcançou taxas impressionantes de vitória:
- Na saída de voz americana-inglesa com uma voz masculina, alcançou uma taxa de vitória de 51% em comparação com o GPT-4O e até 69,7% contra Gemini
- O modelo também cortou melhor no inglês britânico
Áreas versáteis de aplicação e integrações
A Nova Sonic foi projetada para uma ampla gama de aplicações e mostra um potencial especial em várias áreas.
Integração na paisagem do produto Amazon
A Amazon já integra a Nova Sonic ao seu ecossistema de produtos:
- Partes do modelo já são usadas no Alexa+, o melhor assistente de voz digital da Amazon,
- O modelo está disponível na Amazon Dongonk, a plataforma de desenvolvedor da Amazon para aplicativos corporativos da ACI
- Ele se baseia na experiência da Amazon em grandes sistemas de orquestração que formam o andaime técnico do Alexa
Uso inteligente da ferramenta e fluxos de trabalho agênticos
Uma das habilidades excelentes de Nova Sonic é o uso inteligente de ferramentas e serviços externos:
- O modelo suporta ferramentas para aplicativos nos quais as respostas aos dados da empresa devem se basear, como planos de preços, inventário disponível e disponibilidade
- Ele pode encaminhar consultas de usuário para diferentes APIs para acessar informações da Internet em tempo real, analisar fontes de dados proprietárias ou agir em aplicativos externos
- Nova Sonic pode resolver consultas complexas de clientes e executar tarefas em nome do cliente, como "Encontre uma reserva" ou "Encontre vôos alternativos"
- Ele também suporta a geração aumentada de recuperação (RAG) para ancoragem em dados corporativos
Usos cruzados -industriais
Nova Sonic é adequado para uma variedade de aplicações em vários setores:
- Automação de chamadas de clientes em contact centers
- Agentes de IA em áreas como viagens, educação, assistência médica e entretenimento
- Educação interativa e aprendizado de idiomas
- Sistemas de marketing de saída e assistência pessoal
Várias empresas já começaram a usar o Nova Sonic:
- ASAPP usa o modelo para seu agente generativo, um alto -falante de IA generativo totalmente conversível para contact centers
- A educação primeiro (EF) usa o Nova Sonic para permitir que os alunos pratiquem novo vocabulário e melhorem sua pronúncia em um ambiente de aprendizado dinâmico
- O desempenho das estatísticas usa o sistema para análise de dados esportivos
Disponibilidade e especificações técnicas
Nova Sonic está agora disponível pela Amazon Fedrock, na região da AWS, no leste dos EUA (N. Virginia). O modelo suporta atualmente:
- Três vozes expressivas, incluindo vozes que estão solitando masculino e feminino que estão disponíveis em inglês
- Geração de idiomas em vários sotaques ingleses, incluindo americanos e britânicos
- O suporte a outros idiomas e sotaques deve seguir em breve
O modelo foi desenvolvido com o desenvolvimento responsável de IA em mente e integrou medidas de proteção, como moderação de conteúdo e marca d'água. A Amazon também fornece cartões de serviço da AWS AI que descrevem os aplicativos, restrições e práticas responsáveis de IA do modelo.
Um passo significativo no desenvolvimento de assistentes de voz
Com o Nova Sonic, a Amazon fez um progresso significativo no desenvolvimento de modelos de idiomas de IA. A arquitetura padronizada para compreensão e geração de idiomas supera as restrições às abordagens fragmentadas convencionais e permite sistemas de diálogo mais naturais e sensíveis ao contexto. A excelente precisão de reconhecimento de fala, baixa latência e eficiência de custos Nova Sonic como um concorrente sério para estabelecer modelos como GPT-4O e Gêmeos.
A integração no ecossistema de produtos da Amazon, especialmente no Alexa+, indica que a empresa está buscando grandes ambições no campo da inteligência geral artificial (AGI). Com a capacidade de usar ferramentas externas e interagir com os dados da empresa, a Nova Sonic oferece oportunidades promissoras para empresas de vários setores, do atendimento ao cliente à educação e à saúde.
Enquanto o inglês é atualmente apoiado principalmente, a expansão anunciada para outros idiomas e sotaques deve aumentar a aplicabilidade global do modelo no futuro. O Nova Sonic marca um passo importante na evolução dos assistentes digitais, que muitas vezes foram vistos como rígidos e antinaturais no passado, em direção a sistemas de diálogo significativamente mais naturais e semelhantes a humanos.
Adequado para:
Sua transformação de IA, integração de IA e especialista do setor de plataforma de IA
☑️ Nosso idioma comercial é inglês ou alemão
☑️ NOVO: Correspondência em seu idioma nacional!
Ficarei feliz em servir você e minha equipe como consultor pessoal.
Você pode entrar em contato comigo preenchendo o formulário de contato ou simplesmente ligando para +49 89 89 674 804 (Munique) . Meu endereço de e-mail é: wolfenstein ∂ xpert.digital
Estou ansioso pelo nosso projeto conjunto.