Seleção de voz 📢


Para robôs e outros agentes da IA: o modelo Ai V-Jepa 2 de Meta-The-IA que entende nosso mundo físico

Publicado em: 13 de junho de 2025 / atualização de: 13 de junho de 2025 - Autor: Konrad Wolfenstein

Para robôs e outros agentes da IA: o modelo Ai V-Jepa 2 de Meta-The-IA que entende nosso mundo físico

Para robôs e outros agentes da IA: o modelo AI V-Jepa 2 de Meta-The-IA que entende nossa imagem física: xpert.digital

Meta apresenta V-Jepa 2: o sistema de IA aprende previsões sobre o mundo físico

Meta publica V-Jepa 2: Um modelo revolucionário de IA World para o futuro da inteligência artificial

Com o V-Jepa 2, a Meta apresentou um sistema inovador de IA que adota uma abordagem fundamental do que os grandes modelos convencionais de voz. O modelo mundial forte de 1,2 bilhão de parâmetros foi desenvolvido para ajudar os robôs e outros agentes da IA ​​a entender o mundo físico e prever como ele reagirá às suas ações.

O que é o V-Jepa 2 e como difere dos modelos de voz?

O V-Jepa 2 significa “Arquitetura preditiva de incorporação de video conjunto 2” e é baseada em uma arquitetura completamente diferente dos modelos de voz tradicionais. Embora modelos de voz como ChatGPT ou GPT-4 façam previsões probabilísticas sobre sequências de texto, o V-Jepa 2 funciona em uma sala de representação abstrata e se concentra na compreensão das leis físicas.

A diferença decisiva está no método de aprendizado: os modelos de idiomas requerem grandes quantidades de dados e aprendizagem rotulados por meio de treinamento monitorado. O V-Jepa 2, por outro lado, usa aprendizado auto-monitorado e extração de conhecimento de vídeos não presos, o que reduz significativamente os custos para a preparação dos dados. O modelo não aprende através da reconstrução do Pixel, mas através de representações abstratas do conteúdo do vídeo.

A arquitetura JEPA: Aprendizagem por previsão

A arquitetura preditiva de incorporação conjunta (JEPA) foi desenvolvida por Yann Lecun, cientista do chefe da METAS e representa uma alternativa aos modelos generativos de IA. Em contraste com as abordagens generativas que tentam reconstruir todos os pixels ausentes, o V-Jepa 2 trabalha com carvalhos de vídeo mascarado e aprende a prever conceitos abstratos.

O sistema usa uma abordagem de treinamento de dois estágios:

Primeira fase: aprendizado auto -monitorado

  • Treinamento com mais de um milhão de horas de material de vídeo e um milhão de fotos
  • Aprenda padrões de interação física sem anotação humana
  • Desenvolvimento de um modelo interno do mundo físico

Segunda fase: Adaptação relacionada à ação

  • Ajuste fina com apenas 62 horas de dados de controle de robôs do conjunto de dados do DROID
  • Integração de ações do agente nas habilidades preditivas
  • Permitindo o planejamento e controle de circuito fechado

Desempenho superior na prática

O V-JEPA 2 demonstra desempenho impressionante em diferentes áreas:

Entendimento de vídeo e detecção de movimento

  • 77,3% Top 1 Precisão em algo algo V2 Conjunto de dados
  • 39,7% Recall-AT-5 para previsão de ação Epic-Kitchens-100 (melhoria de 44% em comparação com modelos anteriores)
  • Desempenho de última geração em várias tarefas de resposta a questões de vídeo

Controle do robô

  • Taxa de sucesso de 65-80% para tarefas de escolha e lugar em ambientes desconhecidos
  • Controle de robôs zero-tiro sem treinamento específico para ambiente
  • Use em dois laboratórios diferentes com armas de Franka Robot

Eficiência em comparação com a competição

O V-Jepa 2 é 30 vezes mais rápido que o modelo Cosmos da NVIDIA e precisa apenas de 16 segundos para planejar uma ação de robô, enquanto o Cosmos precisa de 4 minutos.

Inovações técnicas e características -chave

O modelo é caracterizado por cinco avanços técnicos centrais:

  1. Aprendizagem auto -monitorada: elimina a necessidade de grandes quantidades de dados rotulados
  2. Mecanismo de mascaramento: treina o modelo prevendo áreas de vídeo ocultas
  3. Aprendizagem representativa abstrata: Concentre -se em significados semânticos em vez de detalhes de pixels
  4. Arquitetura do Modelo Mundial: Estabelecimento de uma compreensão interna das leis físicas
  5. Aprendizagem eficiente de transferência: habilidades de aprendizado de tiro zero pendentes

Novos benchmarks limites aparentes da IA ​​atual

A Meta lançou três novos benchmarks em paralelo com o V-Jepa 2 que testam o entendimento físico dos sistemas de IA:

Intphys 2

Testes a capacidade de distinguir entre cenários fisicamente plausíveis e impossíveis. Até modelos avançados ainda estão próximos do nível aleatório aqui.

MvpBench

Utiliza visualmente carros de vídeo semelhantes com respostas opostas à mesma pergunta. O V-JEPA 2 atinge 44,5% de precisão emparelhada-o melhor desempenho de todos os sistemas testados.

Causalvqa

Examina a compreensão causal e o pensamento contra -acionário. Os resultados mostram que os sistemas atuais de IA podem descrever o que vêem, mas têm dificuldade em prever cursos alternativos.

Ai sem fome de dados: como o aprendizado de máquina V-Jepa 2 torna mais eficiente

Yann Lecun vê a chave para a próxima geração de desenvolvimento de IA em modelos mundiais como o V-Jepa 2. O modelo pode revolucionar diferentes áreas de aplicação:

Robótica e assistentes de orçamento

Os modelos mundiais devem anunciar uma nova era de robótica na qual os agentes da IA ​​podem gerenciar tarefas reais sem quantidades astronômicas de dados de treinamento.

Veículos autônomos

O entendimento espacial do tempo real do V-Jepa 2 pode ser crucial para veículos autônomos, robôs de armazém e sistemas de entrega de drones.

Realidade estendida (AR) e assistentes virtuais

A meta planeja expandir as funções do V-Jepa 2, integrando a análise de áudio e expandiu o entendimento de vídeo para óculos AR e assistentes virtuais.

Disponibilidade de código aberto e promoção de pesquisa

A Meta lançou o V-Jepa 2 sob a licença CC-BY-NC como um código aberto para promover a pesquisa global da IA. O código do modelo está disponível no GitHub e pode ser executado em plataformas como Google Colab e Kaggle. Essa abertura contrasta com muitos outros grandes modelos de IA e visa promover o desenvolvimento de modelos mundiais em robótica e IA incorporada.

Uma mudança de paradigma no desenvolvimento da IA

O V-Jepa 2 representa uma mudança fundamental de paradigma do processamento de linguagem pura para uma compreensão mais profunda do mundo físico. Enquanto a maioria das empresas de IA depende de modelos generativos, a Meta segue uma visão alternativa para o futuro da inteligência artificial com sua abordagem do modelo mundial. A capacidade de aprender com dados mínimos e permitir o controle de robôs zero-tiro pode abrir caminho para uma nova geração de sistemas inteligentes que não apenas entendem, mas também podem atuar no mundo real.

Adequado para:

 

Seu parceiro global de marketing e desenvolvimento de negócios

☑️ Nosso idioma comercial é inglês ou alemão

☑️ NOVO: Correspondência em seu idioma nacional!

 

Pioneiro Digital - Konrad Wolfenstein

Konrad Wolfenstein

Ficarei feliz em servir você e minha equipe como consultor pessoal.

Você pode entrar em contato comigo preenchendo o formulário de contato ou simplesmente ligando para +49 89 89 674 804 (Munique) . Meu endereço de e-mail é: wolfenstein xpert.digital

Estou ansioso pelo nosso projeto conjunto.

 

 

☑️ Apoio às PME em estratégia, consultoria, planeamento e implementação

☑️ Criação ou realinhamento da estratégia digital e digitalização

☑️ Expansão e otimização dos processos de vendas internacionais

☑️ Plataformas de negociação B2B globais e digitais

☑️ Pioneiro em Desenvolvimento de Negócios / Marketing / RP / Feiras Comerciais


⭐️ Inteligência Artificial (IA) - blog de IA, hotspot e centro de conteúdo ⭐️ Robótica/Robótica ⭐️ XPaper