Para robôs e outros agentes da IA: o modelo Ai V-Jepa 2 de Meta-The-IA que entende nosso mundo físico

Publicado em: 13 de junho de 2025 / atualização de: 13 de junho de 2025 - Autor: Konrad Wolfenstein

Para robôs e outros agentes da IA: o modelo AI V-Jepa 2 de Meta-The-IA que entende nossa imagem física: xpert.digital

Meta apresenta V-Jepa 2: o sistema de IA aprende previsões sobre o mundo físico

Meta publica V-Jepa 2: Um modelo revolucionário de IA World para o futuro da inteligência artificial

Com o V-Jepa 2, a Meta apresentou um sistema inovador de IA que adota uma abordagem fundamental do que os grandes modelos convencionais de voz. O modelo mundial forte de 1,2 bilhão de parâmetros foi desenvolvido para ajudar os robôs e outros agentes da IA a entender o mundo físico e prever como ele reagirá às suas ações.

O que é o V-Jepa 2 e como difere dos modelos de voz?

O V-Jepa 2 significa “Arquitetura preditiva de incorporação de video conjunto 2” e é baseada em uma arquitetura completamente diferente dos modelos de voz tradicionais. Embora modelos de voz como ChatGPT ou GPT-4 façam previsões probabilísticas sobre sequências de texto, o V-Jepa 2 funciona em uma sala de representação abstrata e se concentra na compreensão das leis físicas.

A diferença decisiva está no método de aprendizado: os modelos de idiomas requerem grandes quantidades de dados e aprendizagem rotulados por meio de treinamento monitorado. O V-Jepa 2, por outro lado, usa aprendizado auto-monitorado e extração de conhecimento de vídeos não presos, o que reduz significativamente os custos para a preparação dos dados. O modelo não aprende através da reconstrução do Pixel, mas através de representações abstratas do conteúdo do vídeo.

A arquitetura JEPA: Aprendizagem por previsão

A arquitetura preditiva de incorporação conjunta (JEPA) foi desenvolvida por Yann Lecun, cientista do chefe da METAS e representa uma alternativa aos modelos generativos de IA. Em contraste com as abordagens generativas que tentam reconstruir todos os pixels ausentes, o V-Jepa 2 trabalha com carvalhos de vídeo mascarado e aprende a prever conceitos abstratos.

O sistema usa uma abordagem de treinamento de dois estágios:

Primeira fase: aprendizado auto -monitorado

Treinamento com mais de um milhão de horas de material de vídeo e um milhão de fotos
Aprenda padrões de interação física sem anotação humana
Desenvolvimento de um modelo interno do mundo físico

Segunda fase: Adaptação relacionada à ação

Ajuste fina com apenas 62 horas de dados de controle de robôs do conjunto de dados do DROID
Integração de ações do agente nas habilidades preditivas
Permitindo o planejamento e controle de circuito fechado

Desempenho superior na prática

O V-JEPA 2 demonstra desempenho impressionante em diferentes áreas:

Entendimento de vídeo e detecção de movimento

77,3% Top 1 Precisão em algo algo V2 Conjunto de dados
39,7% Recall-AT-5 para previsão de ação Epic-Kitchens-100 (melhoria de 44% em comparação com modelos anteriores)
Desempenho de última geração em várias tarefas de resposta a questões de vídeo

Controle do robô

Taxa de sucesso de 65-80% para tarefas de escolha e lugar em ambientes desconhecidos
Controle de robôs zero-tiro sem treinamento específico para ambiente
Use em dois laboratórios diferentes com armas de Franka Robot

Eficiência em comparação com a competição

O V-Jepa 2 é 30 vezes mais rápido que o modelo Cosmos da NVIDIA e precisa apenas de 16 segundos para planejar uma ação de robô, enquanto o Cosmos precisa de 4 minutos.

Inovações técnicas e características -chave

O modelo é caracterizado por cinco avanços técnicos centrais:

Aprendizagem auto -monitorada: elimina a necessidade de grandes quantidades de dados rotulados
Mecanismo de mascaramento: treina o modelo prevendo áreas de vídeo ocultas
Aprendizagem representativa abstrata: Concentre -se em significados semânticos em vez de detalhes de pixels
Arquitetura do Modelo Mundial: Estabelecimento de uma compreensão interna das leis físicas
Aprendizagem eficiente de transferência: habilidades de aprendizado de tiro zero pendentes

Novos benchmarks limites aparentes da IA atual

A Meta lançou três novos benchmarks em paralelo com o V-Jepa 2 que testam o entendimento físico dos sistemas de IA:

Intphys 2

Testes a capacidade de distinguir entre cenários fisicamente plausíveis e impossíveis. Até modelos avançados ainda estão próximos do nível aleatório aqui.

MvpBench

Utiliza visualmente carros de vídeo semelhantes com respostas opostas à mesma pergunta. O V-JEPA 2 atinge 44,5% de precisão emparelhada-o melhor desempenho de todos os sistemas testados.

Causalvqa

Examina a compreensão causal e o pensamento contra -acionário. Os resultados mostram que os sistemas atuais de IA podem descrever o que vêem, mas têm dificuldade em prever cursos alternativos.

Ai sem fome de dados: como o aprendizado de máquina V-Jepa 2 torna mais eficiente

Yann Lecun vê a chave para a próxima geração de desenvolvimento de IA em modelos mundiais como o V-Jepa 2. O modelo pode revolucionar diferentes áreas de aplicação:

Robótica e assistentes de orçamento

Os modelos mundiais devem anunciar uma nova era de robótica na qual os agentes da IA podem gerenciar tarefas reais sem quantidades astronômicas de dados de treinamento.

Veículos autônomos

O entendimento espacial do tempo real do V-Jepa 2 pode ser crucial para veículos autônomos, robôs de armazém e sistemas de entrega de drones.

Realidade estendida (AR) e assistentes virtuais

A meta planeja expandir as funções do V-Jepa 2, integrando a análise de áudio e expandiu o entendimento de vídeo para óculos AR e assistentes virtuais.

Disponibilidade de código aberto e promoção de pesquisa

A Meta lançou o V-Jepa 2 sob a licença CC-BY-NC como um código aberto para promover a pesquisa global da IA. O código do modelo está disponível no GitHub e pode ser executado em plataformas como Google Colab e Kaggle. Essa abertura contrasta com muitos outros grandes modelos de IA e visa promover o desenvolvimento de modelos mundiais em robótica e IA incorporada.

Uma mudança de paradigma no desenvolvimento da IA

O V-Jepa 2 representa uma mudança fundamental de paradigma do processamento de linguagem pura para uma compreensão mais profunda do mundo físico. Enquanto a maioria das empresas de IA depende de modelos generativos, a Meta segue uma visão alternativa para o futuro da inteligência artificial com sua abordagem do modelo mundial. A capacidade de aprender com dados mínimos e permitir o controle de robôs zero-tiro pode abrir caminho para uma nova geração de sistemas inteligentes que não apenas entendem, mas também podem atuar no mundo real.

Adequado para: