Para robôs e outros agentes da IA: o modelo Ai V-Jepa 2 de Meta-The-IA que entende nosso mundo físico

Publicado em: 13 de junho de 2025 / Atualizado em: 13 de junho de 2025 – Autor: Konrad Wolfenstein

Para robôs e outros agentes de IA: O modelo de IA V-JEPA 2 da Meta – A IA que compreende o nosso mundo físico – Imagem: Xpert.Digital

A Meta apresenta o V-JEPA 2: Sistema de IA aprende a fazer previsões sobre o mundo físico

A Meta publica o V-JEPA 2: Um modelo revolucionário de IA para o futuro da inteligência artificial

A Meta revelou o V-JEPA 2, um sistema de IA inovador que adota uma abordagem fundamentalmente diferente dos Grandes Modelos de Linguagem convencionais. Este modelo do mundo, com seus 1,2 bilhão de parâmetros, foi desenvolvido para ajudar robôs e outros agentes de IA a compreender o mundo físico e prever como ele reagirá às suas ações.

O que é o V-JEPA 2 e como ele difere dos modelos de linguagem?

V-JEPA 2 significa “Video Joint Embedding Predictive Architecture 2” e é baseado em uma arquitetura completamente diferente dos modelos de linguagem tradicionais. Enquanto modelos de linguagem como ChatGPT ou GPT-4 fazem previsões probabilísticas sobre sequências de texto, o V-JEPA 2 opera em um espaço representacional abstrato e se concentra na compreensão de leis físicas.

A diferença crucial reside no método de aprendizagem: os modelos de linguagem requerem grandes quantidades de dados rotulados e aprendem por meio de treinamento supervisionado. O V-JEPA 2, por outro lado, utiliza aprendizagem autossupervisionada e extrai conhecimento de vídeos não rotulados, reduzindo significativamente os custos de preparação de dados. O modelo aprende não por meio da reconstrução de pixels, mas por meio de representações abstratas do conteúdo do vídeo.

A arquitetura JEPA: Aprendendo através da previsão

A Arquitetura Conjunta de Incorporação Preditiva (JEPA, na sigla em inglês) foi desenvolvida por Yann LeCun, Cientista Chefe de IA da Meta, e representa uma alternativa aos modelos generativos de IA. Ao contrário das abordagens generativas, que tentam reconstruir cada pixel ausente, a V-JEPA 2 trabalha com regiões de vídeo mascaradas e aprende a prever conceitos abstratos.

O sistema utiliza uma abordagem de treinamento em duas etapas:

Primeira fase: Aprendizagem autossupervisionada

Treinamento com mais de um milhão de horas de material em vídeo e um milhão de imagens
Aprendendo padrões de interação física sem anotação humana
Desenvolvimento de um modelo interno do mundo físico

Segunda fase: Adaptação induzida pela ação

Ajuste fino com apenas 62 horas de dados de controle do robô provenientes do conjunto de dados DROID
Integração das ações do agente em capacidades preditivas
Possibilitando o planejamento e o controle em circuito fechado

Desempenho superior na prática

O V-JEPA 2 demonstra um desempenho impressionante em diversas áreas:

Compreensão de vídeo e detecção de movimento

77,3% de precisão Top 1 no conjunto de dados Something-Something v2
39,7% de recall em 5 tentativas na previsão de ações do Epic-Kitchens-100 (melhoria de 44% em relação aos modelos anteriores)
Desempenho de última geração em diversas tarefas de perguntas e respostas em vídeo

Controle de robô

Taxa de sucesso de 65 a 80% em tarefas de pegar e colocar em ambientes desconhecidos
Controle de robôs sem necessidade de treinamento específico para o ambiente
Implantação em dois laboratórios diferentes com braços robóticos Franka

Eficiência em comparação com a concorrência

O V-JEPA 2 é 30 vezes mais rápido que o modelo Cosmos da NVIDIA e precisa de apenas 16 segundos para planejar uma ação do robô, enquanto o Cosmos leva 4 minutos.

Inovações técnicas e principais características

O modelo é caracterizado por cinco avanços tecnológicos fundamentais:

Aprendizado autossupervisionado: Elimina a necessidade de grandes quantidades de dados rotulados
Mecanismo de mascaramento: Treina o modelo prevendo áreas ocultas no vídeo
Aprendizado de representação abstrata: foco em significados semânticos em vez de detalhes de pixels
Arquitetura do modelo mundial: Construindo uma compreensão interna das leis físicas
Aprendizagem por transferência eficiente: Habilidades excepcionais de aprendizagem sem exemplos prévios

Novos parâmetros revelam as limitações da IA atual

Paralelamente ao V-JEPA 2, a Meta lançou três novos benchmarks que testam a compreensão física dos sistemas de IA:

Física Internacional 2

O teste avalia a capacidade de distinguir entre cenários fisicamente plausíveis e impossíveis. Mesmo modelos avançados ainda apresentam desempenho próximo ao aleatório nesse aspecto.

MVPBench

O sistema utiliza pares de vídeos visualmente semelhantes com respostas opostas para a mesma pergunta. O V-JEPA 2 alcança uma precisão de 44,5% em pares – o melhor desempenho entre todos os sistemas testados.

CausalVQA

O estudo examina a compreensão causal e o raciocínio contrafactual. Os resultados mostram que os sistemas de IA atuais conseguem descrever bem o que observam, mas têm dificuldade em prever resultados alternativos.

Inteligência artificial sem necessidade de dados: como o V-JEPA 2 torna o aprendizado de máquina mais eficiente

Yann LeCun considera modelos globais como o V-JEPA 2 a chave para a próxima geração do desenvolvimento de IA. O modelo tem o potencial de revolucionar diversas áreas de aplicação:

Robótica e assistentes domésticos

Os modelos mundiais têm como objetivo inaugurar uma nova era da robótica, na qual os agentes de IA serão capazes de lidar com tarefas do mundo real sem quantidades astronômicas de dados de treinamento.

Veículos autônomos

A capacidade de compreensão espacial em tempo real do V-JEPA 2 pode ser crucial para veículos autônomos, robôs de armazém e sistemas de entrega por drones.

Realidade Aumentada (RA) e assistentes virtuais

A Meta planeja expandir a funcionalidade do V-JEPA 2 integrando análises de áudio e recursos aprimorados de compreensão de vídeo para óculos de realidade aumentada e assistentes virtuais.

Disponibilidade de código aberto e financiamento de pesquisa

A Meta lançou o V-JEPA 2 como código aberto sob a licença CC-BY-NC para promover a pesquisa global em IA. O código do modelo está disponível no GitHub e pode ser executado em plataformas como Google Colab e Kaggle. Essa abertura contrasta com muitos outros grandes modelos de IA e visa impulsionar o desenvolvimento de modelos globais em robótica e IA incorporada.

Uma mudança de paradigma no desenvolvimento de IA

O V-JEPA 2 representa uma mudança de paradigma fundamental, passando do mero processamento de linguagem natural para uma compreensão mais profunda do mundo físico. Enquanto a maioria das empresas de IA se baseia em modelos generativos, a Meta busca uma visão alternativa para o futuro da inteligência artificial com sua abordagem de modelo do mundo. A capacidade de aprender com dados mínimos e permitir o controle de robôs sem nenhum passo prévio pode abrir caminho para uma nova geração de sistemas inteligentes que não apenas compreendem, mas também agem no mundo real.

Adequado para: