
Para robôs e outros agentes da IA: o modelo AI V-Jepa 2 de Meta-The-IA que entende nossa imagem física: xpert.digital
Meta apresenta V-Jepa 2: o sistema de IA aprende previsões sobre o mundo físico
Meta publica V-Jepa 2: Um modelo revolucionário de IA World para o futuro da inteligência artificial
Com o V-Jepa 2, a Meta apresentou um sistema inovador de IA que adota uma abordagem fundamental do que os grandes modelos convencionais de voz. O modelo mundial forte de 1,2 bilhão de parâmetros foi desenvolvido para ajudar os robôs e outros agentes da IA a entender o mundo físico e prever como ele reagirá às suas ações.
O que é o V-Jepa 2 e como difere dos modelos de voz?
O V-Jepa 2 significa “Arquitetura preditiva de incorporação de video conjunto 2” e é baseada em uma arquitetura completamente diferente dos modelos de voz tradicionais. Embora modelos de voz como ChatGPT ou GPT-4 façam previsões probabilísticas sobre sequências de texto, o V-Jepa 2 funciona em uma sala de representação abstrata e se concentra na compreensão das leis físicas.
A diferença decisiva está no método de aprendizado: os modelos de idiomas requerem grandes quantidades de dados e aprendizagem rotulados por meio de treinamento monitorado. O V-Jepa 2, por outro lado, usa aprendizado auto-monitorado e extração de conhecimento de vídeos não presos, o que reduz significativamente os custos para a preparação dos dados. O modelo não aprende através da reconstrução do Pixel, mas através de representações abstratas do conteúdo do vídeo.
A arquitetura JEPA: Aprendizagem por previsão
A arquitetura preditiva de incorporação conjunta (JEPA) foi desenvolvida por Yann Lecun, cientista do chefe da METAS e representa uma alternativa aos modelos generativos de IA. Em contraste com as abordagens generativas que tentam reconstruir todos os pixels ausentes, o V-Jepa 2 trabalha com carvalhos de vídeo mascarado e aprende a prever conceitos abstratos.
O sistema usa uma abordagem de treinamento de dois estágios:
Primeira fase: aprendizado auto -monitorado
- Treinamento com mais de um milhão de horas de material de vídeo e um milhão de fotos
- Aprenda padrões de interação física sem anotação humana
- Desenvolvimento de um modelo interno do mundo físico
Segunda fase: Adaptação relacionada à ação
- Ajuste fina com apenas 62 horas de dados de controle de robôs do conjunto de dados do DROID
- Integração de ações do agente nas habilidades preditivas
- Permitindo o planejamento e controle de circuito fechado
Desempenho superior na prática
O V-JEPA 2 demonstra desempenho impressionante em diferentes áreas:
Entendimento de vídeo e detecção de movimento
- 77,3% Top 1 Precisão em algo algo V2 Conjunto de dados
- 39,7% Recall-AT-5 para previsão de ação Epic-Kitchens-100 (melhoria de 44% em comparação com modelos anteriores)
- Desempenho de última geração em várias tarefas de resposta a questões de vídeo
Controle do robô
- Taxa de sucesso de 65-80% para tarefas de escolha e lugar em ambientes desconhecidos
- Controle de robôs zero-tiro sem treinamento específico para ambiente
- Use em dois laboratórios diferentes com armas de Franka Robot
Eficiência em comparação com a competição
O V-Jepa 2 é 30 vezes mais rápido que o modelo Cosmos da NVIDIA e precisa apenas de 16 segundos para planejar uma ação de robô, enquanto o Cosmos precisa de 4 minutos.
Inovações técnicas e características -chave
O modelo é caracterizado por cinco avanços técnicos centrais:
- Aprendizagem auto -monitorada: elimina a necessidade de grandes quantidades de dados rotulados
- Mecanismo de mascaramento: treina o modelo prevendo áreas de vídeo ocultas
- Aprendizagem representativa abstrata: Concentre -se em significados semânticos em vez de detalhes de pixels
- Arquitetura do Modelo Mundial: Estabelecimento de uma compreensão interna das leis físicas
- Aprendizagem eficiente de transferência: habilidades de aprendizado de tiro zero pendentes
Novos benchmarks limites aparentes da IA atual
A Meta lançou três novos benchmarks em paralelo com o V-Jepa 2 que testam o entendimento físico dos sistemas de IA:
Intphys 2
Testes a capacidade de distinguir entre cenários fisicamente plausíveis e impossíveis. Até modelos avançados ainda estão próximos do nível aleatório aqui.
MvpBench
Utiliza visualmente carros de vídeo semelhantes com respostas opostas à mesma pergunta. O V-JEPA 2 atinge 44,5% de precisão emparelhada-o melhor desempenho de todos os sistemas testados.
Causalvqa
Examina a compreensão causal e o pensamento contra -acionário. Os resultados mostram que os sistemas atuais de IA podem descrever o que vêem, mas têm dificuldade em prever cursos alternativos.
Ai sem fome de dados: como o aprendizado de máquina V-Jepa 2 torna mais eficiente
Yann Lecun vê a chave para a próxima geração de desenvolvimento de IA em modelos mundiais como o V-Jepa 2. O modelo pode revolucionar diferentes áreas de aplicação:
Robótica e assistentes de orçamento
Os modelos mundiais devem anunciar uma nova era de robótica na qual os agentes da IA podem gerenciar tarefas reais sem quantidades astronômicas de dados de treinamento.
Veículos autônomos
O entendimento espacial do tempo real do V-Jepa 2 pode ser crucial para veículos autônomos, robôs de armazém e sistemas de entrega de drones.
Realidade estendida (AR) e assistentes virtuais
A meta planeja expandir as funções do V-Jepa 2, integrando a análise de áudio e expandiu o entendimento de vídeo para óculos AR e assistentes virtuais.
Disponibilidade de código aberto e promoção de pesquisa
A Meta lançou o V-Jepa 2 sob a licença CC-BY-NC como um código aberto para promover a pesquisa global da IA. O código do modelo está disponível no GitHub e pode ser executado em plataformas como Google Colab e Kaggle. Essa abertura contrasta com muitos outros grandes modelos de IA e visa promover o desenvolvimento de modelos mundiais em robótica e IA incorporada.
Uma mudança de paradigma no desenvolvimento da IA
O V-Jepa 2 representa uma mudança fundamental de paradigma do processamento de linguagem pura para uma compreensão mais profunda do mundo físico. Enquanto a maioria das empresas de IA depende de modelos generativos, a Meta segue uma visão alternativa para o futuro da inteligência artificial com sua abordagem do modelo mundial. A capacidade de aprender com dados mínimos e permitir o controle de robôs zero-tiro pode abrir caminho para uma nova geração de sistemas inteligentes que não apenas entendem, mas também podem atuar no mundo real.
Adequado para:
- Choque para a indústria de publicidade: com Ki Will Zuckerberg com Meta, a publicidade automatiza completamente a publicidade - investimento de US $ 72 bilhões
- E barreira de idioma de tchau! Ray-Ban Meta AI: A atualização da IA está aqui! Tradução de idiomas, pesquisa visual - tudo o que você precisa saber!
Seu parceiro global de marketing e desenvolvimento de negócios
☑️ Nosso idioma comercial é inglês ou alemão
☑️ NOVO: Correspondência em seu idioma nacional!
Ficarei feliz em servir você e minha equipe como consultor pessoal.
Você pode entrar em contato comigo preenchendo o formulário de contato ou simplesmente ligando para +49 89 89 674 804 (Munique) . Meu endereço de e-mail é: wolfenstein ∂ xpert.digital
Estou ansioso pelo nosso projeto conjunto.