Para robots y otros agentes de IA: el modelo AI V-Jepa 2 de Meta-the AI que comprende nuestro mundo físico

Konrad Wolfenstein

hace 6 meses

Para robots y otros agentes de IA: el modelo AI V-Jepa 2 de Meta-the AI que comprende nuestro mundo físico

Para robots y otros agentes de IA: el modelo AI V-Jepa 2 de Meta-la IA que comprende nuestra imagen física del mundo: xpert.digital

Meta presenta V-Jepa 2: AI System aprende predicciones sobre el mundo físico

Meta publica V-Jepa 2: Un modelo revolucionario del mundo del mundo de IA para el futuro de la inteligencia artificial

Con V-JepA 2, Meta ha presentado un sistema de IA innovador que persigue un enfoque fundamental que los modelos de voz grandes convencionales. El modelo mundial fuerte de 1,2 mil millones de parámetros se desarrolló para ayudar a los robots y otros agentes de IA a comprender el mundo físico y predecir cómo reaccionará a sus acciones.

¿Qué es V-JepA 2 y cómo se diferencia de los modelos de voz?

V-JEPA 2 significa "Video JUNTY INCREGAR Predictive Architecture 2" y se basa en una arquitectura completamente diferente a las modelos de voz tradicionales. Mientras que los modelos de voz como ChatGPT o GPT-4 hacen predicciones probabilísticas sobre secuencias de texto, V-JEPA 2 funciona en una sala de representación abstracta y se centra en comprender las leyes físicas.

La diferencia decisiva radica en el método de aprendizaje: los modelos de idiomas requieren grandes cantidades de datos etiquetados y aprenden a través de la capacitación monitoreada. V-JEPA 2, por otro lado, utiliza el aprendizaje automático y la extracción de conocimiento de videos involuntarios, lo que reduce significativamente los costos para la preparación de datos. El modelo no aprende a través de la reconstrucción de píxeles, sino a través de representaciones abstractas del contenido de video.

La arquitectura de JEPA: aprendizaje por predicción

La arquitectura predictiva de incrustación conjunta (JEPA) fue desarrollada por Yann Lecun, Jefe de Metas Científico AI y representa una alternativa a los modelos de IA generativos. A diferencia de los enfoques generativos que intentan reconstruir cada píxel que falta, V-JepA 2 funciona con robles enmascarados y aprende a predecir conceptos abstractos.

El sistema utiliza un enfoque de entrenamiento de dos etapas:

Primera fase: aprendizaje auto -monitoreado

Capacitación con más de un millón de horas de material de video y un millón de fotos
Aprender patrones de interacción física sin anotación humana
Desarrollo de un modelo interno del mundo físico

Segunda fase: adaptación relacionada con la acción

Ajuste fino con solo 62 horas de datos de control de robots del conjunto de datos Droid
Integración de acciones de agente en las habilidades predictivas
Habilitar la planificación y el control del circuito de control cerrado

Rendimiento superior en la práctica

V-JepA 2 demuestra un rendimiento impresionante en diferentes áreas:

Comprensión de video y detección de movimiento

77.3% Top 1 Precisión en algo algo V2 Conjunto de datos
39.7% de recuerdo-5 para el pronóstico de acción EPIC-Kitchens-100 (mejora del 44% en comparación con los modelos anteriores)
Rendimiento de última generación en varias preguntas de video tareas de respuesta

control de robots

65-80% Tasa de éxito para tareas de selección y lugar en entornos desconocidos
Control de robots de disparo cero sin entrenamiento específico de ambiente
Usar en dos laboratorios diferentes con Franka Robot Arms

Eficiencia en comparación con la competencia

V-JepA 2 es 30 veces más rápido que el modelo Cosmos de Nvidia y solo necesita 16 segundos para planificar una acción de robot, mientras que Cosmos necesita 4 minutos.

Innovaciones técnicas y características clave

El modelo se caracteriza por cinco avances técnicos centrales:

Aprendizaje automonitorado: elimina la necesidad de grandes cantidades de datos etiquetados
Mecanismo de enmascaramiento: entrena el modelo prediciendo áreas de video ocultas
Aprendizaje representativo abstracto: centrarse en significados semánticos en lugar de detalles de píxeles
Arquitectura del modelo mundial: establecimiento de una comprensión interna de las leyes físicas
Aprendizaje de transferencia eficiente: habilidades de aprendizaje excepcionales de disparo cero

Nuevos puntos de referencia Límites aparentes de la IA actual

Meta ha lanzado tres nuevos puntos de referencia en paralelo con V-JepA 2 que prueban la comprensión física de los sistemas de IA:

Intphys 2

Prueba la capacidad de distinguir entre escenarios físicamente plausibles e imposibles. Incluso los modelos avanzados todavía están cerca del nivel aleatorio aquí.

Mvpbench

Utiliza visualmente autos de video similares con respuestas opuestas a la misma pregunta. V-JEPA 2 alcanza el 44.5% de precisión emparejada: el mejor rendimiento de todos los sistemas probados.

Causalvqa

Examina la comprensión causal y el pensamiento contrario a la actividad. Los resultados muestran que los sistemas de IA actuales pueden describir lo que ven pero tienen dificultades para predecir cursos alternativos.

AI sin hambre de datos: cómo el aprendizaje automático V-Jepa 2 hace más eficiente

Yann Lecun ve la clave para la próxima generación de desarrollo de IA en modelos mundiales como V-Jepa 2. El modelo podría revolucionar diferentes áreas de aplicación:

Asistentes de robótica y presupuesto

Se supone que los modelos mundiales anuncian una nueva era de robótica en la que los agentes de IA pueden administrar tareas reales sin cantidades astronómicas de datos de capacitación.

Vehículos autónomos

La comprensión espacial del tiempo real de V-JepA 2 podría ser crucial para vehículos autónomos, robots de almacén y sistemas de entrega de drones.

Realidad extendida (AR) y asistentes virtuales

Meta planea expandir las funciones de V-JEPA 2 integrando el análisis de audio y la comprensión ampliada de video para las gafas AR y los asistentes virtuales.

Disponibilidad de código abierto y promoción de la investigación

Meta ha lanzado V-JepA 2 bajo la licencia CC-by-NC como código abierto para promover la investigación global de IA. El código modelo está disponible en GitHub y se puede ejecutar en plataformas como Google Colab y Kaggle. Esta apertura contrasta con muchos otros modelos de IA grandes y está destinado a promover el desarrollo de modelos mundiales en robótica y IA encarnada.

Un cambio de paradigma en el desarrollo de IA

V-JepA 2 representa un cambio de paradigma fundamental del procesamiento del lenguaje puro a una comprensión más profunda del mundo físico. Si bien la mayoría de las empresas de IA dependen de modelos generativos, Meta sigue una visión alternativa para el futuro de la inteligencia artificial con su enfoque mundial de modelo. La capacidad de aprender de los datos mínimos y permitir el control de robots de disparo cero podría allanar el camino para una nueva generación de sistemas inteligentes que no solo entienden sino que también pueden actuar en el mundo real.

Adecuado para:

Su socio global de marketing y desarrollo empresarial

☑️ Nuestro idioma comercial es inglés o alemán.

☑️ NUEVO: ¡Correspondencia en tu idioma nacional!

Konrad Wolfenstein

Estaré encantado de servirle a usted y a mi equipo como asesor personal.

Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein ∂ xpert.digital

Estoy deseando que llegue nuestro proyecto conjunto.

Para robots y otros agentes de IA: el modelo AI V-Jepa 2 de Meta-the AI que comprende nuestro mundo físico

Meta presenta V-Jepa 2: AI System aprende predicciones sobre el mundo físico

Meta publica V-Jepa 2: Un modelo revolucionario del mundo del mundo de IA para el futuro de la inteligencia artificial

¿Qué es V-JepA 2 y cómo se diferencia de los modelos de voz?