
Para robots y otros agentes de IA: el modelo AI V-Jepa 2 de Meta-la IA que comprende nuestra imagen física del mundo: xpert.digital
Meta presenta V-Jepa 2: AI System aprende predicciones sobre el mundo físico
Meta publica V-Jepa 2: Un modelo revolucionario del mundo del mundo de IA para el futuro de la inteligencia artificial
Con V-JepA 2, Meta ha presentado un sistema de IA innovador que persigue un enfoque fundamental que los modelos de voz grandes convencionales. El modelo mundial fuerte de 1,2 mil millones de parámetros se desarrolló para ayudar a los robots y otros agentes de IA a comprender el mundo físico y predecir cómo reaccionará a sus acciones.
¿Qué es V-JepA 2 y cómo se diferencia de los modelos de voz?
V-JEPA 2 significa "Video JUNTY INCREGAR Predictive Architecture 2" y se basa en una arquitectura completamente diferente a las modelos de voz tradicionales. Mientras que los modelos de voz como ChatGPT o GPT-4 hacen predicciones probabilísticas sobre secuencias de texto, V-JEPA 2 funciona en una sala de representación abstracta y se centra en comprender las leyes físicas.
La diferencia decisiva radica en el método de aprendizaje: los modelos de idiomas requieren grandes cantidades de datos etiquetados y aprenden a través de la capacitación monitoreada. V-JEPA 2, por otro lado, utiliza el aprendizaje automático y la extracción de conocimiento de videos involuntarios, lo que reduce significativamente los costos para la preparación de datos. El modelo no aprende a través de la reconstrucción de píxeles, sino a través de representaciones abstractas del contenido de video.
La arquitectura de JEPA: aprendizaje por predicción
La arquitectura predictiva de incrustación conjunta (JEPA) fue desarrollada por Yann Lecun, Jefe de Metas Científico AI y representa una alternativa a los modelos de IA generativos. A diferencia de los enfoques generativos que intentan reconstruir cada píxel que falta, V-JepA 2 funciona con robles enmascarados y aprende a predecir conceptos abstractos.
El sistema utiliza un enfoque de entrenamiento de dos etapas:
Primera fase: aprendizaje auto -monitoreado
- Capacitación con más de un millón de horas de material de video y un millón de fotos
- Aprender patrones de interacción física sin anotación humana
- Desarrollo de un modelo interno del mundo físico
Segunda fase: adaptación relacionada con la acción
- Ajuste fino con solo 62 horas de datos de control de robots del conjunto de datos Droid
- Integración de acciones de agente en las habilidades predictivas
- Habilitar la planificación y el control del circuito de control cerrado
Rendimiento superior en la práctica
V-JepA 2 demuestra un rendimiento impresionante en diferentes áreas:
Comprensión de video y detección de movimiento
- 77.3% Top 1 Precisión en algo algo V2 Conjunto de datos
- 39.7% de recuerdo-5 para el pronóstico de acción EPIC-Kitchens-100 (mejora del 44% en comparación con los modelos anteriores)
- Rendimiento de última generación en varias preguntas de video tareas de respuesta
control de robots
- 65-80% Tasa de éxito para tareas de selección y lugar en entornos desconocidos
- Control de robots de disparo cero sin entrenamiento específico de ambiente
- Usar en dos laboratorios diferentes con Franka Robot Arms
Eficiencia en comparación con la competencia
V-JepA 2 es 30 veces más rápido que el modelo Cosmos de Nvidia y solo necesita 16 segundos para planificar una acción de robot, mientras que Cosmos necesita 4 minutos.
Innovaciones técnicas y características clave
El modelo se caracteriza por cinco avances técnicos centrales:
- Aprendizaje automonitorado: elimina la necesidad de grandes cantidades de datos etiquetados
- Mecanismo de enmascaramiento: entrena el modelo prediciendo áreas de video ocultas
- Aprendizaje representativo abstracto: centrarse en significados semánticos en lugar de detalles de píxeles
- Arquitectura del modelo mundial: establecimiento de una comprensión interna de las leyes físicas
- Aprendizaje de transferencia eficiente: habilidades de aprendizaje excepcionales de disparo cero
Nuevos puntos de referencia Límites aparentes de la IA actual
Meta ha lanzado tres nuevos puntos de referencia en paralelo con V-JepA 2 que prueban la comprensión física de los sistemas de IA:
Intphys 2
Prueba la capacidad de distinguir entre escenarios físicamente plausibles e imposibles. Incluso los modelos avanzados todavía están cerca del nivel aleatorio aquí.
Mvpbench
Utiliza visualmente autos de video similares con respuestas opuestas a la misma pregunta. V-JEPA 2 alcanza el 44.5% de precisión emparejada: el mejor rendimiento de todos los sistemas probados.
Causalvqa
Examina la comprensión causal y el pensamiento contrario a la actividad. Los resultados muestran que los sistemas de IA actuales pueden describir lo que ven pero tienen dificultades para predecir cursos alternativos.
AI sin hambre de datos: cómo el aprendizaje automático V-Jepa 2 hace más eficiente
Yann Lecun ve la clave para la próxima generación de desarrollo de IA en modelos mundiales como V-Jepa 2. El modelo podría revolucionar diferentes áreas de aplicación:
Asistentes de robótica y presupuesto
Se supone que los modelos mundiales anuncian una nueva era de robótica en la que los agentes de IA pueden administrar tareas reales sin cantidades astronómicas de datos de capacitación.
Vehículos autónomos
La comprensión espacial del tiempo real de V-JepA 2 podría ser crucial para vehículos autónomos, robots de almacén y sistemas de entrega de drones.
Realidad extendida (AR) y asistentes virtuales
Meta planea expandir las funciones de V-JEPA 2 integrando el análisis de audio y la comprensión ampliada de video para las gafas AR y los asistentes virtuales.
Disponibilidad de código abierto y promoción de la investigación
Meta ha lanzado V-JepA 2 bajo la licencia CC-by-NC como código abierto para promover la investigación global de IA. El código modelo está disponible en GitHub y se puede ejecutar en plataformas como Google Colab y Kaggle. Esta apertura contrasta con muchos otros modelos de IA grandes y está destinado a promover el desarrollo de modelos mundiales en robótica y IA encarnada.
Un cambio de paradigma en el desarrollo de IA
V-JepA 2 representa un cambio de paradigma fundamental del procesamiento del lenguaje puro a una comprensión más profunda del mundo físico. Si bien la mayoría de las empresas de IA dependen de modelos generativos, Meta sigue una visión alternativa para el futuro de la inteligencia artificial con su enfoque mundial de modelo. La capacidad de aprender de los datos mínimos y permitir el control de robots de disparo cero podría allanar el camino para una nueva generación de sistemas inteligentes que no solo entienden sino que también pueden actuar en el mundo real.
Adecuado para:
- Choque para la industria publicitaria: con Ki Will Zuckerberg con Meta, la publicidad automatiza completamente la publicidad - $ 72 mil millones de inversión
- Y adiós barrera del idioma! Ray-Ban Meta AI: ¡La actualización de AI está aquí! Traducción del idioma, búsqueda visual: ¡todo lo que necesita saber!
Su socio global de marketing y desarrollo empresarial
☑️ Nuestro idioma comercial es inglés o alemán.
☑️ NUEVO: ¡Correspondencia en tu idioma nacional!
Estaré encantado de servirle a usted y a mi equipo como asesor personal.
Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein ∂ xpert.digital
Estoy deseando que llegue nuestro proyecto conjunto.