
Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир – Изображение: Xpert.Digital
Meta представляет V-JEPA 2: система ИИ учится делать прогнозы о физическом мире
Meta публикует V-JEPA 2: революционную модель мира искусственного интеллекта для будущего
Компания Meta представила V-JEPA 2 — революционную систему искусственного интеллекта, использующую принципиально иной подход, чем традиционные модели «большого языка». Эта модель мира с 1,2 миллиарда параметров была разработана, чтобы помочь роботам и другим агентам искусственного интеллекта понимать физический мир и предсказывать его реакцию на их действия.
Что такое V-JEPA 2 и чем он отличается от языковых моделей?
V-JEPA 2 расшифровывается как «Video Joint Embedding Predictive Architecture 2» и основана на совершенно иной архитектуре, чем традиционные языковые модели. В то время как языковые модели, такие как ChatGPT или GPT-4, делают вероятностные прогнозы относительно текстовых последовательностей, V-JEPA 2 работает в абстрактном пространстве представлений и фокусируется на понимании физических законов.
Ключевое отличие заключается в методе обучения: языковые модели требуют больших объёмов размеченных данных и обучаются посредством контролируемого обучения. V-JEPA 2, с другой стороны, использует самоконтролируемое обучение и извлекает знания из неразмеченных видео, что значительно снижает затраты на подготовку данных. Модель обучается не путём реконструкции пикселей, а посредством абстрактных представлений видеоконтента.
Архитектура JEPA: обучение через прогнозирование
Архитектура Joint Embedding Predictive Architecture (JEPA) была разработана Яном Лекуном, главным специалистом по искусственному интеллекту компании Meta, и представляет собой альтернативу генеративным моделям искусственного интеллекта. В отличие от генеративных подходов, которые пытаются реконструировать каждый недостающий пиксель, V-JEPA 2 работает с замаскированными областями видео и обучается предсказывать абстрактные концепции.
Система использует двухэтапный подход к обучению:
Первый этап: Самоконтролируемое обучение
- Обучение с использованием более миллиона часов видеоматериалов и миллиона изображений
- Изучение моделей физического взаимодействия без участия человека
- Разработка внутренней модели физического мира
Вторая фаза: адаптация, вызванная действием
- Тонкая настройка с использованием всего лишь 62 часов данных управления роботом из набора данных DROID
- Интеграция действий агента в прогностические возможности
- Обеспечение планирования и управления с обратной связью
Превосходная производительность на практике
V-JEPA 2 демонстрирует впечатляющие результаты в различных областях:
Распознавание видео и обнаружение движения
- 77,3% Точность первого уровня в наборе данных Something-Something v2
- 39,7%-ная отзывчивость при 5-кратном прогнозировании действий в Epic-Kitchens-100 (улучшение на 44% по сравнению с предыдущими моделями)
- Современные показатели в различных видеовопросно-ответных заданиях
Управление роботом
- 65–80% успеха при выполнении задач по подъему и перемещению грузов в незнакомой обстановке
- Управление роботом с нуля без специальной подготовки к работе в конкретной среде
- Развертывание в двух разных лабораториях с использованием роботизированных рук Franka
Эффективность по сравнению с конкурентами
V-JEPA 2 в 30 раз быстрее модели NVIDIA Cosmos и требует всего 16 секунд для планирования действий робота, тогда как Cosmos требуется 4 минуты.
Технические инновации и ключевые особенности
Модель характеризуется пятью ключевыми технологическими прорывами:
- Самостоятельное обучение: устраняет необходимость в больших объемах маркированных данных.
- Механизм маскирования: обучает модель, прогнозируя скрытые области видео.
- Абстрактное репрезентативное обучение: сосредоточьтесь на семантических значениях, а не на пиксельных деталях
- Архитектура модели мира: формирование внутреннего понимания физических законов
- Эффективное трансферное обучение: выдающиеся способности к обучению с нуля
Новые тесты выявляют ограничения современного ИИ
Параллельно с V-JEPA 2 компания Meta выпустила три новых бенчмарка, которые проверяют физическое понимание систем ИИ:
IntPhys 2
Он проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели в этом отношении по-прежнему близки к случайности.
MVPBench
Он использует визуально похожие пары видео с противоположными ответами на один и тот же вопрос. V-JEPA 2 достигает парной точности 44,5% — лучший показатель среди всех протестированных систем.
CausalVQA
Исследование изучает понимание причин и контрфактуальное рассуждение. Результаты показывают, что современные системы искусственного интеллекта хорошо описывают то, что видят, но испытывают трудности с прогнозированием альтернативных результатов.
ИИ без жажды данных: как V-JEPA 2 повышает эффективность машинного обучения
Ян Лекун рассматривает мировые модели, подобные V-JEPA 2, как ключ к следующему поколению разработки ИИ. Эта модель может произвести революцию в различных областях применения:
Робототехника и помощники по дому
Модели мира призваны открыть новую эру робототехники, в которой агенты ИИ смогут решать реальные задачи без астрономических объемов обучающих данных.
Автономные транспортные средства
Пространственное понимание V-JEPA 2 в реальном времени может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки с помощью дронов.
Дополненная реальность (AR) и виртуальные помощники
Meta планирует расширить функциональность V-JEPA 2 за счет интеграции аудиоаналитики и улучшенных возможностей распознавания видео для очков дополненной реальности и виртуальных помощников.
Доступность открытого исходного кода и финансирование исследований
Компания Meta выпустила V-JEPA 2 с открытым исходным кодом под лицензией CC-BY-NC для содействия глобальным исследованиям в области искусственного интеллекта. Код модели доступен на GitHub и может быть запущен на таких платформах, как Google Colab и Kaggle. Эта открытость контрастирует со многими другими крупными моделями искусственного интеллекта и призвана способствовать развитию моделей мира в робототехнике и воплощенном ИИ.
Смена парадигмы в разработке ИИ
V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от чисто языковой обработки к более глубокому пониманию физического мира. В то время как большинство компаний, занимающихся ИИ, полагаются на генеративные модели, Meta реализует альтернативное видение будущего искусственного интеллекта, используя подход, основанный на модели мира. Способность обучаться на минимальных данных и обеспечивать управление роботами с нулевого уровня может проложить путь к новому поколению интеллектуальных систем, способных не только понимать реальный мир, но и действовать в нём.
Подходит для:
Ваш глобальный партнер по маркетингу и развитию бизнеса
☑️ Наш деловой язык — английский или немецкий.
☑️ НОВИНКА: Переписка на вашем национальном языке!
Я был бы рад служить вам и моей команде в качестве личного консультанта.
Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein ∂ xpert.digital
Я с нетерпением жду нашего совместного проекта.

