
Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир – Изображение: Xpert.Digital
Meta представляет V-JEPA 2: система искусственного интеллекта учится делать прогнозы о физическом мире
Компания Meta опубликовала статью V-JEPA 2: революционную модель мира искусственного интеллекта для будущего искусственного интеллекта
Компания Meta представила V-JEPA 2, новаторскую систему искусственного интеллекта, которая использует принципиально иной подход, чем традиционные модели глобального языка. Эта модель мира, содержащая 1,2 миллиарда параметров, была разработана, чтобы помочь роботам и другим агентам ИИ понимать физический мир и предсказывать, как он будет реагировать на их действия.
Что такое V-JEPA 2 и чем он отличается от языковых моделей?
V-JEPA 2 расшифровывается как «Video Joint Embedding Predictive Architecture 2» и основана на совершенно иной архитектуре, чем традиционные языковые модели. В то время как языковые модели, такие как ChatGPT или GPT-4, делают вероятностные прогнозы относительно текстовых последовательностей, V-JEPA 2 работает в абстрактном пространстве представлений и фокусируется на понимании физических законов.
Ключевое различие заключается в методе обучения: языковые модели требуют больших объемов размеченных данных и обучаются с помощью контролируемого обучения. V-JEPA 2, с другой стороны, использует самообучение и извлекает знания из неразмеченных видео, тем самым значительно снижая затраты на подготовку данных. Модель обучается не путем восстановления пикселей, а посредством абстрактных представлений видеоконтента.
Архитектура JEPA: обучение посредством прогнозирования
Архитектура JEPA (Joint Embedding Predictive Architecture) была разработана Яном ЛеКуном, главным научным сотрудником Meta в области искусственного интеллекта, и представляет собой альтернативу генеративным моделям ИИ. В отличие от генеративных подходов, которые пытаются восстановить каждый отсутствующий пиксель, V-JEPA 2 работает с замаскированными областями видео и учится предсказывать абстрактные понятия.
Система использует двухэтапный подход к обучению:
Первый этап: Самостоятельное обучение
- Обучение с использованием более миллиона часов видеоматериалов и миллиона изображений
- Изучение моделей физического взаимодействия без ручной разметки
- Разработка внутренней модели физического мира
Вторая фаза: Адаптация, вызванная действием
- Точная настройка с использованием всего 62 часов данных управления роботом из набора данных DROID
- Интеграция действий агентов в возможности прогнозирования
- Обеспечение планирования и управления с обратной связью
Превосходные результаты на практике
Фотоантенна V-JEPA 2 демонстрирует впечатляющие результаты в различных областях:
Распознавание видео и обнаружение движения
- Точность определения первого места в наборе данных Something-Something v2 составила 77,3%
- Показатель полноты ответа через 5 минут в модели прогнозирования действий Epic-Kitchens-100 составил 39,7% (улучшение на 44% по сравнению с предыдущими моделями)
- Передовые результаты в различных задачах, связанных с видеовопросами и ответами
Управление роботом
- Успешность выполнения задач по захвату и перемещению объектов в незнакомой обстановке составляет 65-80%
- Управление роботом без предварительного обучения и без подготовки в конкретных условиях окружающей среды
- Внедрение роботизированных манипуляторов Franka в двух разных лабораториях
Эффективность по сравнению с конкурентами
V-JEPA 2 в 30 раз быстрее модели NVIDIA Cosmos и требует всего 16 секунд для планирования действий робота, в то время как Cosmos на это уходит 4 минуты.
Технические инновации и ключевые особенности
Данная модель характеризуется пятью ключевыми технологическими прорывами:
- Самостоятельное обучение: устраняет необходимость в больших объемах размеченных данных
- Механизм маскирования: обучает модель, предсказывая скрытые области видео
- Обучение абстрактным представлениям: фокус на семантическом значении, а не на деталях пикселей
- Архитектура модели мира: построение внутреннего понимания физических законов
- Эффективное переносное обучение: выдающиеся возможности обучения без предварительного обучения
Новые тесты выявляют пределы возможностей современного искусственного интеллекта
Параллельно с выпуском V-JEPA 2 компания Meta представила три новых бенчмарка, проверяющих физическое понимание систем искусственного интеллекта:
IntPhys 2
Это проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели в этом отношении показывают результаты, близкие к случайным.
MVPBench
В нем используются визуально похожие пары видеороликов с противоположными ответами на один и тот же вопрос. V-JEPA 2 достигает точности сопоставления парных данных в 44,5% — это лучший результат среди всех протестированных систем.
CausalVQA
В исследовании рассматриваются причинно-следственные связи и контрфактические рассуждения. Результаты показывают, что современные системы искусственного интеллекта хорошо описывают то, что видят, но испытывают трудности с прогнозированием альтернативных результатов.
Искусственный интеллект без избытка данных: как V-JEPA 2 повышает эффективность машинного обучения
Ян Лекун считает, что такие мировые модели, как V-JEPA 2, являются ключом к развитию искусственного интеллекта следующего поколения. Эта модель может произвести революцию в различных областях применения:
Робототехника и бытовые помощники
Модели реального мира призваны положить начало новой эре робототехники, в которой агенты искусственного интеллекта смогут решать задачи реального мира без астрономических объемов обучающих данных.
Автономные транспортные средства
Способность V-JEPA 2 к пространственному распознаванию в реальном времени может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки с помощью дронов.
Дополненная реальность (AR) и виртуальные помощники
Компания Meta планирует расширить функциональность V-JEPA 2 за счет интеграции аудиоаналитики и улучшенных возможностей распознавания видео для очков дополненной реальности и виртуальных помощников.
Доступность открытого исходного кода и финансирование исследований
Компания Meta выпустила V-JEPA 2 в качестве открытого исходного кода под лицензией CC-BY-NC для содействия глобальным исследованиям в области искусственного интеллекта. Код модели доступен на GitHub и может быть запущен на таких платформах, как Google Colab и Kaggle. Эта открытость контрастирует со многими другими крупными моделями ИИ и призвана способствовать развитию моделей окружающего мира в робототехнике и воплощенном ИИ.
Сдвиг парадигмы в разработке ИИ
V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от чистой обработки языка к более глубокому пониманию физического мира. В то время как большинство компаний, занимающихся ИИ, полагаются на генеративные модели, Meta предлагает альтернативное видение будущего искусственного интеллекта, используя подход, основанный на моделях мира. Способность учиться на минимальном объеме данных и обеспечивать управление роботами без предварительного обучения может проложить путь к новому поколению интеллектуальных систем, которые смогут не только понимать, но и действовать в реальном мире.
В связи с этим:
Ваш глобальный партнер по маркетингу и развитию бизнеса
☑️ Язык ведения нашего бизнеса — английский или немецкий
☑️ НОВИНКА: Переписка на вашем родном языке!
Я и моя команда будем рады быть вашими личными консультантами.
Вы можете связаться со мной, заполнив контактную форму здесь wolfenstein@xpert.digital:или просто позвонив по номеру +49 7348 4088 965. Мой адрес электронной почты
Я с нетерпением жду начала нашего совместного проекта.

