Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир.

Konrad Wolfenstein

1 год назад

Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир – Изображение: Xpert.Digital

Meta представляет V-JEPA 2: система искусственного интеллекта учится делать прогнозы о физическом мире

Компания Meta опубликовала статью V-JEPA 2: революционную модель мира искусственного интеллекта для будущего искусственного интеллекта

Компания Meta представила V-JEPA 2, новаторскую систему искусственного интеллекта, которая использует принципиально иной подход, чем традиционные модели глобального языка. Эта модель мира, содержащая 1,2 миллиарда параметров, была разработана, чтобы помочь роботам и другим агентам ИИ понимать физический мир и предсказывать, как он будет реагировать на их действия.

Что такое V-JEPA 2 и чем он отличается от языковых моделей?

V-JEPA 2 расшифровывается как «Video Joint Embedding Predictive Architecture 2» и основана на совершенно иной архитектуре, чем традиционные языковые модели. В то время как языковые модели, такие как ChatGPT или GPT-4, делают вероятностные прогнозы относительно текстовых последовательностей, V-JEPA 2 работает в абстрактном пространстве представлений и фокусируется на понимании физических законов.

Ключевое различие заключается в методе обучения: языковые модели требуют больших объемов размеченных данных и обучаются с помощью контролируемого обучения. V-JEPA 2, с другой стороны, использует самообучение и извлекает знания из неразмеченных видео, тем самым значительно снижая затраты на подготовку данных. Модель обучается не путем восстановления пикселей, а посредством абстрактных представлений видеоконтента.

Архитектура JEPA: обучение посредством прогнозирования

Архитектура JEPA (Joint Embedding Predictive Architecture) была разработана Яном ЛеКуном, главным научным сотрудником Meta в области искусственного интеллекта, и представляет собой альтернативу генеративным моделям ИИ. В отличие от генеративных подходов, которые пытаются восстановить каждый отсутствующий пиксель, V-JEPA 2 работает с замаскированными областями видео и учится предсказывать абстрактные понятия.

Система использует двухэтапный подход к обучению:

Первый этап: Самостоятельное обучение

Обучение с использованием более миллиона часов видеоматериалов и миллиона изображений
Изучение моделей физического взаимодействия без ручной разметки
Разработка внутренней модели физического мира

Вторая фаза: Адаптация, вызванная действием

Точная настройка с использованием всего 62 часов данных управления роботом из набора данных DROID
Интеграция действий агентов в возможности прогнозирования
Обеспечение планирования и управления с обратной связью

Превосходные результаты на практике

Фотоантенна V-JEPA 2 демонстрирует впечатляющие результаты в различных областях:

Распознавание видео и обнаружение движения

Точность определения первого места в наборе данных Something-Something v2 составила 77,3%
Показатель полноты ответа через 5 минут в модели прогнозирования действий Epic-Kitchens-100 составил 39,7% (улучшение на 44% по сравнению с предыдущими моделями)
Передовые результаты в различных задачах, связанных с видеовопросами и ответами

Управление роботом

Успешность выполнения задач по захвату и перемещению объектов в незнакомой обстановке составляет 65-80%
Управление роботом без предварительного обучения и без подготовки в конкретных условиях окружающей среды
Внедрение роботизированных манипуляторов Franka в двух разных лабораториях

Эффективность по сравнению с конкурентами

V-JEPA 2 в 30 раз быстрее модели NVIDIA Cosmos и требует всего 16 секунд для планирования действий робота, в то время как Cosmos на это уходит 4 минуты.

Технические инновации и ключевые особенности

Данная модель характеризуется пятью ключевыми технологическими прорывами:

Самостоятельное обучение: устраняет необходимость в больших объемах размеченных данных
Механизм маскирования: обучает модель, предсказывая скрытые области видео
Обучение абстрактным представлениям: фокус на семантическом значении, а не на деталях пикселей
Архитектура модели мира: построение внутреннего понимания физических законов
Эффективное переносное обучение: выдающиеся возможности обучения без предварительного обучения

Новые тесты выявляют пределы возможностей современного искусственного интеллекта

Параллельно с выпуском V-JEPA 2 компания Meta представила три новых бенчмарка, проверяющих физическое понимание систем искусственного интеллекта:

IntPhys 2

Это проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели в этом отношении показывают результаты, близкие к случайным.

MVPBench

В нем используются визуально похожие пары видеороликов с противоположными ответами на один и тот же вопрос. V-JEPA 2 достигает точности сопоставления парных данных в 44,5% — это лучший результат среди всех протестированных систем.

CausalVQA

В исследовании рассматриваются причинно-следственные связи и контрфактические рассуждения. Результаты показывают, что современные системы искусственного интеллекта хорошо описывают то, что видят, но испытывают трудности с прогнозированием альтернативных результатов.

Искусственный интеллект без избытка данных: как V-JEPA 2 повышает эффективность машинного обучения

Ян Лекун считает, что такие мировые модели, как V-JEPA 2, являются ключом к развитию искусственного интеллекта следующего поколения. Эта модель может произвести революцию в различных областях применения:

Робототехника и бытовые помощники

Модели реального мира призваны положить начало новой эре робототехники, в которой агенты искусственного интеллекта смогут решать задачи реального мира без астрономических объемов обучающих данных.

Автономные транспортные средства

Способность V-JEPA 2 к пространственному распознаванию в реальном времени может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки с помощью дронов.

Дополненная реальность (AR) и виртуальные помощники

Компания Meta планирует расширить функциональность V-JEPA 2 за счет интеграции аудиоаналитики и улучшенных возможностей распознавания видео для очков дополненной реальности и виртуальных помощников.

Доступность открытого исходного кода и финансирование исследований

Компания Meta выпустила V-JEPA 2 в качестве открытого исходного кода под лицензией CC-BY-NC для содействия глобальным исследованиям в области искусственного интеллекта. Код модели доступен на GitHub и может быть запущен на таких платформах, как Google Colab и Kaggle. Эта открытость контрастирует со многими другими крупными моделями ИИ и призвана способствовать развитию моделей окружающего мира в робототехнике и воплощенном ИИ.

Сдвиг парадигмы в разработке ИИ

V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от чистой обработки языка к более глубокому пониманию физического мира. В то время как большинство компаний, занимающихся ИИ, полагаются на генеративные модели, Meta предлагает альтернативное видение будущего искусственного интеллекта, используя подход, основанный на моделях мира. Способность учиться на минимальном объеме данных и обеспечивать управление роботами без предварительного обучения может проложить путь к новому поколению интеллектуальных систем, которые смогут не только понимать, но и действовать в реальном мире.

В связи с этим:

Ваш глобальный партнер по маркетингу и развитию бизнеса

☑️ Язык ведения нашего бизнеса — английский или немецкий

☑️ НОВИНКА: Переписка на вашем родном языке!

Konrad Wolfenstein

Я и моя команда будем рады быть вашими личными консультантами.

Вы можете связаться со мной, заполнив контактную форму здесь wolfenstein@xpert.digital:или просто позвонив по номеру +49 7348 4088 965. Мой адрес электронной почты

Я с нетерпением жду начала нашего совместного проекта.

Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир.

Meta представляет V-JEPA 2: система искусственного интеллекта учится делать прогнозы о физическом мире

Компания Meta опубликовала статью V-JEPA 2: революционную модель мира искусственного интеллекта для будущего искусственного интеллекта

Что такое V-JEPA 2 и чем он отличается от языковых моделей?