Значок веб-сайта Эксперт.Цифровой

Для роботов и других агентов искусственного интеллекта: Model V-Jepa 2 от Meta-AI, который понимает наш физический мир

Для роботов и других агентов искусственного интеллекта: Model V-Jepa 2 от Meta-AI, который понимает наш физический мир

Для роботов и других агентов ИИ: модель ИИ V-JEPA 2 от Meta – ИИ, который понимает наш физический мир – Изображение: Xpert.Digital

Meta представляет V-JEPA 2: система ИИ учится делать прогнозы о физическом мире

Meta публикует V-JEPA 2: революционную модель мира искусственного интеллекта для будущего

Компания Meta представила V-JEPA 2 — революционную систему искусственного интеллекта, использующую принципиально иной подход, чем традиционные модели «большого языка». Эта модель мира с 1,2 миллиарда параметров была разработана, чтобы помочь роботам и другим агентам искусственного интеллекта понимать физический мир и предсказывать его реакцию на их действия.

Что такое V-JEPA 2 и чем он отличается от языковых моделей?

V-JEPA 2 расшифровывается как «Video Joint Embedding Predictive Architecture 2» и основана на совершенно иной архитектуре, чем традиционные языковые модели. В то время как языковые модели, такие как ChatGPT или GPT-4, делают вероятностные прогнозы относительно текстовых последовательностей, V-JEPA 2 работает в абстрактном пространстве представлений и фокусируется на понимании физических законов.

Ключевое отличие заключается в методе обучения: языковые модели требуют больших объёмов размеченных данных и обучаются посредством контролируемого обучения. V-JEPA 2, с другой стороны, использует самоконтролируемое обучение и извлекает знания из неразмеченных видео, что значительно снижает затраты на подготовку данных. Модель обучается не путём реконструкции пикселей, а посредством абстрактных представлений видеоконтента.

Архитектура JEPA: обучение через прогнозирование

Архитектура Joint Embedding Predictive Architecture (JEPA) была разработана Яном Лекуном, главным специалистом по искусственному интеллекту компании Meta, и представляет собой альтернативу генеративным моделям искусственного интеллекта. В отличие от генеративных подходов, которые пытаются реконструировать каждый недостающий пиксель, V-JEPA 2 работает с замаскированными областями видео и обучается предсказывать абстрактные концепции.

Система использует двухэтапный подход к обучению:

Первый этап: Самоконтролируемое обучение

  • Обучение с использованием более миллиона часов видеоматериалов и миллиона изображений
  • Изучение моделей физического взаимодействия без участия человека
  • Разработка внутренней модели физического мира

Вторая фаза: адаптация, вызванная действием

  • Тонкая настройка с использованием всего лишь 62 часов данных управления роботом из набора данных DROID
  • Интеграция действий агента в прогностические возможности
  • Обеспечение планирования и управления с обратной связью

Превосходная производительность на практике

V-JEPA 2 демонстрирует впечатляющие результаты в различных областях:

Распознавание видео и обнаружение движения

  • 77,3% Точность первого уровня в наборе данных Something-Something v2
  • 39,7%-ная отзывчивость при 5-кратном прогнозировании действий в Epic-Kitchens-100 (улучшение на 44% по сравнению с предыдущими моделями)
  • Современные показатели в различных видеовопросно-ответных заданиях

Управление роботом

  • 65–80% успеха при выполнении задач по подъему и перемещению грузов в незнакомой обстановке
  • Управление роботом с нуля без специальной подготовки к работе в конкретной среде
  • Развертывание в двух разных лабораториях с использованием роботизированных рук Franka

Эффективность по сравнению с конкурентами

V-JEPA 2 в 30 раз быстрее модели NVIDIA Cosmos и требует всего 16 секунд для планирования действий робота, тогда как Cosmos требуется 4 минуты.

Технические инновации и ключевые особенности

Модель характеризуется пятью ключевыми технологическими прорывами:

  1. Самостоятельное обучение: устраняет необходимость в больших объемах маркированных данных.
  2. Механизм маскирования: обучает модель, прогнозируя скрытые области видео.
  3. Абстрактное репрезентативное обучение: сосредоточьтесь на семантических значениях, а не на пиксельных деталях
  4. Архитектура модели мира: формирование внутреннего понимания физических законов
  5. Эффективное трансферное обучение: выдающиеся способности к обучению с нуля

Новые тесты выявляют ограничения современного ИИ

Параллельно с V-JEPA 2 компания Meta выпустила три новых бенчмарка, которые проверяют физическое понимание систем ИИ:

IntPhys 2

Он проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели в этом отношении по-прежнему близки к случайности.

MVPBench

Он использует визуально похожие пары видео с противоположными ответами на один и тот же вопрос. V-JEPA 2 достигает парной точности 44,5% — лучший показатель среди всех протестированных систем.

CausalVQA

Исследование изучает понимание причин и контрфактуальное рассуждение. Результаты показывают, что современные системы искусственного интеллекта хорошо описывают то, что видят, но испытывают трудности с прогнозированием альтернативных результатов.

ИИ без жажды данных: как V-JEPA 2 повышает эффективность машинного обучения

Ян Лекун рассматривает мировые модели, подобные V-JEPA 2, как ключ к следующему поколению разработки ИИ. Эта модель может произвести революцию в различных областях применения:

Робототехника и помощники по дому

Модели мира призваны открыть новую эру робототехники, в которой агенты ИИ смогут решать реальные задачи без астрономических объемов обучающих данных.

Автономные транспортные средства

Пространственное понимание V-JEPA 2 в реальном времени может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки с помощью дронов.

Дополненная реальность (AR) и виртуальные помощники

Meta планирует расширить функциональность V-JEPA 2 за счет интеграции аудиоаналитики и улучшенных возможностей распознавания видео для очков дополненной реальности и виртуальных помощников.

Доступность открытого исходного кода и финансирование исследований

Компания Meta выпустила V-JEPA 2 с открытым исходным кодом под лицензией CC-BY-NC для содействия глобальным исследованиям в области искусственного интеллекта. Код модели доступен на GitHub и может быть запущен на таких платформах, как Google Colab и Kaggle. Эта открытость контрастирует со многими другими крупными моделями искусственного интеллекта и призвана способствовать развитию моделей мира в робототехнике и воплощенном ИИ.

Смена парадигмы в разработке ИИ

V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от чисто языковой обработки к более глубокому пониманию физического мира. В то время как большинство компаний, занимающихся ИИ, полагаются на генеративные модели, Meta реализует альтернативное видение будущего искусственного интеллекта, используя подход, основанный на модели мира. Способность обучаться на минимальных данных и обеспечивать управление роботами с нулевого уровня может проложить путь к новому поколению интеллектуальных систем, способных не только понимать реальный мир, но и действовать в нём.

Подходит для:

 

Ваш глобальный партнер по маркетингу и развитию бизнеса

☑️ Наш деловой язык — английский или немецкий.

☑️ НОВИНКА: Переписка на вашем национальном языке!

 

Konrad Wolfenstein

Я был бы рад служить вам и моей команде в качестве личного консультанта.

Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein xpert.digital

Я с нетерпением жду нашего совместного проекта.

 

 

☑️ Поддержка МСП в разработке стратегии, консультировании, планировании и реализации.

☑️ Создание или корректировка цифровой стратегии и цифровизации.

☑️ Расширение и оптимизация процессов международных продаж.

☑️ Глобальные и цифровые торговые платформы B2B

☑️ Пионерское развитие бизнеса/маркетинг/PR/выставки.

Выйти из мобильной версии