Опубликовано: 13 июня 2025 г. / Обновление с: 13 июня 2025 г. - Автор: Конрад Вольфенштейн
Для роботов и других агентов искусственного интеллекта: Model V-Jepa 2 из AI-AI, который понимает нашу физическое изображение мира: Xpert.Digital
Мета представляет V-JEPA 2: Система ИИ изучает прогнозы о физическом мире
Мета публикует V-JEPA 2: революционная мировая модель ИИ для будущего искусственного интеллекта
С V-JEPA 2 Meta представила революционную систему ИИ, которая использует фундаментальный подход, чем обычные крупные голосовые модели. Модель сильной мировой модели 1,2 миллиарда была разработана, чтобы помочь роботам и другим агентам искусственного интеллекта понять физический мир и предсказать, как он будет реагировать на его действия.
Что такое V-JEPA 2 и чем он отличается от голосовых моделей?
V-JEPA 2 означает «Прогнозирующая архитектура 2 в сфере видео, и основана на совершенно другой архитектуре, чем традиционные голосовые модели. В то время как голосовые модели, такие как CHATGPT или GPT-4, делают вероятностные прогнозы о текстовых последовательностях, V-JEPA 2 работает в абстрактной комнате представления и фокусируется на понимании физических законов.
Решающая разница заключается в методе обучения: языковые модели требуют больших объемов маркированных данных и обучения посредством мониторинга обучения. V-JEPA 2, с другой стороны, использует самоконтролируемое обучение и извлечение знаний из нежелательных видео, что значительно снижает затраты на подготовку данных. Модель учится не через реконструкцию пикселей, а с помощью абстрактных представлений видеоконтента.
Архитектура JEPA: обучение прогнозированием
Совместная предсказательная архитектура внедрения (JEPA) была разработана Янном Лекуном, руководителем METAS AI и представляет собой альтернативу генеративным моделям ИИ. В отличие от генеративных подходов, которые пытаются реконструировать каждый недостающий пиксель, V-Jepa 2 работает с маскированными видео дубами и учится прогнозировать абстрактные концепции.
Система использует двухэтапный подход к обучению:
Первый этап: самоотражаемое обучение
- Обучение с более чем миллион часов видео материала и миллиона фотографий
- Узнайте схемы физического взаимодействия без человеческих аннотаций
- Разработка внутренней модели физического мира
Вторая фаза: адаптация, связанная с действием
- Тонкая настройка с 62 часами данных управления роботом из набора данных Droid
- Интеграция действий агента в прогнозирующие навыки
- Включение управления планированием и замкнутым управлением управлением
Превосходная производительность на практике
V-JEPA 2 демонстрирует впечатляющую производительность в разных областях:
Понимание видео и обнаружение движения
- 77,3% Топ -1 точность в чем -то наборе данных v2
- 39,7% отзыв-At-5 для прогноза действия Epic-Kitchens-100 (улучшение на 44% по сравнению с предыдущими моделями)
- Современное выступление в различных задачах ответа на видео-вопросов
Управление роботом
- 65-80% Уровень успеха для задач выбора и места в неизвестных средах
- Ноль-выстрел контроль роботов без экологического обучения
- Использовать в двух разных лабораториях с Franka Robot Arms
Эффективность по сравнению с конкуренцией
V-JEPA 2 в 30 раз быстрее, чем модель NVIDIA Cosmos, и требуется только 16 секунд, чтобы спланировать действие робота, в то время как Космосу нужно 4 минуты.
Технические инновации и ключевые характеристики
Модель характеризуется пятью центральными техническими прорывами:
- Самоотрастное обучение: устраняет необходимость в больших количествах маркированных данных
- Маскирующий механизм: обучает модель, прогнозируя скрытые видео -области
- Абстрактное представительное обучение: фокус на семантических значениях вместо деталей пикселей
- Мировая модель архитектура: создание внутреннего понимания физических законов
- Эффективное обучение переноса: выдающиеся навыки обучения с нулевым выстрелом
Новые тесты кажущиеся пределы текущего ИИ
Meta выпустила три новых критерия параллельно с V-JEPA 2, которые проверяют физическое понимание систем ИИ:
Intphys 2
Проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели все еще близки к случайному уровню здесь.
MVPbench
Визуально использует аналогичные видео -автомобили с противоположными ответами на тот же вопрос. V-JEPA 2 достигает 44,5% парной точности-лучшие характеристики всех протестированных систем.
CASALVQA
Изучает причинно -следственное понимание и противораковое мышление. Результаты показывают, что текущие системы ИИ могут хорошо описать то, что они видят, но испытывают трудности с прогнозированием альтернативных курсов.
ИИ без голода для данных: как машинное обучение V-JEPA 2 делает более эффективным
Янн Лекун видит ключ к следующему поколению разработки ИИ в мировых моделях, таких как V-JEPA 2. Модель может революционизировать различные области применения:
Робототехника и бюджетные помощники
Предполагается, что мировые модели предвещают новую эру робототехники, в которой агенты искусственного интеллекта могут управлять реальными задачами без астрономических объемов учебных данных.
Автономные транспортные средства
Пространственное понимание в режиме реального времени от V-JEPA 2 может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки беспилотников.
Расширенная реальность (AR) и виртуальные помощники
Мета планирует расширить функции V-JEPA 2 путем интеграции аудио-анализа и расширенного понимания видео для очков AR и виртуальных помощников.
Доступность с открытым исходным кодом и продвижение исследований
Meta выпустила V-JEPA 2 по лицензии CC-BY-NC в качестве открытого исходного кода для продвижения глобальных исследований в области искусственного интеллекта. Код модели доступен на GitHub и может быть выполнен на таких платформах, как Google Colab и Kaggle. Эта открытость в отличие от многих других крупных моделей ИИ и предназначена для продвижения развития мировых моделей в робототехнике и воплощенного ИИ.
Сдвиг парадигмы в разработке ИИ
V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от обработки чистого языка к более глубокому пониманию физического мира. В то время как большинство компаний искусственного интеллекта полагаются на генеративные модели, Meta следует альтернативному видению будущего искусственного интеллекта с его мировым модельным подходом. Способность учиться на минимальных данных и обеспечивать контроль роботов с нулевым выстрелом может проложить путь для нового поколения интеллектуальных систем, которые не только понимают, но также могут действовать в реальном мире.
Подходит для:
Ваш глобальный партнер по маркетингу и развитию бизнеса
☑️ Наш деловой язык — английский или немецкий.
☑️ НОВИНКА: Переписка на вашем национальном языке!
Я был бы рад служить вам и моей команде в качестве личного консультанта.
Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein ∂ xpert.digital
Я с нетерпением жду нашего совместного проекта.