⭐️ Искусственный интеллект (ИИ) — блог об искусственном интеллекте, точка доступа и центр контента ⭐️ Робототехника/Робототехника ⭐️ XPaper

Выбор голоса 📢

Для роботов и других агентов искусственного интеллекта: Model V-Jepa 2 от Meta-AI, который понимает наш физический мир

Опубликовано: 13 июня 2025 г. / Обновление с: 13 июня 2025 г. - Автор: Конрад Вольфенштейн

Для роботов и других агентов искусственного интеллекта: Model V-Jepa 2 из AI-AI, который понимает нашу физическое изображение мира: Xpert.Digital

Мета представляет V-JEPA 2: Система ИИ изучает прогнозы о физическом мире

Мета публикует V-JEPA 2: революционная мировая модель ИИ для будущего искусственного интеллекта

С V-JEPA 2 Meta представила революционную систему ИИ, которая использует фундаментальный подход, чем обычные крупные голосовые модели. Модель сильной мировой модели 1,2 миллиарда была разработана, чтобы помочь роботам и другим агентам искусственного интеллекта понять физический мир и предсказать, как он будет реагировать на его действия.

Что такое V-JEPA 2 и чем он отличается от голосовых моделей?

V-JEPA 2 означает «Прогнозирующая архитектура 2 в сфере видео, и основана на совершенно другой архитектуре, чем традиционные голосовые модели. В то время как голосовые модели, такие как CHATGPT или GPT-4, делают вероятностные прогнозы о текстовых последовательностях, V-JEPA 2 работает в абстрактной комнате представления и фокусируется на понимании физических законов.

Решающая разница заключается в методе обучения: языковые модели требуют больших объемов маркированных данных и обучения посредством мониторинга обучения. V-JEPA 2, с другой стороны, использует самоконтролируемое обучение и извлечение знаний из нежелательных видео, что значительно снижает затраты на подготовку данных. Модель учится не через реконструкцию пикселей, а с помощью абстрактных представлений видеоконтента.

Архитектура JEPA: обучение прогнозированием

Совместная предсказательная архитектура внедрения (JEPA) была разработана Янном Лекуном, руководителем METAS AI и представляет собой альтернативу генеративным моделям ИИ. В отличие от генеративных подходов, которые пытаются реконструировать каждый недостающий пиксель, V-Jepa 2 работает с маскированными видео дубами и учится прогнозировать абстрактные концепции.

Система использует двухэтапный подход к обучению:

Первый этап: самоотражаемое обучение

Обучение с более чем миллион часов видео материала и миллиона фотографий
Узнайте схемы физического взаимодействия без человеческих аннотаций
Разработка внутренней модели физического мира

Вторая фаза: адаптация, связанная с действием

Тонкая настройка с 62 часами данных управления роботом из набора данных Droid
Интеграция действий агента в прогнозирующие навыки
Включение управления планированием и замкнутым управлением управлением

Превосходная производительность на практике

V-JEPA 2 демонстрирует впечатляющую производительность в разных областях:

Понимание видео и обнаружение движения

77,3% Топ -1 точность в чем -то наборе данных v2
39,7% отзыв-At-5 для прогноза действия Epic-Kitchens-100 (улучшение на 44% по сравнению с предыдущими моделями)
Современное выступление в различных задачах ответа на видео-вопросов

Управление роботом

65-80% Уровень успеха для задач выбора и места в неизвестных средах
Ноль-выстрел контроль роботов без экологического обучения
Использовать в двух разных лабораториях с Franka Robot Arms

Эффективность по сравнению с конкуренцией

V-JEPA 2 в 30 раз быстрее, чем модель NVIDIA Cosmos, и требуется только 16 секунд, чтобы спланировать действие робота, в то время как Космосу нужно 4 минуты.

Технические инновации и ключевые характеристики

Модель характеризуется пятью центральными техническими прорывами:

Самоотрастное обучение: устраняет необходимость в больших количествах маркированных данных
Маскирующий механизм: обучает модель, прогнозируя скрытые видео -области
Абстрактное представительное обучение: фокус на семантических значениях вместо деталей пикселей
Мировая модель архитектура: создание внутреннего понимания физических законов
Эффективное обучение переноса: выдающиеся навыки обучения с нулевым выстрелом

Новые тесты кажущиеся пределы текущего ИИ

Meta выпустила три новых критерия параллельно с V-JEPA 2, которые проверяют физическое понимание систем ИИ:

Intphys 2

Проверяет способность различать физически правдоподобные и невозможные сценарии. Даже продвинутые модели все еще близки к случайному уровню здесь.

MVPbench

Визуально использует аналогичные видео -автомобили с противоположными ответами на тот же вопрос. V-JEPA 2 достигает 44,5% парной точности-лучшие характеристики всех протестированных систем.

CASALVQA

Изучает причинно -следственное понимание и противораковое мышление. Результаты показывают, что текущие системы ИИ могут хорошо описать то, что они видят, но испытывают трудности с прогнозированием альтернативных курсов.

ИИ без голода для данных: как машинное обучение V-JEPA 2 делает более эффективным

Янн Лекун видит ключ к следующему поколению разработки ИИ в мировых моделях, таких как V-JEPA 2. Модель может революционизировать различные области применения:

Робототехника и бюджетные помощники

Предполагается, что мировые модели предвещают новую эру робототехники, в которой агенты искусственного интеллекта могут управлять реальными задачами без астрономических объемов учебных данных.

Автономные транспортные средства

Пространственное понимание в режиме реального времени от V-JEPA 2 может иметь решающее значение для автономных транспортных средств, складских роботов и систем доставки беспилотников.

Расширенная реальность (AR) и виртуальные помощники

Мета планирует расширить функции V-JEPA 2 путем интеграции аудио-анализа и расширенного понимания видео для очков AR и виртуальных помощников.

Доступность с открытым исходным кодом и продвижение исследований

Meta выпустила V-JEPA 2 по лицензии CC-BY-NC в качестве открытого исходного кода для продвижения глобальных исследований в области искусственного интеллекта. Код модели доступен на GitHub и может быть выполнен на таких платформах, как Google Colab и Kaggle. Эта открытость в отличие от многих других крупных моделей ИИ и предназначена для продвижения развития мировых моделей в робототехнике и воплощенного ИИ.

Сдвиг парадигмы в разработке ИИ

V-JEPA 2 представляет собой фундаментальный сдвиг парадигмы от обработки чистого языка к более глубокому пониманию физического мира. В то время как большинство компаний искусственного интеллекта полагаются на генеративные модели, Meta следует альтернативному видению будущего искусственного интеллекта с его мировым модельным подходом. Способность учиться на минимальных данных и обеспечивать контроль роботов с нулевым выстрелом может проложить путь для нового поколения интеллектуальных систем, которые не только понимают, но также могут действовать в реальном мире.

Подходит для:

Ваш глобальный партнер по маркетингу и развитию бизнеса

☑️ Наш деловой язык — английский или немецкий.

☑️ НОВИНКА: Переписка на вашем национальном языке!

Конрад Вольфенштейн

Я был бы рад служить вам и моей команде в качестве личного консультанта.

Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein ∂ xpert.digital

Я с нетерпением жду нашего совместного проекта.