Опубліковано: 13 червня 2025 р. / Оновлення з: 13 червня 2025 р. - Автор: Конрад Вольфенштейн
Для роботів та інших агентів AI: модель AI V-Jepa 2 Meta-AI, яка розуміє наш фізичний світовий образ: xpert.digital
Meta представляє V-JEPA 2: система AI вивчає прогнози про фізичний світ
Meta публікує V-Jepa 2: Революційна світова модель AI для майбутнього штучного інтелекту
За допомогою V-Jepa 2 Meta представила новаторську систему AI, яка дотримується фундаментального підходу, ніж звичайні великі голосові моделі. Сильна світова модель параметрів 1,2 мільярда була розроблена для того, щоб допомогти роботам та іншим агентам AI зрозуміти фізичний світ та передбачити, як він реагуватиме на його дії.
Що таке V-JEPA 2 і чим він відрізняється від голосових моделей?
V-JEPA 2 означає "ВІДПОВІДНИЙ Вбудовування прогнозованої архітектури 2" і базується на зовсім іншій архітектурі, ніж традиційні голосові моделі. У той час як голосові моделі, такі як CHATGPT або GPT-4, роблять ймовірнісні прогнози щодо текстових послідовностей, V-Jepa 2 працює в абстрактній кімнаті представництва та зосереджується на розумінні фізичних законів.
Вирішальна різниця полягає в методі навчання: Мова моделі потребує великої кількості мічених даних та навчання через моніторинг навчання. З іншого боку, V-JEPA 2 використовує самоконтрольоване навчання та витягуючи знань з небажаних відео, що значно знижує витрати на підготовку даних. Модель навчається не через реконструкцію пікселів, а через абстрактні уявлення про відеоконтент.
Архітектура Джепи: навчання за прогнозом
Спільна вбудовування прогнозованої архітектури (JEPA) була розроблена Янн Лекун, керівником Metas AI вченим і являє собою альтернативу генеративним моделям AI. На відміну від генеративних підходів, які намагаються реконструювати кожен відсутній піксель, V-Jepa 2 працює з маскуваними відео Дубами та навчається прогнозувати абстрактні поняття.
Система використовує підхід до тренувань з двома етапами:
Перший етап: Самоофірне навчання
- Навчання з понад мільйон годин відео матеріалу та мільйон фотографій
- Вивчіть фізичні схеми взаємодії без анотації людини
- Розробка внутрішньої моделі фізичного світу
Другий етап: Адаптація, пов'язана з дією
- Тонка настройка лише 62 години даних управління роботами з набору даних Droid
- Інтеграція агентських дій у навички прогнозування
- Увімкнення планування та закритого управління ланцюгом управління
Чудова продуктивність на практиці
V-JEPA 2 демонструє вражаючі показники в різних сферах:
Розуміння відео та виявлення руху
- 77,3% Топ -1 Точність у чомусь наборі даних V2
- 39,7% відкликання-5 для прогнозу дії епічних укусів-100 (поліпшення 44% порівняно з попередніми моделями)
- Найсучасніша ефективність у різних завданнях відповіді на відео
Контроль роботів
- 65-80% успішності для вибору завдань у невідомих умовах
- Контроль роботів з нульовим котом без навколишнього середовища
- Використовуйте у двох різних лабораторіях з зброєю Franka Robot
Ефективність порівняно з конкуренцією
V-Jepa 2 в 30 разів швидше, ніж модель космосу NVIDIA, і для планування дії робота потрібно лише 16 секунд, тоді як Космосу потрібно 4 хвилини.
Технічні інновації та ключові характеристики
Модель характеризується п'ятьма центральними технічними проривами:
- Самоофірне навчання: усуває потребу у великій кількості мічених даних
- Механізм маскування: тренує модель шляхом прогнозування прихованих відео -областей
- Анотація репрезентативного навчання: Зосередьтеся на семантичних значеннях замість деталей пікселів
- Архітектура світової моделі: встановлення внутрішнього розуміння фізичних законів
- Ефективне передове навчання: Видатні навички навчання з нульовим помахом
Нові орієнтири очевидні межі поточного ШІ
META випустив три нові орієнтири паралельно з V-Jepa 2, які перевіряють фізичне розуміння систем AI:
Intphys 2
Тестує здатність розрізняти фізично правдоподібні та неможливі сценарії. Навіть вдосконалені моделі все ще близькі до випадкового рівня тут.
Mvpbench
Візуально використовує подібні відео -машини з протилежними відповідями на те саме питання. V-JEPA 2 досягає 44,5% парної точності-найкраща продуктивність усіх тестованих систем.
Causalvqa
Вивчає причинне розуміння та протидіальне мислення. Результати показують, що поточні системи AI можуть добре описати те, що вони бачать, але мають труднощі прогнозувати альтернативні курси.
AI без голоду даних: як машинне навчання V-Jepa 2 робить більш ефективним
Янн Лекун бачить ключ до наступного покоління розвитку AI у світових моделях, таких як V-Jepa 2. Модель може революціонізувати різні сфери застосування:
Асистенти робототехніки та бюджету
Світові моделі, як передбачається, очолюють нову еру робототехніки, в якій агенти AI можуть керувати справжніми завданнями без астрономічних кількостей даних про навчання.
Автономні транспортні засоби
Просторове розуміння в режимі реального часу від V-Jepa 2 може бути вирішальним для автономних транспортних засобів, складських роботів та систем доставки безпілотників.
Розширена реальність (AR) та віртуальні помічники
META планує розширити функції V-JEPA 2, інтегруючи аудіо-аналіз та розширило розуміння відео для окулярів AR та віртуальних помічників.
Наявність з відкритим кодом та просування досліджень
META випустив V-JEPA 2 під ліцензією CC-By-NC як відкритого коду для просування глобальних досліджень AI. Код моделі доступний на Github і може бути виконаний на таких платформах, як Google Colab та Kaggle. Ця відкритість на відміну від багатьох інших великих моделей AI і має на меті сприяти розробці світових моделей робототехніки та втіленого ШІ.
Зміна парадигми в розвитку ШІ
V-JEPA 2 являє собою фундаментальний перехід парадигми від чистої обробки мови до глибшого розуміння фізичного світу. Хоча більшість компаній AI покладаються на генеративні моделі, Meta слідкує за альтернативним баченням майбутнього штучного інтелекту зі своїм світовим модельним підходом. Здатність вчитися з мінімальних даних та забезпечити контроль роботів з нульовим помахом може прокласти шлях для нового покоління інтелектуальних систем, які не тільки розуміють, але й можуть діяти в реальному світі.
Підходить для цього:
Ваш глобальний партнер з маркетингу та розвитку бізнесу
☑ Наша ділова мова - англійська чи німецька
☑ Нове: листування на вашій національній мові!
Я радий бути доступним вам та моїй команді як особистого консультанта.
Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн ∂ xpert.digital
Я з нетерпінням чекаю нашого спільного проекту.