Піктограма веб -сайту Xpert.digital

Для роботів та інших агентів AI: модель AI V-Jepa 2 від Meta-AI, яка розуміє наш фізичний світ

Для роботів та інших агентів AI: модель AI V-Jepa 2 від Meta-AI, яка розуміє наш фізичний світ

Для роботів та інших агентів штучного інтелекту: Модель штучного інтелекту V-JEPA 2 від Meta – Штучний інтелект, який розуміє наш фізичний світ – Зображення: Xpert.Digital

Meta представляє V-JEPA 2: система штучного інтелекту вчиться робити прогнози щодо фізичного світу

Meta публікує V-JEPA 2: Революційна модель світу штучного інтелекту для майбутнього

Meta представила V-JEPA 2, новаторську систему штучного інтелекту, яка використовує принципово інший підхід, ніж традиційні моделі великої мови. Ця модель світу з її 1,2 мільярдами параметрів була розроблена, щоб допомогти роботам та іншим агентам штучного інтелекту розуміти фізичний світ і передбачати, як він реагуватиме на їхні дії.

Що таке V-JEPA 2 і чим він відрізняється від мовних моделей?

V-JEPA 2 розшифровується як «Video Joint Embedding Predictive Architecture 2» (Прогнозована архітектура спільного вбудовування відео 2) і базується на зовсім іншій архітектурі, ніж традиційні мовні моделі. У той час як мовні моделі, такі як ChatGPT або GPT-4, роблять ймовірнісні прогнози щодо текстових послідовностей, V-JEPA 2 працює в абстрактному репрезентативному просторі та зосереджується на розумінні фізичних законів.

Ключова відмінність полягає в методі навчання: мовні моделі вимагають великої кількості розмічених даних і навчаються за допомогою контрольованого навчання. V-JEPA 2, з іншого боку, використовує самостійне навчання та витягує знання з немаркованих відео, тим самим значно знижуючи витрати на підготовку даних. Модель навчається не за допомогою піксельної реконструкції, а за допомогою абстрактних представлень відеоконтенту.

Архітектура JEPA: навчання через прогнозування

Архітектура прогнозування спільного вбудовування (JEPA) була розроблена Янном ЛеКуном, головним науковцем Meta з питань штучного інтелекту, і являє собою альтернативу генеративним моделям штучного інтелекту. На відміну від генеративних підходів, які намагаються реконструювати кожен відсутній піксель, V-JEPA 2 працює з маскованими областями відео та навчається передбачати абстрактні концепції.

Система використовує двоетапний підхід до навчання:

Перший етап: Самостійне навчання

  • Навчання з понад мільйоном годин відеоматеріалів та мільйоном зображень
  • Вивчення моделей фізичної взаємодії без людських коментарів
  • Розробка внутрішньої моделі фізичного світу

Друга фаза: Адаптація, викликана дією

  • Точне налаштування лише за 62 години даних керування роботом з набору даних DROID
  • Інтеграція дій агентів у прогностичні можливості
  • Забезпечення планування та замкнутого циклу управління

Чудова продуктивність на практиці

V-JEPA 2 демонструє вражаючі результати в різних сферах:

Розпізнавання відео та виявлення руху

  • 77,3% точності з рейтингом 1 у наборі даних Something-Something v2
  • 39,7% показник відтворення на 5-й хвилині в прогнозуванні дій Epic-Kitchens-100 (покращення на 44% порівняно з попередніми моделями)
  • Найсучасніша продуктивність у різних відеозавданнях типу «питання-відповідь»

Керування роботом

  • 65-80% показник успішності у завданнях типу «підбирай та розміщуй» у незнайомих умовах
  • Нульове керування роботом без навчання специфічним умовам середовища
  • Розгортання у двох різних лабораторіях з робототехнічними маніпуляторами Franka

Ефективність порівняно з конкурентами

V-JEPA 2 у 30 разів швидший за модель Cosmos від NVIDIA та потребує лише 16 секунд для планування дії робота, тоді як Cosmos займає 4 хвилини.

Технічні інновації та ключові характеристики

Модель характеризується п'ятьма ключовими технологічними проривами:

  1. Самостійне навчання: усуває потребу у великих обсягах маркованих даних.
  2. Механізм маскування: Навчає модель, прогнозуючи приховані області відео
  3. Навчання абстрактного представлення: зосередьтеся на семантичних значеннях, а не на піксельних деталях
  4. Архітектура моделі світу: формування внутрішнього розуміння фізичних законів
  5. Ефективне трансферне навчання: Видатні здібності до навчання з нульовим результатом

Нові бенчмарки розкривають межі сучасного штучного інтелекту

Паралельно з V-JEPA 2, Meta випустила три нові бенчмарки, які перевіряють фізичне розуміння систем штучного інтелекту:

Міжнародна фізика 2

Він перевіряє здатність розрізняти фізично правдоподібні та неможливі сценарії. Навіть просунуті моделі все ще працюють у цьому відношенні майже випадково.

MVPBench

Він використовує візуально схожі пари відео з протилежними відповідями на одне й те саме запитання. V-JEPA 2 досягає парної точності 44,5% – найкращої продуктивності серед усіх протестованих систем.

ПричиннийVQA

У дослідженні розглядається причинно-наслідкове розуміння та контрфактуальні міркування. Результати показують, що сучасні системи штучного інтелекту можуть добре описувати те, що вони бачать, але мають труднощі з прогнозуванням альтернативних результатів.

Штучний інтелект без потреби в даних: як V-JEPA 2 робить машинне навчання ефективнішим

Янн ЛеКун вважає світові моделі, такі як V-JEPA 2, ключем до наступного покоління розробки штучного інтелекту. Модель може революціонізувати різні сфери застосування:

Робототехніка та домашні помічники

Моделі світу покликані започаткувати нову еру робототехніки, в якій агенти штучного інтелекту зможуть виконувати реальні завдання без астрономічних обсягів навчальних даних.

Автономні транспортні засоби

Розуміння простору в режимі реального часу за допомогою V-JEPA 2 може бути вирішальним для автономних транспортних засобів, складських роботів та систем доставки за допомогою дронів.

Доповнена реальність (AR) та віртуальні помічники

Meta планує розширити функціональність V-JEPA 2, інтегруючи аудіоаналітику та розширені можливості розпізнавання відео для AR-окулярів та віртуальних помічників.

Доступність відкритого коду та фінансування досліджень

Meta випустила V-JEPA 2 з відкритим вихідним кодом за ліцензією CC-BY-NC для сприяння глобальним дослідженням штучного інтелекту. Код моделі доступний на GitHub і може бути запущений на таких платформах, як Google Colab і Kaggle. Ця відкритість контрастує з багатьма іншими великими моделями штучного інтелекту та покликана сприяти розвитку світових моделей у робототехніці та втіленому штучному інтелекті.

Зміна парадигми в розробці штучного інтелекту

V-JEPA 2 являє собою фундаментальний зсув парадигми від обробки чистої мови до глибшого розуміння фізичного світу. У той час як більшість компаній, що займаються штучним інтелектом, покладаються на генеративні моделі, Meta пропонує альтернативне бачення майбутнього штучного інтелекту за допомогою свого підходу, заснованого на світовій моделі. Здатність навчатися на мінімальних даних та забезпечувати керувати роботами з нульовим рівнем можливостей може прокласти шлях для нового покоління інтелектуальних систем, які можуть не тільки розуміти, але й діяти в реальному світі.

Підходить для цього:

 

Ваш глобальний партнер з маркетингу та розвитку бізнесу

☑ Наша ділова мова - англійська чи німецька

☑ Нове: листування на вашій національній мові!

 

Konrad Wolfenstein

Я радий бути доступним вам та моїй команді як особистого консультанта.

Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн xpert.digital

Я з нетерпінням чекаю нашого спільного проекту.

 

 

☑ Підтримка МСП у стратегії, порадах, плануванні та впровадженні

☑ Створення або перестановка цифрової стратегії та оцифрування

☑ Розширення та оптимізація міжнародних процесів продажів

☑ Глобальні та цифрові торгові платформи B2B

☑ Піонерський розвиток бізнесу / маркетинг / PR / Мір

Залиште мобільну версію