За роботи и други агенти с изкуствен интелект: V-JEPA 2 AI моделът на Meta – Изкуственият интелект, който разбира нашия физически свят

Konrad Wolfenstein

преди 1 година

За роботи и други агенти с изкуствен интелект: V-JEPA 2 AI моделът на Meta - Изкуственият интелект, който разбира нашия физически свят

За роботи и други AI агенти: V-JEPA 2 AI моделът от Meta – AI, който разбира нашия физически свят – Изображение: Xpert.Digital

Meta представя V-JEPA 2: AI система се учи да прави прогнози за физическия свят

Meta публикува V-JEPA 2: Революционен модел на света на изкуствения интелект за бъдещето на технологиите

Meta представи V-JEPA 2, новаторска система с изкуствен интелект, която използва коренно различен подход от конвенционалните модели на големия език. Този модел на света, със своите 1,2 милиарда параметъра, е разработен, за да помогне на роботи и други агенти с изкуствен интелект да разбират физическия свят и да предскажат как той ще реагира на техните действия.

Какво е V-JEPA 2 и как се различава от езиковите модели?

V-JEPA 2 е съкращение от „Video Joint Embedding Predictive Architecture 2“ (архитектура за прогнозиране на видеосъединяване 2) и е базирана на напълно различна архитектура от традиционните езикови модели. Докато езикови модели като ChatGPT или GPT-4 правят вероятностни прогнози за текстови последователности, V-JEPA 2 работи в абстрактно представително пространство и се фокусира върху разбирането на физичните закони.

Ключовата разлика се крие в метода на обучение: езиковите модели изискват големи количества етикетирани данни и се учат чрез контролирано обучение. V-JEPA 2, от друга страна, използва самоконтролирано обучение и извлича знания от немаркирани видеоклипове, като по този начин значително намалява разходите за подготовка на данните. Моделът се учи не чрез пикселна реконструкция, а чрез абстрактни представяния на видео съдържанието.

Архитектурата на JEPA: Учене чрез прогнозиране

Съвместната вграждаща предсказваща архитектура (JEPA) е разработена от Ян ЛеКун, главен учен по изкуствен интелект в Meta, и представлява алтернатива на генеративните модели на изкуствен интелект. За разлика от генеративните подходи, които се опитват да реконструират всеки липсващ пиксел, V-JEPA 2 работи с маскирани видео региони и се учи да предсказва абстрактни понятия.

Системата използва двуетапен подход за обучение:

Първа фаза: Самостоятелно обучение

Обучение с над един милион часа видео материал и един милион изображения
Усвояване на модели на физическо взаимодействие без човешка анотация
Разработване на вътрешен модел на физическия свят

Втора фаза: Адаптация, предизвикана от действие

Фина настройка само с 62 часа данни за управление на роботи от набора от данни DROID
Интегриране на действията на агентите в предсказващите възможности
Осигуряване на планиране и управление в затворен контур

Превъзходно представяне на практика

V-JEPA 2 демонстрира впечатляващи резултати в различни области:

Разпознаване на видео и откриване на движение

77,3% точност от Топ 1 в набора от данни Something-Something v2
39,7% припомняне на 5-та минута в прогнозирането на действията на Epic-Kitchens-100 (44% подобрение спрямо предишни модели)
Най-съвременно представяне в различни видео задачи с въпроси и отговори

Управление на роботи

65-80% успеваемост при задачи за вземане и поставяне в непозната среда
Управление на робота с нулев потенциал без обучение, специфично за околната среда
Разгръщане в две различни лаборатории с роботизирани ръце Franka

Ефективност в сравнение с конкуренцията

V-JEPA 2 е 30 пъти по-бърз от модела Cosmos на NVIDIA и се нуждае само от 16 секунди, за да планира действие на робот, докато Cosmos отнема 4 минути.

Технически иновации и ключови характеристики

Моделът се характеризира с пет ключови технологични пробива:

Самостоятелно обучение: Елиминира необходимостта от големи количества етикетирани данни
Механизъм за маскиране: Обучава модела чрез предвиждане на скрити видео области
Обучение на абстрактно представяне: Фокус върху семантичните значения, вместо върху пикселните детайли
Архитектура на световния модел: Изграждане на вътрешно разбиране на физичните закони
Ефективно трансферно обучение: Изключителни способности за учене с нулев резултат

Нови бенчмаркове разкриват границите на настоящия изкуствен интелект

Успоредно с V-JEPA 2, Meta пусна три нови бенчмарка, които тестват физическото разбиране на системите с изкуствен интелект:

Международна физика 2

Той тества способността за разграничаване между физически правдоподобни и невъзможни сценарии. Дори усъвършенстваните модели все още се представят близо до случайността в това отношение.

MVPBench

Използва визуално сходни видео двойки с противоположни отговори на един и същ въпрос. V-JEPA 2 постига 44,5% точност по двойки – най-добрата производителност от всички тествани системи.

Причинно-следствена връзка (VQA)

Проучването разглежда причинно-следственото разбиране и контрафактуалните разсъждения. Резултатите показват, че настоящите системи с изкуствен интелект могат да опишат добре това, което виждат, но срещат трудности при предвиждането на алтернативни резултати.

Изкуствен интелект без глад за данни: Как V-JEPA 2 прави машинното обучение по-ефективно

Ян ЛеКун вижда световни модели като V-JEPA 2 като ключ към следващото поколение разработка на изкуствен интелект. Моделът би могъл да революционизира различни области на приложение:

Роботика и домакински асистенти

Световните модели са предназначени да въведат нова ера на роботиката, в която агентите с изкуствен интелект ще могат да се справят със задачи от реалния свят без астрономически количества данни за обучение.

Автономни превозни средства

Пространственото разбиране в реално време на V-JEPA 2 може да бъде от решаващо значение за автономни превозни средства, складови роботи и системи за доставка с дронове.

Разширена реалност (AR) и виртуални асистенти

Meta планира да разшири функционалността на V-JEPA 2 чрез интегриране на аудио анализи и подобрени възможности за разбиране на видео за AR очила и виртуални асистенти.

Наличност на отворен код и финансиране на изследвания

Meta пусна V-JEPA 2 с отворен код под лиценз CC-BY-NC, за да насърчи глобалните изследвания в областта на изкуствения интелект. Кодът на модела е достъпен в GitHub и може да се изпълнява на платформи като Google Colab и Kaggle. Тази отвореност контрастира с много други големи модели на изкуствен интелект и е предназначена да подпомогне развитието на световни модели в роботиката и въплътения изкуствен интелект.

Промяна на парадигмата в разработването на изкуствен интелект

V-JEPA 2 представлява фундаментална промяна в парадигмата от обработка на чист език към по-дълбоко разбиране на физическия свят. Докато повечето компании за изкуствен интелект разчитат на генеративни модели, Meta преследва алтернативна визия за бъдещето на изкуствения интелект със своя подход, основан на световен модел. Способността за учене от минимални данни и позволяването на управление на роботи с нулев потенциал може да проправи пътя за ново поколение интелигентни системи, които могат не само да разбират, но и да действат в реалния свят.

Свързано с това:

Вашият глобален партньор по маркетинг и бизнес развитие

☑️ Нашият бизнес език е английски или немски

☑️ НОВО: Кореспонденция на родния ви език!

Konrad Wolfenstein

Аз и моят екип с удоволствие ще бъдем на ваше разположение като ваш личен съветник.

Можете да се свържете с мен, като попълните формата за контакт тук wolfenstein@xpert.digital:или просто ми се обадите на +49 7348 4088 965. Моят имейл адрес е

Очаквам с нетърпение нашия съвместен проект.

За роботи и други агенти с изкуствен интелект: V-JEPA 2 AI моделът на Meta – Изкуственият интелект, който разбира нашия физически свят

Meta представя V-JEPA 2: AI система се учи да прави прогнози за физическия свят

Meta публикува V-JEPA 2: Революционен модел на света на изкуствения интелект за бъдещето на технологиите

Какво е V-JEPA 2 и как се различава от езиковите модели?