За роботе и друге вештачке интелигенције: Метин V-JEPA 2 вештачки интелигенцијални модел – вештачка интелигенција која разуме наш физички свет

Konrad Wolfenstein

Пре 1 године

За роботе и друге вештачке интелигенције: Метин V-JEPA 2 вештачки интелигенцијални модел - вештачка интелигенција која разуме наш физички свет

За роботе и друге вештачке интелигенције: V-JEPA 2 вештачка интелигенција модел компаније Meta – вештачка интелигенција која разуме наш физички свет – Слика: Xpert.Digital

Мета представља V-JEPA 2: Систем вештачке интелигенције учи да прави предвиђања о физичком свету

Мета објављује V-JEPA 2: Револуционарни модел света вештачке интелигенције за будућност вештачке интелигенције

Мета је представила V-JEPA 2, револуционарни систем вештачке интелигенције који користи фундаментално другачији приступ од конвенционалних модела великог језика (Grand Language Models). Овај модел света, са својих 1,2 милијарде параметара, развијен је како би помогао роботима и другим агентима вештачке интелигенције да разумеју физички свет и предвиде како ће он реаговати на њихове акције.

Шта је V-JEPA 2 и како се разликује од језичких модела?

V-JEPA 2 је скраћеница од „Video Joint Embedding Predictive Architecture 2“ (Предикативна архитектура видео заједничког уграђивања 2) и заснована је на потпуно другачијој архитектури од традиционалних језичких модела. Док језички модели попут ChatGPT или GPT-4 праве вероватносна предвиђања о текстуалним секвенцама, V-JEPA 2 функционише у апстрактном репрезентативном простору и фокусира се на разумевање физичких закона.

Кључна разлика лежи у методи учења: језички модели захтевају велике количине обележених података и уче кроз надгледано учење. V-JEPA 2, с друге стране, користи самонадгледано учење и извлачи знање из необележених видео записа, чиме значајно смањује трошкове припреме података. Модел учи не кроз реконструкцију пиксела, већ кроз апстрактне репрезентације видео садржаја.

JEPA архитектура: Учење кроз предвиђање

Заједничку предиктивну архитектуру уграђивања (JEPA) развио је Јан Лекун, главни научник за вештачку интелигенцију у компанији Мета, и представља алтернативу генеративним моделима вештачке интелигенције. За разлику од генеративних приступа, који покушавају да реконструишу сваки недостајући пиксел, V-JEPA 2 ради са маскираним видео регионима и учи да предвиђа апстрактне концепте.

Систем користи двостепени приступ обуци:

Прва фаза: Самостално надгледано учење

Обука са преко милион сати видео материјала и милион слика
Учење образаца физичке интеракције без људских напомена
Развој интерног модела физичког света

Друга фаза: Адаптација изазвана акцијом

Фино подешавање са само 62 сата података о управљању роботом из DROID скупа података
Интеграција акција агента у предиктивне могућности
Омогућавање планирања и управљања затвореном петљом

Супериорне перформансе у пракси

V-JEPA 2 показује импресивне перформансе у различитим областима:

Разумевање видеа и детекција покрета

77,3% тачности међу најбољима у скупу података Something-Something v2
39,7% присећања на 5 минута у предвиђању акције Epic-Kitchens-100 (побољшање од 44% у односу на претходне моделе)
Најсавременије перформансе у разним видео задацима питања и одговора

Контрола робота

Стопа успеха од 65-80% у задацима „бирања и постављања“ у непознатим окружењима
Контрола робота са нултим ударцем без обуке специфичне за окружење
Распоређивање у две различите лабораторије са Франка роботским рукама

Ефикасност у поређењу са конкуренцијом

V-JEPA 2 је 30 пута бржи од NVIDIA-иног Cosmos модела и потребно му је само 16 секунди да испланира акцију робота, док Cosmos-у требају 4 минута.

Техничке иновације и кључне карактеристике

Модел карактерише пет кључних технолошких открића:

Самостално надгледано учење: Елиминише потребу за великим количинама обележених података
Механизам маскирања: Обучава модел предвиђањем скривених видео подручја
Учење апстрактне репрезентације: Фокусирајте се на семантичка значења уместо на детаље пиксела
Архитектура светског модела: Изградња интерног разумевања физичких закона
Ефикасно учење са преносом знања: Изузетне способности учења без икаквих проблема

Нови бенчмаркови откривају границе тренутне вештачке интелигенције

Паралелно са V-JEPA 2, Meta је објавила три нова бенчмарка која тестирају физичко разумевање AI система:

Међународна физика 2

Тестира способност разликовања физички вероватних и немогућих сценарија. Чак и напредни модели се и даље понашају близу случајности у том погледу.

МВПБенч

Користи визуелно сличне видео парове са супротним одговорима на исто питање. V-JEPA 2 постиже 44,5% упарене тачности – најбоље перформансе од свих тестираних система.

УзрочниVQA

Студија испитује узрочно разумевање и контрафактуално резоновање. Резултати показују да тренутни системи вештачке интелигенције могу добро да опишу оно што виде, али имају потешкоћа у предвиђању алтернативних исхода.

Вештачка интелигенција без глади за подацима: Како V-JEPA 2 чини машинско учење ефикаснијим

Јан ЛеКун види светске моделе попут V-JEPA 2 као кључ за следећу генерацију развоја вештачке интелигенције. Модел би могао да револуционише различите области примене:

Роботика и кућни асистенти

Светски модели су намењени да уведу нову еру роботике, у којој ће агенти вештачке интелигенције моћи да обављају задатке из стварног света без астрономских количина података за обуку.

Аутономна возила

Просторно разумевање у реалном времену помоћу V-JEPA 2 могло би бити кључно за аутономна возила, роботе у складиштима и системе за доставу дроновима.

Проширена стварност (AR) и виртуелни асистенти

Мета планира да прошири функционалност V-JEPA 2 интеграцијом аудио аналитике и побољшаних могућности разумевања видеа за AR наочаре и виртуелне асистенте.

Доступност отвореног кода и финансирање истраживања

Мета је објавила V-JEPA 2 као отворени код под лиценцом CC-BY-NC како би промовисала глобална истраживања вештачке интелигенције. Код модела је доступан на GitHub-у и може се покренути на платформама као што су Google Colab и Kaggle. Ова отвореност је у супротности са многим другим великим моделима вештачке интелигенције и намењена је унапређењу развоја светских модела у роботици и отеловљеној вештачкој интелигенцији.

Промена парадигме у развоју вештачке интелигенције

V-JEPA 2 представља фундаменталну промену парадигме од обраде чистог језика ка дубљем разумевању физичког света. Док се већина компанија за вештачку интелигенцију ослања на генеративне моделе, Мета тежи алтернативној визији будућности вештачке интелигенције са својим приступом светског модела. Способност учења из минималних података и омогућавање контроле робота са нултим покушајем могла би да отвори пут новој генерацији интелигентних система који могу не само да разумеју већ и да делују у стварном свету.

У вези са овим:

Ваш глобални партнер за маркетинг и развој пословања

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде wolfenstein@xpert.digital:или ме једноставно позовите на +49 7348 4088 965. Моја имејл адреса је

Радујем се нашем заједничком пројекту.

За роботе и друге вештачке интелигенције: Метин V-JEPA 2 вештачки интелигенцијални модел – вештачка интелигенција која разуме наш физички свет

Мета представља V-JEPA 2: Систем вештачке интелигенције учи да прави предвиђања о физичком свету

Мета објављује V-JEPA 2: Револуционарни модел света вештачке интелигенције за будућност вештачке интелигенције