로봇 및 기타 AI 에이전트의 경우 : Meta-AI의 AI 모델 V-Jepa 2의 물리적 세계를 이해하는 AI

게시 : 2025 년 6 월 13 일 / 업데이트 : 2025 년 6 월 13 일 - 저자 : Konrad Wolfenstein

로봇 및 기타 AI 에이전트의 경우 : Meta-AI의 AI 모델 V-Jepa 2의 물리적 세계 이미지를 이해하는 AI : Xpert.Digital

메타는 V-Jepa 2 : AI 시스템이 물리적 세계에 대한 예측을 배웁니다.

Meta는 V-Jepa 2 : 인공 지능의 미래를위한 혁신적인 AI 세계 모델을 출판합니다.

V-Jepa 2를 통해 Meta는 기존의 대형 음성 모델보다 근본적인 접근 방식을 추구하는 획기적인 AI 시스템을 제시했습니다. 로봇 및 기타 AI 요원이 물리적 세계를 이해하고 그것이 어떻게 행동에 반응 할 것인지 예측하기 위해 12 억 개의 매개 변수 인 Strong World Model이 개발되었습니다.

V-Jepa 2 란 무엇이며 음성 모델과 어떻게 다릅니 까?

V-JEPA 2는 "비디오 조인트 임베딩 예측 아키텍처 2"를 나타냅니다. 전통적인 음성 모델과는 완전히 다른 아키텍처를 기반으로합니다. Chatgpt 또는 GPT-4와 같은 음성 모델은 텍스트 시퀀스에 대한 확률 적 예측을하지만 V-JEPA 2는 추상 표현 실에서 작동하며 물리적 법칙을 이해하는 데 중점을 둡니다.

결정적인 차이점은 학습 방법에 있습니다. 언어 모델에는 모니터링 된 교육을 통한 다량의 라벨링 데이터 및 학습이 필요합니다. 반면에 V-JEPA 2는 자체 모니터링 학습 및 미지 않은 비디오에서 지식 추출을 사용하여 데이터 준비 비용이 크게 줄어 듭니다. 이 모델은 픽셀 재구성을 통해 학습하지 않고 비디오 컨텐츠의 추상적 표현을 통해 학습합니다.

JEPA 아키텍처 : 예측에 의한 학습

JEPA (Joint Embedding Predictive Architecture)는 Metas의 AI 과학자 인 Yann Lecun에 의해 개발되었으며 생성 AI 모델의 대안을 나타냅니다. V-Jepa 2는 누락 된 모든 픽셀을 재구성하려는 생성 접근법과 달리 마스크 비디오 오크와 함께 작동하며 추상 개념을 예측하는 법을 배웁니다.

이 시스템은 두 단계 교육 방식을 사용합니다.

첫 번째 단계 : 자체 모터 학습

백만 시간 이상의 비디오 자료와 백만 장의 사진으로 훈련
인간 주석없이 물리적 상호 작용 패턴을 배우십시오
물리적 세계의 내부 모델 개발

두 번째 단계 : 동작 관련 적응

드로이드 데이터 세트에서 62 시간의 로봇 제어 데이터로 미세 조정
에이전트 행동을 예측 기술에 통합합니다
계획 및 폐쇄 제어 회로 제어 가능

실제로 우수한 성능

V-JEPA 2는 다양한 영역에서 인상적인 성능을 보여줍니다.

비디오 이해 및 모션 탐지

77.3% v2 데이터 세트의 상위 1 상 정확도
Epic-Kitchens-100 Action Forecast의 39.7% 리콜 -5 (이전 모델에 비해 44% 개선)
다양한 비디오 질문 응답 작업에서 최첨단 성능

로봇 제어

알 수없는 환경에서 픽 앤 플레이스 작업의 성공률 65-80% 성공률
주변 특이 적 훈련없이 제로 샷 로봇 제어
Franka Robot Arms와 함께 두 개의 다른 실험실에서 사용하십시오

경쟁에 비해 효율성

V-Jepa 2는 NVIDIA의 COSMOS 모델보다 30 배 빠르며 로봇 액션을 계획하는 데 16 초만 필요하지만 Cosmos는 4 분이 필요합니다.

기술 혁신 및 주요 특성

이 모델은 5 가지 중심 기술 혁신으로 특징 지어집니다.

자체 모니터링 학습 : 많은 양의 라벨링 된 데이터가 필요하지 않습니다.
마스킹 메커니즘 : 숨겨진 비디오 영역을 예측하여 모델을 훈련시킵니다.
추상 대표 학습 : 픽셀 세부 사항 대신 의미 론적 의미에 중점을 둡니다.
세계 모델 아키텍처 : 물리 법에 대한 내부 이해의 확립
효율적인 이전 학습 : 뛰어난 제로 샷 학습 기술

새로운 벤치 마크 현재 AI의 명백한 한계

Meta는 AI 시스템의 물리적 이해를 테스트하는 V-JEPA 2와 병렬로 3 개의 새로운 벤치 마크를 발표했습니다.

intphys 2

신체적으로 그럴듯하고 불가능한 시나리오를 구별하는 능력을 테스트합니다. 고급 모델조차도 여전히 임의의 수준에 가깝습니다.

MVPBENCH

같은 질문에 대한 반대 답변이있는 비슷한 비디오 자동차를 시각적으로 사용합니다. V-Jepa 2는 44.5% 쌍의 정확도에 도달하여 모든 테스트 시스템의 최상의 성능에 도달합니다.

인과 전용

인과 적 이해와 반대적인 사고를 조사합니다. 결과는 현재 AI 시스템이 보는 내용을 잘 설명 할 수 있지만 대체 과정을 예측하는 데 어려움이 있음을 보여줍니다.

데이터에 대한 기아가없는 AI : V-Jepa 2 머신 러닝이 더 효율적으로 만드는 방법

Yann Lecun은 V-Jepa 2와 같은 세계 모델에서 차세대 AI 개발의 열쇠를보고 있습니다.이 모델은 다양한 응용 분야를 혁신 할 수 있습니다.

로봇 공학 및 예산 보조원

세계 모델은 AI 에이전트가 천문학적 양의 훈련 데이터없이 실제 작업을 관리 할 수있는 새로운 로봇 시대를 예고해야합니다.

자율 주행 차

V-JEPA 2의 실시간에 대한 공간적 이해는 자율 주행 차, 창고 로봇 및 드론 전달 시스템에 중요 할 수 있습니다.

확장 현실 (AR) 및 가상 비서

Meta는 AR 안경 및 가상 어시스턴트에 대한 오디오 분석 및 비디오 이해를 확장하여 V-JEPA 2의 기능을 확장 할 계획입니다.

오픈 소스 가용성 및 연구 홍보

Meta는 CC-By-NC 라이센스에 따라 Global AI Research를 홍보하기위한 오픈 소스로 V-JEPA 2를 출시했습니다. 모델 코드는 GitHub에서 사용할 수 있으며 Google Colab 및 Kaggle과 같은 플랫폼에서 실행할 수 있습니다. 이러한 개방성은 다른 많은 대형 AI 모델과 대조적이며 로봇 공학 및 구체화 된 AI에서 세계 모델의 개발을 촉진하기위한 것입니다.

AI 개발의 패러다임 전환

V-JEPA 2는 순수한 언어 처리에서 물리적 세계에 대한 깊은 이해로 근본적인 패러다임 전환을 나타냅니다. 대부분의 AI 회사는 생성 모델에 의존하지만 Meta는 세계 모델 접근 방식으로 인공 지능의 미래에 대한 대안 비전을 따릅니다. 최소한의 데이터에서 배우고 제로 샷 로봇 제어를 가능하게하는 능력은 이해할뿐만 아니라 실제 세계에서도 행동 할 수있는 새로운 세대의 지능형 시스템의 길을 열어 줄 수 있습니다.

적합: