출판 : 2025 년 7 월 13 일 / 업데이트 : 2025 년 7 월 13 일 - 저자 : Konrad Wolfenstein
유럽에서 주권 AI 개발을 위해 진동 매개 변수 모델 KIM을 포장합니다.
또 다른 오픈 소스 혁명 : Kimi K2는 유럽 데이터 센터에서 세계적 수준의 AI를 제공합니다.
Kimi K2는 Open AI 생태계를 새로운 차원으로 가져옵니다. 10 조의 매개 변수를 갖춘 혼합 운동 모델은 현실적인 프로그래밍, 수학 및 에이전트 벤치 마크에서 독점적 인 헤비급으로 결과를 제공하여 비용의 일부와 완전히 게시 된 가중치로 결과를 제공합니다. 독일의 개발자에게는 고성능 AI 서비스 자체를 호스팅하고 기존 프로세스를 포함시키고 신제품을 개발할 수있는 기회가 열립니다.
적합:
Kimi K2가 다음 큰 AI 모델 이상인 이유
Openaai 및 Anthropic과 같은 Western Lab은 유료 인터페이스 뒤에 최고의 모델을 숨기고 있지만 Monshot AI는 다른 코스를 추구하고 있습니다. 모든 가중치는 수정 된 공동 라이센스 하에서 공개적으로 제공됩니다. 이 단계는 과학적 재현성을 가능하게 할뿐만 아니라 중소 규모의 회사가 자체 추론 클러스터를 구축하거나 Edge 시나리오에서 Kimi K2를 사용할 수 있도록합니다. 시작은 중국이 오픈 소스 LLM 운동의 시계로 설립 된 단계로 떨어집니다. DeepSeek V3는 6 월까지 벤치 마크로 간주되었으며, 이제 Kimi K2가 크로스바를 다시 설정합니다.
건축 및 훈련 과정
레코드 수준의 혼합 experts
Kimi K2는 384 명의 전문가와 함께 혁신적인 전문가 시스템을 구축하며, 이로 인해 8 명의 전문가와 글로벌 "공유 전문가"만이 토큰 당 활성화됩니다. 이 아키텍처를 통해 추론 엔진은 320 억 파라미터 만 RAM에 동시에로드 할 수 있으므로 GPU 부하가 크게 줄어 듭니다. 최대 정밀한 70 억 개의 매개 변수 모델에는 이미 두 개의 H100 GPU가 필요하지만 Kimi K2는 동일한 GPU에서 무게의 3 분의 1 만 실행하지만 비슷하거나 더 나은 품질을 달성합니다.
다른 모델과 비교할 때, Kimi K2의 효율성은 분명합니다. 총 1,000 억 파라미터의 경우 DeepSeek V3-Base는 671 억 매개 변수를 초과하며 약 1,800 억 개의 매개 변수로 GPT-4.1의 예상 값보다 낮습니다. Kimi K2의 경우 DeepSeek V3 Base의 370 억에 비해 토큰 당 320 억 파라미터 만 활성화되어 있습니다. Kimi K2 Expert System은 384 명의 전문가를 사용하며 그 중 8 명은 선정되었으며 DeepSeek V3-Base는 8 명의 전문가가 선출 된 240 명의 전문가를 사용합니다. 세 가지 모델 모두 128K 토큰의 컨텍스트 길이를 지원합니다.
이 개발은 Moonshot이 처음으로 1 조 매개 변수로 공개 모델을 출시하고 여전히 토큰 당 400 억 개의 매개 변수 한계 아래에 남아 있음을 보여줍니다. 이는 큰 언어 모델의 효율성에서 상당한 진전입니다.
Muonclip- 새로운 표준에 대한 안정화
Super Strong MOE 변압기의 훈련은 종종 폭발적인주의 로짓으로 고통받습니다. 따라서 Moonshot은 토큰 효율적인 Muon Optimizer와 다운 스트림 "QK-Clip"프랄라이즈를 결합하여 각 단계 후에 쿼리 및 키 매트릭스를 정규화합니다. Moonshot에 따르면, 단일 손실 스파이크는 15.5 조 훈련 토큰에 나타나지 않았습니다. 결과는 매우 부드러운 학습 곡선과 첫 번째 릴리스에서 안정적으로 작동하는 모델입니다.
데이터 베이스
Kimi K2는 15.5 조 토큰으로 GPT-4 클래스 모델의 데이터 볼륨에 도달합니다. 고전적인 웹 텍스트 및 코드 외에도 시뮬레이션 된 도구 통화 및 워크 플로 대화 상자는 미리 훈련으로 유입되어 작동 능력을 고정 시켰습니다. DeepSeek R1과 달리 에이전트 역량은 주로 스윙 감독 체인을 기반으로하는 것이 아니라 모델이 여러 API를 조정 해야하는 학습 시나리오를 기반으로합니다.
벤치 마크 서비스는 자세히 설명합니다
벤치 마크 서비스는 다른 책임 영역에서 세 가지 AI 모델 간의 상세한 비교를 보여줍니다. 프로그래밍 영역에서 Kimi K2-Instr. SWE 벤치 검증 테스트에서 65.8 %의 성공률, DeepSeek V3는 38.8 %, GPT-4.1은 54.6 %로 수행했습니다. Livecodebench V6에서 Kimi K2-Instr. 53.7 %, 49.2 %, GPT-4.1은 44.7 %로 Deepseek V3가 뒤 따릅니다. 평균 4 번의 시도로 TAU2 소매 테스트의 도구 커플 링에서 GPT-4.1은 Kimi K2-InSTR보다 74.8 %로 최고의 성능을 달성합니다. 70.6 %, Deepseek V3는 69.1 %로 정확한 계약을 가진 Math-500 수학 카테고리에서 Kimi K2-Instr. 97.4 %, 그 후 94.0 %, GPT-4.1은 92.4 %를 기록했습니다. 반사 기간이없는 일반 지식 테스트 MMLU에서 GPT-4.1은 90.4 % 최선을 다하며 Kimi K2-Instr이 뒤 따릅니다. 89.5 %, Deepseek V3는 81.2 %로 바닥을 형성합니다.
결과의 해석
- 현실적인 코딩 시나리오에서 Kimi K2는 이전의 모든 오픈 소스 모델 앞에 있으며 SWE-Bench 확인에서 GPT-4 .1을 이겼습니다.
- 수학과 상징적 사고는 거의 완벽합니다. 이 모델은 또한 독점 시스템을 초과합니다.
- 순수한 세계 지식을 사용하면 GPT-4 .1은 여전히 앞서 있지만 거리는 그 어느 때보 다 적습니다.
일상 생활의 대리인 기술
많은 LLM이 잘 설명하지만 행동하지 않습니다. Kimi K2는 도구 통화, 코드 버전 및 파일 적응을 자율적으로 포함하여 작업을 완료하도록 지속적으로 교육을 받았습니다.
예 1 : 비즈니스 여행 계획
이 모델은 17 개의 API 호출과 같은 문의 ( "베를린의 3 명을위한 도서 비행, 호텔 및 테이블")를 해체합니다. 캘린더, 비행 농업, Train API, OpenTable, 회사 이메일, Google 시트를 통해 수동 프롬프트 엔지니어링.
예 2 : 데이터 분석
50,000 급 급여 데이터 세트가있는 CSV는 통계적으로 평가, 대화식 HTML 페이지로 생성되고 저장된 플롯을 읽습니다. 전체 체인은 단일 채팅 체육관에서 실행됩니다.
그게 왜 중요한가요?
- 생산성 : 모델 응답은 단순한 텍스트가 아니라 실행 가능한 조치입니다.
- 오류 견고성 : 워크 플로에 대한 RL 교육을 통해 Kimi K2는 오류 메시지를 해석하고 스스로 수정하는 법을 배웁니다.
- 비용 : 자동 에이전트는 인간의 핸드 오버를 절약하고 라운드 트립이 필요하기 때문에 컨텍스트 비용을 줄입니다.
라이센스, 비용 및 운영 결과
특허
가중치에는 MIT와 같은 라이센스가 적용됩니다. 매월 1 억 명 이상의 활성 사용자가 있거나 월 2 천만 달러가 넘는 판매량에 대해서만 Moonshot가 UI의 눈에 보이는 "Kimi K2"노트가 필요합니다. 이것은 대부분의 독일 회사와 관련이 없습니다.
API 및 자체 주최 가격
API 및 자조 가격은 제공자간에 분명한 차이를 보여줍니다. Monshot API는 입력 토큰의 경우 $ 0.15, 백만 당 출력 토큰의 경우 $ 2.50를 계산하지만 DeepSeek-API는 입력의 경우 $ 0.27, 출력의 경우 1.10 달러입니다. 입력의 경우 평균 $ 10.00, 출력의 경우 $ 30.00 인 GPT-4 O API는 훨씬 비쌉니다.
MOE 기술을 통한 비용 효율성은 특히 놀랍습니다. 클라우드 비용은 매우 경쟁력이 높아졌습니다. 실용적인 예는 다음을 보여줍니다. 개발자는 Kimi K2와 2,000 개의 토큰 채팅에 대해 약 $ 0.005 만 지불하고 GPT-4와 동일한 채팅 비용은 4 달러입니다.
사내 작업을위한 하드웨어 프로필
- 전체 모델 (FP16) : 최소 8 × H100 80GB 또는 4 × B200.
- 4 비트 양자화 : 2 × H100 또는 2 × Apple M3 Ultra 512 GB에서 안정적으로 실행됩니다.
- 추론 엔진 : VLLM, SGLANG 및 TENSORRT-LLM은 기본적으로 Kimi K2를 지원합니다.
유럽의 실제 적용 분야
- 산업 4.0 : 자동 유지 보수 계획, 오류 진단 및 예비 부품 주문은 에이전트 흐름으로 모델링 될 수 있습니다.
- 중형 비즈니스 : 로컬 채팅 봇은 데이터를 미국 서버에 보내지 않고 실시간으로 공급 업체 및 고객 문의에 답변합니다.
- 건강 관리 : 클리닉은 Kimi K2를 사용하여 코드리지 의사의 편지, DRG 사례 계산 및 구내에 대한 약속 조정을 사용합니다.
- 연구 및 교육 : 대학은 HPC 클러스터로 모델을 호스팅하여 학생들이 최신 LLM을 사용하여 무료 실험을 가능하게합니다.
- 당국 : 공공 기관은 데이터 보호 요구 사항으로 인해 독점 클라우드 모델을 사용하기가 어렵 기 때문에 소스 개방 가중치로부터 혜택을받습니다.
생산적인 운영을위한 모범 사례
AI 시스템의 생산적인 운영을위한 다양한 입증 된 관행이 확립되었습니다. 채팅 어시스턴트의 경우 사실 답변을 보장하기 위해 온도를 0.2 ~ 0.3으로 설정해야하며 상단 P 값은 최대 0.8이어야합니다. 코드 생성의 경우 시스템 프롬프트를 명확하게 정의하는 것이 중요합니다 (예 :“정확한 Python Assistant”명령과 신뢰할 수있는 테스트를 구현하는 것이 중요합니다. 공구 호출의 경우 모델 형식 기능이 올바르게 호출되도록 JSON 체계를 엄격하게 지정해야합니다. Rag Pipelines는 800 개의 토큰의 청크 크기와 검색 전에 BGE-Rerank-L과 같은 크로스 인코더와의 재 순위로 가장 잘 작동합니다. 보안의 경우, 주입 위험을 최소화하기 위해 샌드 박스 (예 : 폭죽 VM)에서 나가는 명령을 수행하는 것이 필수적입니다.
적합:
도전과 한계
메모리 발자국
32 B 파라미터 만 활성화되지만 라우터는 모든 전문가 가중치를 유지해야합니다. 따라서 순수한 CPU 추론은 비현실적입니다.
도구 의존성
잘못된 정의 된 도구는 끝없는 루프로 이어집니다. 강력한 오류 처리는 필수입니다.
환각
완전히 알려지지 않은 API의 경우 모델 기능이 발명 될 수 있습니다. 엄격한 유효성 검사기가 필요합니다.
라이센스 조항
사용자 성장이 강하면 브랜딩 의무가 논의 될 수 있습니다.
윤리 및 수출 통제
개방성은 또한 잠재적으로 부적절한 응용을 만듭니다. 회사는 필터 시스템을 담당합니다.
혁신 엔진으로서의 오픈 소스
Moonshot AI의 단계는 개방형 모델이 독점적 대안 이후에 실행될뿐만 아니라 특정 분야를 지배한다는 것을 보여줍니다. 중국에서는 공동 연구 및 공격적인 가격으로 개발을 가속화하는 대학, 신생 기업 및 클라우드 제공 업체에서 생태계가 만들어졌습니다.
유럽에는 이중 이점이 있습니다.
- 공급 업체 잠금 및 유럽 데이터 주권이없는 기술 액세스.
- 상업용 제공 업체의 비용 압력.
장기적으로 다른 1 조 모형 모델이 나타날 것으로 예상 될 수 있습니다. Moonshot이 추세를 따르는 경우 비전 또는 오디오 확장을 열 수 있습니다. 최근에 최고의 "오픈 에이전트"에 대한 경쟁은 AI 경제의 중심 동인이됩니다.
더 이상 비싼 블랙 박스 API 없음 : Kimi K2 민주화 AI 개발
Kimi K2는 전환점을 표시합니다. 단일 패키지에서 최고 성능, 행동 및 웨이트를 개방하는 능력을 결합합니다. 유럽의 개발자, 연구원 및 회사의 경우 이는 실제 선택의 자유를 의미합니다. 고가의 블랙 박스 API에 의존하는 대신 저렴하고 강력한 AI 기반을 직접 운영, 적응 및 통합 할 수 있습니다. 초기 단계에서 에이전트 워크 플로 및 MOE 인프라에 대한 경험을 얻는 사람은 유럽 시장에서 지속 가능한 경쟁 우위를 창출합니다.
적합:
귀하의 글로벌 마케팅 및 비즈니스 개발 파트너
✔️ 우리의 비즈니스 언어는 영어 또는 독일어입니다.
✔️ 새로운 기능: 자국어로 된 통신!
나는 귀하와 우리 팀에 개인 고문으로 봉사하게 되어 기쁘게 생각합니다.
문의 양식을 작성하여 연락하시거나 +49 89 89 674 804 (뮌헨) 로 전화해 주세요 . 내 이메일 주소는: Wolfenstein ∂ xpert.digital
나는 우리의 공동 프로젝트를 기대하고 있습니다.