DeepSeek V3.1 – Сигналізація для OpenAI та Co: китайський штучний інтелект з відкритим кодом створює нові виклики для відомих постачальників

Konrad Wolfenstein

12 місяців тому

DeepSeek V3.1 – Сигналізація для OpenAI та компанії: китайський ШІ з відкритим кодом створює нові виклики для відомих постачальників – Зображення: Xpert.Digital

Нова модель штучного інтелекту з Китаю: ця безкоштовна модель у 27 разів дешевша та ставить під сумнів ChatGPT

### Тривога для OpenAI та компанії: Новий ШІ Китаю такий же потужний, але дуже дешевий. Що за ним стоїть? ### DeepSeek V3.1: Тиха атака ШІ, яка зараз перевертає світ технологій з ніг на голову ### Забудьте про дорогий ШІ: Чому ця китайська модель з відкритим кодом змінює все ### Новий супер-ШІ Китаю: Як Пекін тисне на Захід за допомогою радикально вільної стратегії ### Кращий і дешевший за конкурентів? Що насправді може зробити нове диво-ШІ Китаю ###

DeepSeek V3.1 (знову) революціонізує ландшафт штучного інтелекту

Китайський штучний інтелект стає серйозним викликом для американських технологічних гігантів. Стартап DeepSeek з Ханчжоу досяг значного прориву зі своєю останньою моделлю V3.1, яка фундаментально кидає виклик традиційним уявленням про розробку та фінансування ШІ. Ця модель з відкритим кодом досягає продуктивності провідних власницьких систем за значно менші витрати на розробку та вказує шлях до нового майбутнього штучного інтелекту.

Пов'язано з цим:

DeepSeek: революція штучного інтелекту в Китаї під тінню стеження – серйозні звинувачення з Вашингтона

Технічні інновації з гібридною архітектурою

DeepSeek V3.1 базується на вдосконаленій архітектурі Mixture of Experts із загальною кількістю 685 мільярдів параметрів, з яких 37 мільярдів активуються на кожен токен. Ця технологія дозволяє значно ефективніше використовувати ресурси, ніж традиційні моделі, без шкоди для продуктивності.

Видатною особливістю нової моделі є її гібридна архітектура логічного висновку, яка може перемикатися між «режимом мислення» та «режимом без мислення». У режимі мислення система розвиває глибші внутрішні процеси мислення та ідеально підходить для вирішення складних задач, що потребують багатоетапного логічного мислення. Натомість, режим без мислення надає прямі та лаконічні відповіді для завдань, де швидкість має вирішальне значення.

Ще одним технічним удосконаленням є розширене контекстне вікно на 128 000 токенів, що відповідає приблизно 96 000 слів або двом романам по 200 сторінок. Така ємність дозволяє обробляти надзвичайно довгі документи, розуміти цілі репозиторії коду та багатоетапні діалогові сценарії.

Подальший розвиток було досягнуто завдяки двофазному підходу до розширення контексту. Фазу з 32 000 токенів було розширено вдесятеро до 630 мільярдів токенів, тоді як фазу зі 128 000 токенів було збільшено в 3,3 раза до 209 мільярдів токенів. Крім того, модель використовує формат даних UE8M0 FP8 для оптимальної сумісності із сучасними апаратними архітектурами.

Вражаючі параметри продуктивності та тести

DeepSeek V3.1 досягає вражаючих результатів у стандартизованих тестах. У відомому бенчмарку Aider Coding Benchmark модель набрала 71,6 відсотка – результат, який може конкурувати з провідними моделями OpenAI та Anthropic. Цей показник особливо вражає, враховуючи значно нижчу вартість.

У математичних завданнях DeepSeek V3.1 навіть перевершує відомих конкурентів. У тесті Math-500 модель досягає 90,2 відсотка, тоді як GPT-4o лише 74,6 відсотка. У тесті MMLU-Pro система покращилася на 5,3 бала до 81,2, а в бенчмарку GPQA — на вражаючі 9,3 бала до 68,4.

Особливої уваги заслуговує покращення в задачах багатоетапного мислення, де версія 3.1 виконує завдання на 43 відсотки краще, ніж її попередниця. Програмні можливості моделі дозволяють їй генерувати безпомилковий код довжиною до 700 рядків – продуктивність, яка може конкурувати з дорогими пропрієтарними рішеннями.

Революційна економічна ефективність

Структура витрат DeepSeek V3.1 повністю перевертає попередні уявлення про розробку штучного інтелекту. У той час як завдання програмування з V3.1 коштує близько одного долара, аналогічні системи стягують майже 70 доларів за аналогічні завдання. Таке різке зниження вартості робить передові технології штучного інтелекту доступними для менших компаній та розробників.

За даними компанії, витрати на розробку базової моделі V3 склали лише близько 5,6 мільйона доларів – це лише частина сотень мільйонів доларів, які американські компанії витрачають на аналогічні проекти. Такої ефективності було досягнуто завдяки інноваційним методам навчання та використанню менш потужного, але дешевшого обладнання.

Ціноутворення API DeepSeek значно нижче, ніж у конкурентів. Модель чату коштує $0,07 за мільйон вхідних токенів для кеш-попадань та $1,10 за мільйон вихідних токенів. Модель міркування коштує $0,14 за вхідні токени та $2,19 за вихідні токени. Для порівняння, OpenAI стягує близько $2-$2,50 за мільйон вихідних токенів, тоді як DeepSeek стягує лише $0,014.

Стратегічне значення для глобальної конкуренції у сфері штучного інтелекту

Успіхи DeepSeek мають далекосяжні наслідки для світового ландшафту штучного інтелекту. Компанія демонструє, що передова продуктивність штучного інтелекту більше не вимагає величезних ресурсів та власних підходів, які характеризували розвиток американського штучного інтелекту до сьогодні. Цей розвиток ставить під сумнів основи сучасних бізнес-моделей.

Керівництво Китаю надає DeepSeek високого стратегічного значення, про що свідчить зустріч між засновником Лян Веньфенгом та прем'єр-міністром Лі Цяном. Компанія розглядається як ключовий компонент у прагненні Китаю стати світовим лідером у галузі штучного інтелекту до 2030 року.

Стратегія відкритого коду DeepSeek дозволяє іншим компаніям та дослідникам у всьому світі використовувати її досягнення та розробляти власні інновації. Це сприяє децентралізованому розвитку технології штучного інтелекту та зменшує залежність від окремих технологічних гігантів.

Історія та структура компанії

Компанія DeepSeek була заснована в Ханчжоу у 2023 році Ляном Веньфенгом і повністю фінансується китайським хедж-фондом High-Flyer. Веньфен, який народився в 1985 році в сім'ї вчителя початкової школи, зацікавився застосуванням штучного інтелекту у фінансовому секторі під час навчання в Університеті Чжецзян.

У 2016 році Веньфен заснував High-Flyer, хедж-фонд, який використовує машинне навчання для кількісних торгових стратегій. До 2021 року компанія повністю перейшла на торгові підходи на основі штучного інтелекту та стала одним із провідних кількісних фондів Китаю з активами під управлінням понад 100 мільярдів юанів.

Ще до заснування DeepSeek, Веньфен почав купувати тисячі графічних процесорів Nvidia – спочатку їх висміювали як ексцентричне хобі мільярдера. Ця далекоглядна інвестиція в апаратне забезпечення згодом дозволила компанії розробити конкурентоспроможні моделі штучного інтелекту, незважаючи на експортні обмеження США.

Безпека даних ЄС/Німеччина | Інтеграція незалежної платформи штучного інтелекту з різними джерелами даних для всіх потреб бізнесу

Незалежні платформи штучного інтелекту як стратегічна альтернатива для європейських компаній - Зображення: Xpert.Digital

ШІ, що змінює правила гри: Найгнучкіша платформа ШІ — індивідуальні рішення, що знижують витрати, покращують ваші рішення та підвищують ефективність

Незалежна платформа штучного інтелекту: інтегрує всі відповідні джерела даних компанії

Швидка інтеграція штучного інтелекту: індивідуальні рішення на основі штучного інтелекту для бізнесу за години чи дні, а не за місяці
Гнучка інфраструктура: хмарна або хостинг у власному центрі обробки даних (Німеччина, Європа, вільний вибір місця розташування)

Максимальна безпека даних: його використання в юридичних фірмах є незаперечним доказом
Розгортання в широкому спектрі корпоративних джерел даних
Вибір власних або різних моделей штучного інтелекту (Німеччина, ЄС, США, Китай)

Більше інформації тут:

Незалежні платформи штучного інтелекту проти гіперскейлерів: яке рішення підходить краще?

Чіпи, алгоритми, інновації: шлях DeepSeek до вершини світу

Вплив експортного контролю США

Успіх DeepSeek особливо вражає, враховуючи обмеження США на експорт високопродуктивних чіпів штучного інтелекту до Китаю. Санкції мали на меті обмежити здатність Китаю розробляти передові системи штучного інтелекту, але DeepSeek демонструє, що інноваційні програмні підходи та ефективне використання ресурсів можуть подолати ці обмеження.

Компанія використовувала менш потужні чіпи H800, які схвалені для експорту до Китаю, але все ж досягла найвищої продуктивності завдяки оптимізованим алгоритмам та ефективним методам навчання. Такий підхід ставить під сумнів ефективність технологічних санкцій та демонструє альтернативні шляхи розвитку штучного інтелекту.

Експерти вважають прорив DeepSeek поворотним моментом, який може докорінно змінити існуючі оцінки можливостей та потенціалу ШІ у Китаї. Ця розробка свідчить про те, що інновації в оптимізації програмного забезпечення можуть бути важливішими, ніж абсолютна перевага в апаратному забезпеченні.

Пов'язано з цим:

Наздоганяючи Китай у сфері штучного інтелекту: випадок DeepSeek та стратегічне використання даних

Відкритий вихідний код як конкурентна перевага

Стратегія DeepSeek з відкритим кодом пропонує кілька стратегічних переваг. Розробники та компанії по всьому світу можуть запускати, налаштовувати та інтегрувати модель локально у власні проекти, не покладаючись на хмарні сервіси. Це особливо важливо для додатків, що працюють з даними, та компаній, які хочуть контролювати свою інформацію.

Розробка на основі спільноти дозволяє швидше виправляти помилки, постійно вдосконалюватися та мати широку базу учасників. Водночас, підхід з відкритим кодом демократизує доступ до передових технологій штучного інтелекту та сприяє інноваціям, зокрема в невеликих компаніях та країнах, що розвиваються.

На відміну від власницьких моделей, доступних лише через API або хмарні платформи, штучний інтелект з відкритим кодом пропонує довгострокову доступність та незалежність від окремих постачальників. Користувачам не потрібно турбуватися про підвищення цін, обмеження доступу чи припинення надання послуг.

Технологічні прориви та інновації

DeepSeek V3.1 інтегрує кілька новаторських технологій, що забезпечують його виняткову ефективність. Багатоголовкова архітектура Latent Attention стискає кеші ключ-значення за допомогою латентних векторів, зменшуючи споживання пам'яті та обчислювальні витрати під час виведення.

Метод прогнозування кількох токенів дозволяє кожному токену одночасно передбачати кілька майбутніх токенів. Це долає значне вузьке місце традиційних авторегресивних моделей та підвищує як точність, так і швидкість виведення.

Використання 8-бітного навчання значно знижує вимоги до пам'яті та витрати без шкоди для точності. Цей метод довгий час вважався проблематичним, але DeepSeek демонструє, що за умови правильного впровадження він дає результати, порівнянні з традиційними методами.

Реакції та вплив ринку

Анонс DeepSeek V3.1 викликав бурхливу реакцію на фінансових ринках. Nvidia втратила понад 600 мільярдів доларів ринкової капіталізації – найбільшу окрему втрату в історії фондового ринку США. Інші компанії, що розробляють апаратне забезпечення для штучного інтелекту, також зазнали значного падіння цін на акції.

Інвестори та аналітики переглядають свої оцінки індустрії штучного інтелекту. Припущення, що масштабні інвестиції в обладнання та власні розробки є необхідними передумовами для передового штучного інтелекту, ставиться під сумнів успіхом DeepSeek.

Західні компанії вже тестують моделі DeepSeek у своїх робочих процесах. Яскравим прикладом є Merck, чий директор з обробки даних публічно продемонстрував інтеграцію DeepSeek як одного з кількох варіантів штучного інтелекту у внутрішні процеси.

Майбутній розвиток та перспективи

DeepSeek позиціонує версію 3.1 як перший крок до «ери агентів» штучного інтелекту. Модель була спеціально оптимізована для покращеного використання інструментів та багатоетапних завдань агентів. Оптимізація після навчання призвела до значних покращень у використанні зовнішніх інструментів та складних завдань пошуку.

Швидкість розробки DeepSeek свідчить про те, що модель V4 може бути випущена раніше за наступну версію R2 від OpenAI. Така динаміка може пришвидшити традиційні цикли розробки в галузі штучного інтелекту та встановити нові стандарти частоти оновлень.

Успіхи DeepSeek вже надихають інші китайські компанії та дослідників у сфері штучного інтелекту в усьому світі. Моделі з відкритим кодом дедалі частіше розглядаються як дієва альтернатива власницьким рішенням, що може призвести до більш диверсифікованого та конкурентного ландшафту штучного інтелекту.

Виклики та критика

Незважаючи на вражаючі досягнення, DeepSeek також зазнав критики. Як і інші китайські моделі штучного інтелекту, DeepSeek підлягає певним цензурним заходам, які можуть застосовуватися до політично чутливих тем. Однак ці обмеження часто можна обійти за допомогою технічних налаштувань.

Прозорість щодо даних та методів навчання обмежена. Існують припущення, що навчання частково базується на відповідях ChatGPT, оскільки DeepSeek іноді стверджує, що це сам ChatGPT. Ці неоднозначності викликають питання щодо оригінальності та потенційних проблем з авторським правом.

Швидкий розвиток та низька ціна моделей глибокого пошуку також викликають занепокоєння щодо сталості бізнес-моделі. Критики ставлять під сумнів, чи можна підтримувати надзвичайно низькі ціни в довгостроковій перспективі, чи вони є частиною стратегічної стратегії проникнення на ринок.

Глобальні наслідки для індустрії штучного інтелекту

DeepSeek V3.1 знаменує собою поворотний момент у світовому розвитку штучного інтелекту. Модель доводить, що інноваційні підходи до програмного забезпечення та ефективне використання ресурсів можуть бути важливішими, ніж масштабні капіталовкладення та доступ до найновішого обладнання. Це відкриття вплине на стратегії всіх великих компаній, що займаються штучним інтелектом.

Демократизація передових технологій штучного інтелекту за допомогою моделей з відкритим кодом може призвести до більш рівномірного розподілу можливостей штучного інтелекту по всьому світу. Країни та компанії, які раніше були виключені через високі витрати або технічні бар'єри, отримають доступ до передових технологій.

Водночас, успіх DeepSeek ставить під сумнів ефективність технологічних санкцій та експортного контролю. Його здатність досягати світового класу з обмеженими ресурсами може спонукати інші країни застосовувати аналогічні підходи та розвивати власні екосистеми штучного інтелекту.

DeepSeek V3.1 являє собою більше, ніж просто ще одну модель штучного інтелекту – вона символізує фундаментальний зсув у тому, як ШІ розробляється, фінансується та розгортається. Поєднання технологічних інновацій, економічно ефективної розробки та доступності відкритого коду створює нові можливості та ставить серйозні виклики перед визнаними лідерами ринку. Майбутній розвиток подій покаже, чи сформує цей підхід майбутнє індустрії ШІ.

Ми тут для вас - Консалтинг - Планування - Впровадження - Управління проектами

☑️ Підтримка МСП у стратегії, консалтингу, плануванні та впровадженні

☑️ Створення або переорієнтація стратегії ШІ

☑️ Розвиток бізнесу Pioneer

Konrad Wolfenstein

Я буду радий служити вашим особистим консультантом.

Ви можете зв'язатися зі мною, заповнивши контактну форму нижче, або просто зателефонувавши мені за номером +49 7348 4088 965 .

Я з нетерпінням чекаю нашого спільного проєкту.

Напиши мені

➡️ Запит на відеодзвінок 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital – це галузевий центр, що спеціалізується на цифровізації, машинобудуванні, логістиці/інтралогістиці та фотоелектричній енергетиці.

Завдяки нашому комплексному рішенню для розвитку бізнесу на 360° ми підтримуємо відомі компанії, починаючи від нового бізнесу і закінчуючи післяпродажним обслуговуванням.

Ринкова аналітика, маркетинг, автоматизація маркетингу, розробка контенту, PR, поштові кампанії, персоналізовані соціальні мережі та підтримка лідів – це частина наших цифрових інструментів.

Більше інформації можна знайти за адресами: www.xpert.digital - www.xpert.solar - www.xpert.plus

Залишайтеся на зв'язку