
Просчет в 57 миллиардов долларов — NVIDIA предупреждает: индустрия ИИ поставила не на ту лошадь — Изображение: Xpert.Digital
Забудьте о гигантах искусственного интеллекта: почему будущее — маленькое, децентрализованное и гораздо более дешевое
### Малые языковые модели: ключ к настоящей автономии бизнеса ### От гиперскейлеров обратно к пользователям: смена власти в мире ИИ ### Ошибка на 57 миллиардов долларов: почему настоящая революция ИИ не происходит в облаке ### Тихая революция ИИ: децентрализация вместо централизации ### Технологические гиганты на неверном пути: будущее ИИ — бережливый и локальный ### От гиперскейлеров обратно к пользователям: смена власти в мире ИИ ###
Миллиарды долларов инвестиций потрачены впустую: почему небольшие модели ИИ обгоняют крупные
Мир искусственного интеллекта переживает землетрясение, масштаб которого напоминает коррекцию в эпоху доткомов. В основе этого потрясения лежит колоссальный просчет: в то время как технологические гиганты, такие как Microsoft, Google и Meta, инвестируют сотни миллиардов долларов в централизованные инфраструктуры для больших языковых моделей (LLM), реальный рынок их применения существенно отстает. Революционный анализ, частично проведенный лидером отрасли, компанией NVIDIA, оценивает разрыв в 57 миллиардов долларов в инфраструктурных инвестициях по сравнению с реальным рынком в размере всего 5,6 миллиарда долларов — десятикратное расхождение.
Эта стратегическая ошибка проистекает из предположения, что будущее ИИ заключается исключительно во всё более крупных, более ресурсоёмких и централизованно управляемых моделях. Но теперь эта парадигма рушится. Тихая революция, движимая децентрализованными, более мелкими языковыми моделями (SLM), переворачивает устоявшийся порядок с ног на голову. Эти модели не только многократно дешевле и эффективнее, но и позволяют компаниям достичь нового уровня автономности, суверенитета данных и гибкости — далекого от дорогостоящей зависимости от нескольких гиперскейлеров. В этой статье анализируется анатомия этих многомиллиардных ошибочных инвестиций и показывается, почему настоящая революция ИИ происходит не в гигантских центрах обработки данных, а децентрализованно и на экономичном оборудовании. Это история о фундаментальном смещении власти от поставщиков инфраструктуры к пользователям технологий.
Подходит для:
- Больше, чем пузырь доткомов? Ажиотаж вокруг искусственного интеллекта достигает нового уровня иррациональности.
Исследование NVIDIA о нерациональном распределении капитала в сфере ИИ
Описанные вами данные взяты из исследовательской статьи NVIDIA, опубликованной в июне 2025 года. Полный источник:
«Малые языковые модели — будущее агентного ИИ»
- Авторы: Питер Белчак, Грег Генрих, Шиже Дяо, Юнган Фу, Синь Донг, Саурав Муралидхаран, Йингян Селин Линь, Павел Молчанов
- Дата выпуска: 2 июня 2025 г. (версия 1), последняя редакция 15 сентября 2025 г. (версия 2)
- Место публикации: arXiv:2506.02153 [cs.AI]
- DOI: https://doi.org/10.48550/arXiv.2506.02153
- Официальная страница исследований NVIDIA: https://research.nvidia.com/labs/lpr/slm-agents/
Ключевое сообщение о нерациональном распределении капитала
Исследование выявило фундаментальное расхождение между инвестициями в инфраструктуру и фактическим объёмом рынка: в 2024 году отрасль инвестировала 57 миллиардов долларов в облачную инфраструктуру для поддержки API-сервисов больших языковых моделей (LLM), в то время как фактический объём рынка этих сервисов составил всего 5,6 миллиарда долларов. Это десятикратное расхождение интерпретируется в исследовании как признак стратегического просчета, поскольку отрасль вложила значительные средства в централизованную инфраструктуру для крупномасштабных моделей, хотя 40–70% текущих рабочих нагрузок LLM можно было бы заменить более мелкими специализированными малыми языковыми моделями (SLM) за 1/30 стоимости.
Контекст исследования и авторство
Данное исследование представляет собой аналитическую записку, подготовленную исследовательской группой по эффективности глубокого обучения в NVIDIA Research. Ведущий автор Питер Белчак — исследователь искусственного интеллекта в NVIDIA, специализирующийся на надежности и эффективности систем на основе агентов. В статье рассматриваются три основных принципа:
SLM являются
- достаточно мощный
- хирургически пригодный и
- экономически необходимо
для многих вариантов использования в системах агентного ИИ.
Исследователи прямо подчёркивают, что мнения, высказанные в данной статье, принадлежат авторам и не обязательно отражают позицию NVIDIA как компании. NVIDIA приветствует критическое обсуждение и обязуется публиковать любую связанную с этим переписку на соответствующем веб-сайте.
Почему децентрализованные модели малых языков делают ставку на централизованную инфраструктуру устаревшей
Искусственный интеллект переживает переломный момент, последствия которого напоминают потрясения, вызванные крахом доткомов. Исследование NVIDIA выявило фундаментальное нерациональное распределение капитала, которое подрывает основы её текущей стратегии в области ИИ. Хотя технологическая индустрия инвестировала 57 миллиардов долларов в централизованную инфраструктуру для крупномасштабных языковых моделей, фактический рынок их использования вырос до всего лишь 5,6 миллиарда долларов. Это десятикратное расхождение не только свидетельствует о переоценке спроса, но и обнажает фундаментальную стратегическую ошибку в отношении будущего искусственного интеллекта.
Плохая инвестиция? Миллиарды, потраченные на инфраструктуру ИИ — что делать с излишками мощностей?
Цифры говорят сами за себя. В 2024 году мировые расходы на инфраструктуру ИИ, по данным различных аналитических исследований, составили от 80 до 87 миллиардов долларов, при этом подавляющее большинство пришлось на центры обработки данных и ускорители. Microsoft объявила об инвестициях в размере 80 миллиардов долларов на 2025 финансовый год, Google повысила свой прогноз до 91–93 миллиардов долларов, а Meta планирует инвестировать до 70 миллиардов долларов. Только эти три гиперскейлерных проекта представляют собой объём инвестиций более 240 миллиардов долларов. По оценкам McKinsey, общие расходы на инфраструктуру ИИ могут составить от 3,7 до 7,9 триллиона долларов к 2030 году.
Напротив, реальность спроса отрезвляет. Рынок корпоративных больших языковых моделей оценивается всего в 4–6,7 млрд долларов к 2024 году, а прогнозы на 2025 год варьируются от 4,8 до 8 млрд долларов. Даже самые оптимистичные оценки рынка генеративного ИИ в целом составляют от 28 до 44 млрд долларов к 2024 году. Фундаментальное расхождение очевидно: инфраструктура создавалась для рынка, который в таком виде и объёме не существует.
Это ошибочное инвестирование проистекает из предположения, которое всё чаще оказывается ложным: будущее ИИ — во всё более крупных централизованных моделях. Гиперскейлеры придерживались стратегии массового масштабирования, движимые убеждённостью в том, что решающими факторами конкуренции являются количество параметров и вычислительная мощность. GPT-3 с 175 миллиардами параметров считалась прорывом в 2020 году, а GPT-4 с более чем триллионом параметров установила новые стандарты. Отрасль слепо следовала этой логике и инвестировала в инфраструктуру, разработанную для моделей, размер которых слишком велик для большинства сценариев использования.
Структура инвестиций наглядно иллюстрирует нерациональное распределение. Во втором квартале 2025 года 98% из 82 миллиардов долларов, потраченных на инфраструктуру ИИ, пришлось на серверы, причем 91,8% — на системы с ускорением на GPU и XPU. Гипермасштабируемые компании и разработчики облачных вычислений поглотили 86,7% этих расходов, что составляет примерно 71 миллиард долларов за квартал. Такая концентрация капитала на узкоспециализированном, чрезвычайно энергоемком оборудовании для обучения и построения масштабных моделей игнорирует фундаментальную экономическую реальность: большинству корпоративных приложений такие мощности не требуются.
Парадигма разрушается: от централизованного к децентрализованному
Сама NVIDIA, главный бенефициар недавнего инфраструктурного бума, теперь предоставляет анализ, бросающий вызов этой парадигме. Исследования малых языковых моделей как будущего агентного ИИ показывают, что модели с числом параметров менее 10 миллиардов не только достаточны, но и превосходны с операционной точки зрения для подавляющего большинства приложений ИИ. Исследование трёх крупных систем агентов с открытым исходным кодом показало, что от 40 до 70% вызовов больших языковых моделей можно заменить специализированными малыми моделями без потери производительности.
Эти результаты подрывают фундаментальные предпосылки существующей инвестиционной стратегии. Если MetaGPT сможет заменить 60% своих вызовов LLM, Open Operator — 40%, а Cradle — 70% на SLM, то будет создана инфраструктура, способная удовлетворить потребности, не существующие в таком масштабе. Экономические показатели радикально меняются: эксплуатация малой языковой модели Llama 3.1B обходится в десять-тридцать раз дешевле, чем её более крупный аналог — Llama 3.3 405B. Тонкая настройка может быть выполнена за несколько часов работы графического процессора вместо недель. Многие SLM работают на потребительском оборудовании, полностью устраняя зависимость от облака.
Стратегический сдвиг имеет фундаментальное значение. Контроль переходит от поставщиков инфраструктуры к операторам. В то время как предыдущая архитектура вынуждала компании зависеть от нескольких гипермасштабируемых решений, децентрализация посредством SLM обеспечивает новую степень автономии. Модели могут работать локально, данные остаются внутри компании, затраты на API устраняются, а привязка к поставщику исчезает. Это не просто технологическая трансформация, а трансформация политической системы.
Предыдущая ставка на централизованные крупномасштабные модели основывалась на предположении об экспоненциальном масштабировании. Однако эмпирические данные всё чаще опровергают это. Microsoft Phi-3 с 7 миллиардами параметров достигает производительности генерации кода, сравнимой с моделями с 70 миллиардами параметров. NVIDIA Nemotron Nano 2 с 9 миллиардами параметров превосходит Qwen3-8B в тестах логики, демонстрируя шестикратное увеличение производительности. Эффективность на параметр возрастает с уменьшением размера моделей, в то время как крупные модели часто активируют лишь часть своих параметров для заданных входных данных, что является изначальной неэффективностью.
Экономическое превосходство малых языковых моделей
Структура затрат наглядно демонстрирует экономическую реальность. Обучение моделей класса GPT-4 оценивается более чем в 100 миллионов долларов, а Gemini Ultra потенциально может обойтись в 191 миллион долларов. Даже тонкая настройка крупных моделей для конкретных областей может стоить десятки тысяч долларов в виде времени работы графических процессоров. В отличие от этого, обучение и тонкую настройку одноуровневых линейных моделей (SLM) можно выполнить всего за несколько тысяч долларов, часто на одном мощном графическом процессоре.
Стоимость вывода показывает ещё более существенные различия. GPT-4 стоит примерно 0,03 доллара США за 1000 входных токенов и 0,06 доллара США за 1000 выходных токенов, что в сумме составляет 0,09 доллара США за средний запрос. Mistral 7B, как пример SLM, стоит 0,0001 доллара США за 1000 входных токенов и 0,0003 доллара США за 1000 выходных токенов, или 0,0004 доллара США за запрос. Это означает снижение стоимости в 225 раз. При миллионах запросов эта разница составляет существенные суммы, напрямую влияющие на прибыльность.
Совокупная стоимость владения открывает новые возможности. Размещение модели с 7 миллиардами параметров на серверах с физическими серверами и графическими процессорами L40S обходится примерно в 953 доллара США в месяц. Облачная тонкая настройка с помощью AWS SageMaker на инстансах g5.2xlarge стоит 1,32 доллара США в час, а потенциальные затраты на обучение моделей меньшего размера начинаются от 13 долларов США. Круглосуточное развертывание системы вывода обойдется примерно в 950 долларов США в месяц. По сравнению со стоимостью API для непрерывного использования крупных моделей, которая может легко достигать десятков тысяч долларов США в месяц, экономическое преимущество становится очевидным.
Скорость внедрения — часто недооцениваемый экономический фактор. В то время как тонкая настройка большой языковой модели может занять несколько недель, SLM готовы к использованию уже через несколько часов или дней. Гибкость, позволяющая быстро реагировать на новые требования, добавлять новые возможности или адаптировать поведение, становится конкурентным преимуществом. На быстро меняющихся рынках эта разница во времени может стать решающим фактором между успехом и неудачей.
Экономия масштаба меняется. Традиционно экономия масштаба рассматривалась как преимущество гиперскейлеров, которые поддерживают огромные мощности и распределяют их между множеством клиентов. Однако с помощью SLM даже небольшие организации могут эффективно масштабироваться, поскольку требования к оборудованию значительно ниже. Стартап может создать специализированный SLM с ограниченным бюджетом, который превзойдет по производительности крупную универсальную модель для решения конкретной задачи. Демократизация разработки ИИ становится экономической реальностью.
Технические основы нарушения
Технологические инновации, лежащие в основе SLM, столь же значимы, как и их экономические последствия. Дистилляция знаний – метод, при котором меньшая модель учащегося усваивает знания более крупной модели учителя – доказала свою высокую эффективность. DistilBERT успешно сжал BERT, а TinyBERT следовал аналогичным принципам. Современные подходы позволяют извлечь максимум пользы из крупных генеративных моделей, таких как GPT-3, в значительно меньшие версии, демонстрирующие сопоставимую или даже более высокую производительность при выполнении конкретных задач.
В этом процессе используются как «мягкие» метки (распределения вероятностей) модели-учителя, так и «жесткие» метки исходных данных. Это сочетание позволяет модели меньшего размера улавливать тонкие закономерности, которые были бы утеряны в простых парах вход-выход. Продвинутые методы дистилляции, такие как пошаговая дистилляция, показали, что модели меньшего размера могут достигать лучших результатов, чем модели с линейной моделью управления (LLM), даже с меньшим количеством обучающих данных. Это принципиально меняет экономическую ситуацию: вместо дорогостоящих и длительных обучающих прогонов на тысячах графических процессоров достаточно целенаправленных процессов дистилляции.
Квантование снижает точность числового представления весов модели. Вместо 32- или 16-битных чисел с плавающей запятой квантованные модели используют 8- или даже 4-битные целочисленные представления. Требования к памяти пропорционально уменьшаются, скорость вывода увеличивается, а энергопотребление снижается. Современные методы квантования минимизируют потерю точности, часто практически не снижая производительность. Это позволяет внедрять решения на периферийных устройствах, смартфонах и встраиваемых системах, что было бы невозможно при использовании полностью точных больших моделей.
Обрезка удаляет из нейронных сетей избыточные связи и параметры. Подобно редактированию слишком длинного текста, выявляются и удаляются ненужные элементы. Структурированная обрезка удаляет целые нейроны или слои, в то время как неструктурированная обрезка удаляет отдельные веса. Результирующая структура сети более эффективна, требует меньше памяти и вычислительной мощности, сохраняя при этом основные возможности. В сочетании с другими методами сжатия обрезанные модели достигают впечатляющего повышения эффективности.
Низкоранговая факторизация разлагает матрицы с большим весом на произведения матриц меньшего размера. Вместо одной матрицы с миллионами элементов система хранит и обрабатывает две значительно меньшие матрицы. Математическая операция остаётся примерно той же, но вычислительные затраты значительно сокращаются. Этот метод особенно эффективен в архитектурах трансформаторов, где механизмы внимания доминируют при умножении больших матриц. Экономия памяти позволяет использовать более широкие контекстные окна или пакеты данных при том же аппаратном бюджете.
Сочетание этих технологий в современных одноуровневых линейных моделях (SLM), таких как Microsoft Phi, Google Gemma или NVIDIA Nemotron, демонстрирует их потенциал. Phi-2, имеющий всего 2,7 миллиарда параметров, превосходит модели Mistral и Llama-2 с 7 и 13 миллиардами параметров соответственно в агрегированных бенчмарках и демонстрирует более высокую производительность, чем в 25 раз более крупная Llama-2-70B в многошаговых задачах рассуждения. Этого удалось достичь благодаря стратегическому выбору данных, генерации высококачественных синтетических данных и инновационным методам масштабирования. Идея ясна: размер больше не является показателем производительности.
Динамика рынка и потенциал замещения
Эмпирические данные, полученные в ходе реальных приложений, подтверждают теоретические положения. Анализ MetaGPT, многоагентной среды разработки программного обеспечения, проведённый NVIDIA, показал, что примерно 60% запросов LLM можно заменить. К этим задачам относятся генерация шаблонного кода, создание документации и структурированный вывод — во всех областях, где специализированные SLM работают быстрее и экономичнее, чем универсальные крупномасштабные модели.
Система автоматизации рабочих процессов Open Operator, демонстрирующая 40%-ный потенциал замещения, демонстрирует, что даже в сложных сценариях оркестровки многие подзадачи не требуют полной мощности LLM. Анализ намерений, вывод на основе шаблонов и принятие решений о маршрутизации могут быть реализованы более эффективно с помощью точно настроенных небольших моделей. Оставшиеся 60%, которые фактически требуют глубокого анализа или обширных знаний о мире, оправдывают использование крупных моделей.
Cradle, система автоматизации графического интерфейса, демонстрирует самый высокий потенциал замещения — 70%. Повторяющиеся взаимодействия с пользовательским интерфейсом, последовательности щелчков мыши и заполнение форм идеально подходят для SLM. Задачи узко определены, вариативность ограничена, а требования к контекстному пониманию невысоки. Специализированная модель, обученная взаимодействию с графическим интерфейсом, превосходит универсальную модель LLM по скорости, надежности и стоимости.
Эти закономерности повторяются в различных областях применения. Чат-боты обслуживания клиентов для ответов на часто задаваемые вопросы, классификации документов, анализа тональности, распознавания именованных сущностей, простых переводов, запросов к базам данных на естественном языке — все эти задачи выигрывают от использования SLM. Согласно одному исследованию, в типичных корпоративных системах ИИ от 60 до 80% запросов попадают в категории, для которых SLM достаточен. Это имеет существенное значение для спроса на инфраструктуру.
Концепция маршрутизации моделей приобретает всё большее значение. Интеллектуальные системы анализируют входящие запросы и направляют их к соответствующей модели. Простые запросы направляются экономичным SLM-моделям, а сложные задачи обрабатываются высокопроизводительными LLM-моделями. Этот гибридный подход оптимизирует баланс между качеством и стоимостью. Ранние внедрения демонстрируют экономию до 75% при той же или даже более высокой общей производительности. Сама логика маршрутизации может представлять собой небольшую модель машинного обучения, учитывающую сложность запроса, контекст и предпочтения пользователя.
Распространение платформ тонкой настройки как услуги ускоряет их внедрение. Компании, не имеющие опыта в области глубокого машинного обучения, могут создавать специализированные SLM-модели, включающие их собственные данные и специфику предметной области. Временные затраты сокращаются с нескольких месяцев до нескольких дней, а стоимость — с сотен тысяч долларов до нескольких тысяч. Эта доступность принципиально демократизирует инновации в сфере ИИ и переносит создание ценности с поставщиков инфраструктуры на разработчиков приложений.
Новое измерение цифровой трансформации с «Управляемым ИИ» (искусственным интеллектом) — платформа и решение B2B | Xpert Consulting
Новое измерение цифровой трансформации с «Управляемым ИИ» (искусственным интеллектом) – платформа и решение B2B | Xpert Consulting - Изображение: Xpert.Digital
Здесь вы узнаете, как ваша компания может быстро, безопасно и без высоких барьеров для входа внедрять индивидуальные решения на основе ИИ.
Управляемая платформа ИИ — это ваш комплексный и простой в использовании пакет решений для искусственного интеллекта. Вместо того, чтобы разбираться со сложными технологиями, дорогостоящей инфраструктурой и длительными процессами разработки, вы получаете готовое решение, адаптированное под ваши потребности, от специализированного партнера — часто в течение нескольких дней.
Краткий обзор основных преимуществ:
⚡ Быстрое внедрение: от идеи до внедрения в эксплуатацию — всего за несколько дней, а не месяцев. Мы предлагаем практичные решения, которые приносят мгновенную пользу.
🔒 Максимальная безопасность данных: Ваши конфиденциальные данные остаются у вас. Мы гарантируем безопасную и соответствующую требованиям обработку данных без передачи третьим лицам.
💸 Отсутствие финансового риска: вы платите только за результат. Высокие первоначальные вложения в оборудование, программное обеспечение или персонал полностью исключены.
🎯 Сосредоточьтесь на своей основной деятельности: сосредоточьтесь на том, что у вас получается лучше всего. Мы возьмём на себя всю техническую реализацию, эксплуатацию и обслуживание вашего ИИ-решения.
📈 Перспективность и масштабируемость: ваш ИИ растёт вместе с вами. Мы обеспечиваем постоянную оптимизацию и масштабируемость, а также гибко адаптируем модели к новым требованиям.
Подробнее об этом здесь:
Как децентрализованный ИИ экономит компаниям миллиарды долларов
Скрытые затраты централизованных архитектур
Сосредоточение исключительно на прямых вычислительных затратах недооценивает общую стоимость централизованных архитектур LLM. Зависимости API создают структурные недостатки. Каждый запрос генерирует затраты, масштабируемые по мере использования. Для успешных приложений с миллионами пользователей плата за API становится доминирующим фактором затрат, снижая рентабельность. Компании попадают в ловушку структуры затрат, которая растет пропорционально успеху, без соответствующей экономии за счет масштаба.
Нестабильность цен поставщиков API представляет собой бизнес-риск. Повышение цен, ограничение квот или изменение условий обслуживания могут в одночасье свести на нет прибыльность приложения. Недавно объявленные крупными поставщиками ограничения емкости, вынуждающие пользователей экономить ресурсы, иллюстрируют уязвимость этой зависимости. Выделенные SLM полностью устраняют этот риск.
Суверенность данных и соблюдение требований законодательства приобретают всё большее значение. GDPR в Европе, аналогичные нормы по всему миру и растущие требования к локализации данных создают сложные правовые рамки. Передача конфиденциальных корпоративных данных во внешние API, которые могут работать в иностранных юрисдикциях, несёт в себе нормативные и юридические риски. Здравоохранение, финансовый сектор и государственный сектор часто предъявляют строгие требования, которые исключают или существенно ограничивают использование внешних API. Локальные системы управления информацией (SLM) кардинально решают эти проблемы.
Проблемы с интеллектуальной собственностью реальны. Каждый запрос, отправленный поставщику API, потенциально раскрывает конфиденциальную информацию. Бизнес-логика, разработка продуктов, информация о клиентах — всё это теоретически может быть извлечено и использовано поставщиком. Условия договора обеспечивают ограниченную защиту от случайных утечек или действий злоумышленников. Единственное действительно безопасное решение — никогда не передавать данные за пределы организации.
Задержки и надежность страдают из-за сетевых зависимостей. Каждый запрос к облачному API проходит через интернет-инфраструктуру, подверженный сетевому джиттеру, потере пакетов и переменному времени передачи туда и обратно. Для приложений реального времени, таких как разговорный ИИ или системы управления, эти задержки неприемлемы. Локальные SLM отвечают за миллисекунды, а не секунды, независимо от состояния сети. Пользовательский опыт значительно улучшается.
Стратегическая опора на несколько гипермасштабируемых сервисов концентрирует ресурсы и создаёт системные риски. На рынке доминируют AWS, Microsoft Azure, Google Cloud и некоторые другие. Сбои в работе этих сервисов имеют каскадный эффект для тысяч зависимых приложений. Иллюзия избыточности исчезает, если учесть, что большинство альтернативных сервисов в конечном итоге полагаются на тот же ограниченный набор поставщиков моделей. Истинная устойчивость требует диверсификации, в идеале включающей использование собственных мощностей.
Подходит для:
- Что лучше: децентрализованная, федеративная, устойчивая к хрупкости инфраструктура ИИ, или ИИ Gigafactory, или гипермасштабный центр обработки данных ИИ?
Периферийные вычисления как стратегический поворотный момент
Конвергенция SLM и периферийных вычислений создаёт преобразующую динамику. Развёртывание периферийных вычислений позволяет проводить вычисления там, где возникают данные – в датчиках Интернета вещей, мобильных устройствах, промышленных контроллерах и транспортных средствах. Задержка сокращается радикально: с секунд до миллисекунд, при передаче данных из облака в локальную обработку. Для автономных систем, дополненной реальности, промышленной автоматизации и медицинских устройств это не только желательно, но и необходимо.
Экономия полосы пропускания существенна. Вместо непрерывной передачи данных в облако, где они обрабатываются и результаты отправляются обратно, обработка происходит локально. Передаётся только актуальная, агрегированная информация. В сценариях с тысячами периферийных устройств это на порядок сокращает сетевой трафик. Снижаются затраты на инфраструктуру, предотвращается перегрузка сети и повышается надёжность.
Конфиденциальность по своей сути защищена. Данные больше не покидают пределы устройства. Видеозаписи с камер, аудиозаписи, биометрическая информация, данные о местоположении — всё это можно обрабатывать локально, без обращения к центральным серверам. Это решает фундаментальные проблемы конфиденциальности, возникающие при использовании облачных решений на основе искусственного интеллекта. Для потребительских приложений это становится определяющим фактором; для регулируемых отраслей — обязательным требованием.
Энергоэффективность повышается на нескольких уровнях. Специализированные периферийные ИИ-чипы, оптимизированные для вывода небольших моделей, потребляют лишь малую часть энергии, потребляемой графическими процессорами в центрах обработки данных. Исключение передачи данных экономит энергию в сетевой инфраструктуре. Для устройств с питанием от аккумуляторов это становится ключевой функцией. Смартфоны, носимые устройства, дроны и датчики Интернета вещей могут выполнять функции ИИ, не существенно влияя на время работы аккумулятора.
Автономность обеспечивает надёжность. Периферийный ИИ также работает без подключения к Интернету. Функциональность сохраняется в удалённых регионах, критически важной инфраструктуре и в условиях стихийных бедствий. Эта независимость от доступности сети крайне важна для многих приложений. Автономный автомобиль не может полагаться на облачное подключение, а медицинское устройство не должно выходить из строя из-за нестабильного Wi-Fi.
Модели затрат смещаются от операционных к капитальным. Вместо постоянных затрат на облачные технологии используются единовременные инвестиции в периферийное оборудование. Это становится экономически выгодным для долгосрочных, высокопроизводительных приложений. Предсказуемые затраты улучшают планирование бюджета и снижают финансовые риски. Компании возвращают себе контроль над расходами на ИИ-инфраструктуру.
Примеры демонстрируют потенциал. NVIDIA ChatRTX обеспечивает локальный вывод LLM на потребительских графических процессорах. Apple интегрирует искусственный интеллект (ИИ) на устройствах iPhone и iPad, запуская небольшие модели непосредственно на устройстве. Qualcomm разрабатывает нейронные процессоры (NPU) для смартфонов специально для периферийного ИИ. Google Coral и аналогичные платформы ориентированы на приложения Интернета вещей и промышленности. Динамика рынка демонстрирует явную тенденцию к децентрализации.
Гетерогенные архитектуры ИИ как будущая модель
Будущее — не за абсолютной децентрализацией, а за интеллектуальными гибридными архитектурами. Гетерогенные системы сочетают периферийные SLM-модели для рутинных задач, чувствительных к задержкам, с облачными LLM-моделями для сложных логических вычислений. Такая взаимодополняемость обеспечивает максимальную эффективность, сохраняя при этом гибкость и производительность.
Архитектура системы состоит из нескольких уровней. На пограничном уровне высокооптимизированные SLM обеспечивают мгновенные ответы. Ожидается, что они будут обрабатывать от 60 до 80% запросов автономно. В случае неоднозначных или сложных запросов, не соответствующих локальным порогам достоверности, происходит эскалация на уровень туманных вычислений – региональные серверы с моделями среднего уровня. Только действительно сложные случаи доходят до центральной облачной инфраструктуры с большими моделями общего назначения.
Маршрутизация на основе модели становится критически важным компонентом. Маршрутизаторы на основе машинного обучения анализируют характеристики запроса: длину текста, индикаторы сложности, сигналы домена и историю пользователя. На основе этих характеристик запрос назначается соответствующей модели. Современные маршрутизаторы достигают точности оценки сложности более 95%. Они непрерывно оптимизируют данные, исходя из фактической производительности и соотношения цены и качества.
Механизмы перекрёстного внимания в современных системах маршрутизации явно моделируют взаимодействие запросов и моделей. Это позволяет принимать взвешенные решения: достаточно ли Mistral-7B или требуется GPT-4? Справится ли Phi-3 с этим или нужен Claude? Тонкая структура этих решений, умноженная на миллионы запросов, обеспечивает значительную экономию средств, сохраняя или даже повышая удовлетворенность пользователей.
Характеристика рабочей нагрузки имеет основополагающее значение. Агентные системы ИИ включают в себя оркестровку, рассуждения, вызовы инструментов, операции с памятью и генерацию выходных данных. Не всем компонентам требуется одинаковая вычислительная мощность. Оркестровка и вызовы инструментов часто основаны на правилах или требуют минимального интеллекта — идеально для SLM. Рассуждения могут быть гибридными: простой вывод в SLM, сложные многошаговые рассуждения в LLM. Генерация выходных данных для шаблонов использует SLM, а креативная генерация текста — LLM.
Оптимизация совокупной стоимости владения (TCO) учитывает неоднородность оборудования. Высокопроизводительные графические процессоры H100 используются для критически важных рабочих нагрузок LLM, среднеуровневые A100 или L40S — для моделей среднего уровня, а экономичные чипы T4 или чипы, оптимизированные для вывода, — для SLM. Такая детализация позволяет точно сопоставлять требования к рабочей нагрузке с возможностями оборудования. Предварительные исследования показывают снижение совокупной стоимости владения на 40–60% по сравнению с однородными высокопроизводительными развертываниями.
Оркестровка требует сложных программных стеков. Системы управления кластерами на базе Kubernetes, дополненные планировщиками на базе ИИ, которые анализируют характеристики моделей, играют ключевую роль. Балансировка нагрузки учитывает не только количество запросов в секунду, но и длину токенов, объём памяти модели и целевые значения задержки. Автоматическое масштабирование реагирует на особенности спроса, предоставляя дополнительную мощность или уменьшая её в периоды низкой загрузки.
Устойчивое развитие и энергоэффективность
Воздействие инфраструктуры ИИ на окружающую среду становится центральной проблемой. Обучение одной крупной языковой модели может потреблять столько же энергии, сколько небольшой город за год. К 2028 году на центры обработки данных, обслуживающие рабочие нагрузки ИИ, может приходиться 20–27% мирового энергопотребления центров обработки данных. Согласно прогнозам, к 2030 году центрам обработки данных ИИ может потребоваться 8 гигаватт для каждого цикла обучения. Углеродный след будет сопоставим с углеродным следом авиационной отрасли.
Энергоёмкость крупных моделей непропорционально растёт. Потребляемая мощность графических процессоров за три года удвоилась с 400 до более чем 1000 Вт. Системы NVIDIA GB300 NVL72, несмотря на инновационную технологию сглаживания пиковой нагрузки, снижающую её на 30%, потребляют огромное количество энергии. Инфраструктура охлаждения добавляет ещё 30–40% к энергопотреблению. Общие выбросы CO2 от инфраструктуры искусственного интеллекта могут увеличиться на 220 миллионов тонн к 2030 году, даже при оптимистичном прогнозе декарбонизации сетей.
Малые языковые модели (SLM) обеспечивают фундаментальный рост эффективности. Обучение требует от 30 до 40 процентов вычислительной мощности сопоставимых LLM. Обучение BERT стоит около 10 000 евро по сравнению с сотнями миллионов евро для моделей класса GPT-4. Энергопотребление при выводе пропорционально ниже. Запрос SLM может потреблять в 100–1000 раз меньше энергии, чем запрос LLM. При обработке миллионов запросов это приводит к значительной экономии.
Периферийные вычисления усиливают эти преимущества. Локальная обработка данных исключает энергозатраты на передачу данных по сетям и магистральной инфраструктуре. Специализированные периферийные ИИ-чипы обеспечивают на порядки более высокую энергоэффективность, чем графические процессоры в центрах обработки данных. Смартфоны и устройства Интернета вещей с милливаттными нейронными процессорами вместо серверов мощностью в сотни ватт иллюстрируют разницу в масштабах.
Использование возобновляемых источников энергии становится приоритетом. Google стремится к 100% отказу от выбросов углерода к 2030 году, а Microsoft — к достижению углеродного отрицания. Однако масштаб спроса на энергию создаёт проблемы. Даже при использовании возобновляемых источников энергии остаются вопросы пропускной способности сетей, накопления энергии и её нестабильности. SLM снижают абсолютный спрос, делая переход к «зелёному» ИИ более осуществимым.
Вычисления с учётом выбросов углерода оптимизируют планирование рабочей нагрузки на основе интенсивности выбросов углерода в сети. Обучающие сеансы начинаются, когда доля возобновляемой энергии в сети максимальна. Запросы на вывод направляются в регионы с более чистой энергией. Такая временная и географическая гибкость в сочетании с эффективностью SLM может снизить выбросы CO2 на 50–70%.
Нормативно-правовая база становится всё более строгой. Закон ЕС об искусственном интеллекте (ИИ) предусматривает обязательную оценку воздействия на окружающую среду для некоторых систем ИИ. Отчётность по выбросам углерода становится стандартом. Компании с неэффективной, энергоёмкой инфраструктурой рискуют столкнуться с проблемами соблюдения требований и репутационным ущербом. Внедрение SLM и периферийных вычислений превращается из приятного до необходимости.
Демократизация против концентрации
В результате прошлых разработок мощь ИИ была сосредоточена в руках нескольких ключевых игроков. «Великолепная семёрка» — Microsoft, Google, Meta, Amazon, Apple, NVIDIA и Tesla — доминирует. Эти гипермасштабируемые компании контролируют инфраструктуру, модели и всё больше — всю цепочку создания стоимости. Их совокупная рыночная капитализация превышает 15 триллионов долларов. На них приходится почти 35% рыночной капитализации индекса S&P 500, что представляет собой беспрецедентный по историческому значению риск концентрации.
Такая концентрация имеет системные последствия. Несколько компаний устанавливают стандарты, определяют API и контролируют доступ. Более мелкие игроки и развивающиеся страны становятся зависимыми. Цифровой суверенитет государств подвергается сомнению. Европа, Азия и Латинская Америка реагируют на это национальными стратегиями в области ИИ, но доминирование американских гиперскейлеров остаётся подавляющим.
Малые языковые модели (SLM) и децентрализация меняют эту динамику. SLM с открытым исходным кодом, такие как Phi-3, Gemma, Mistral и Llama, демократизируют доступ к передовым технологиям. Университеты, стартапы и средний бизнес могут разрабатывать конкурентоспособные приложения без гипермасштабируемых ресурсов. Инновационный барьер значительно снижается. Небольшая команда может создать специализированную SLM, которая превзойдет Google или Microsoft в своей нише.
Экономическая целесообразность смещается в пользу более мелких игроков. В то время как разработка программ магистратуры (LLM) требует бюджетов в сотни миллионов, программы SLM можно реализовать с пяти-шестизначными суммами. Демократизация облачных технологий обеспечивает доступ к учебной инфраструктуре по запросу. Сервисы тонкой настройки абстрагируются от сложности. Входной барьер для инноваций в области ИИ снижается с запредельно высокого до управляемого.
Суверенитет данных становится реальностью. Компании и правительства могут размещать модели, которые никогда не будут использоваться внешними серверами. Конфиденциальные данные остаются под их контролем. Соблюдение GDPR упрощается. Закон ЕС об искусственном интеллекте (ИИ), который устанавливает строгие требования к прозрачности и подотчётности, становится более управляемым благодаря использованию проприетарных моделей вместо API-интерфейсов «чёрного ящика».
Разнообразие инноваций растёт. Вместо монокультуры моделей, подобных GPT, появляются тысячи специализированных SLM для конкретных областей, языков и задач. Такое разнообразие устойчиво к систематическим ошибкам, усиливает конкуренцию и ускоряет прогресс. Инновационный ландшафт становится полицентричным, а не иерархичным.
Риски концентрации становятся очевидными. Зависимость от нескольких поставщиков создаёт единые точки отказа. Сбои в работе AWS или Azure парализуют работу глобальных сервисов. Политические решения гипермасштабирующегося оператора, такие как ограничения использования или региональные блокировки, имеют каскадный эффект. Децентрализация посредством SLM принципиально снижает эти системные риски.
Стратегическая перестройка
Для компаний этот анализ подразумевает фундаментальные стратегические корректировки. Инвестиционные приоритеты смещаются от централизованной облачной инфраструктуры к гетерогенным, распределённым архитектурам. Вместо максимальной зависимости от API гипермасштабируемых вычислений, цель — достижение автономности за счёт внутренних SLM. Развитие навыков фокусируется на тонкой настройке моделей, развёртывании периферийных вычислений и гибридной оркестровке.
Решение «создать или купить» меняется. Если раньше приобретение доступа к API считалось рациональным, то разработка собственных специализированных SLM становится всё более привлекательной. Общая стоимость владения за три-пять лет явно говорит в пользу внутренних моделей. Стратегический контроль, безопасность данных и адаптивность добавляют дополнительные качественные преимущества.
Для инвесторов такое нерациональное распределение ресурсов сигнализирует об осторожности в отношении чисто инфраструктурных проектов. Инвестиционные фонды недвижимости (REIT) для центров обработки данных, производители графических процессоров и гиперскейлеры могут столкнуться с переизбытком мощностей и снижением загрузки, если спрос не оправдает прогнозы. Происходит миграция стоимости в сторону поставщиков технологий SLM, периферийных ИИ-чипов, программного обеспечения для оркестровки и специализированных ИИ-приложений.
Геополитический аспект имеет значение. Страны, отдающие приоритет национальному суверенитету в области ИИ, выигрывают от перехода к устойчивому развитию. Китай инвестирует 138 миллиардов долларов в отечественные технологии, а Европа — 200 миллиардов долларов в InvestAI. Эти инвестиции будут более эффективными, когда решающим фактором станет не абсолютный масштаб, а интеллектуальные, эффективные и специализированные решения. Многополярный мир ИИ становится реальностью.
Параллельно развивается и нормативно-правовая база. Защита данных, алгоритмическая подотчётность, экологические стандарты — всё это способствует развитию децентрализованных, прозрачных и эффективных систем. Компании, внедряющие SLM и периферийные вычисления на ранних этапах, получают выгодные условия для соблюдения будущих нормативных требований.
Ландшафт талантов меняется. Если раньше ресурсы для исследований LLM были только у элитных университетов и ведущих технологических компаний, то теперь практически любая организация может разрабатывать программы SLM. Дефицит квалифицированных специалистов, который мешает 87% организаций нанимать специалистов с искусственным интеллектом, компенсируется снижением сложности и улучшением инструментов. Рост производительности благодаря развитию с помощью ИИ усиливает этот эффект.
Методы измерения окупаемости инвестиций в ИИ меняются. Вместо того, чтобы фокусироваться на чистой вычислительной мощности, ключевым показателем становится эффективность выполнения задачи. Предприятия сообщают о средней окупаемости инвестиций в ИИ-инициативы в размере 5,9%, что значительно ниже ожиданий. Причина часто кроется в использовании громоздких и дорогостоящих решений для простых задач. Переход к оптимизированным под задачи SLM может значительно повысить эту окупаемость.
Анализ показывает, что отрасль переживает переломный момент. Неправильное инвестирование в размере 57 миллиардов долларов — это не просто переоценка спроса. Это фундаментальный стратегический просчет в отношении архитектуры искусственного интеллекта. Будущее принадлежит не централизованным гигантам, а децентрализованным, специализированным и эффективным системам. Малые языковые модели не уступают большим — они превосходят их для подавляющего большинства реальных приложений. Экономические, технические, экологические и стратегические аргументы сходятся в однозначном выводе: революция ИИ будет децентрализованной.
Переход власти от поставщиков к операторам, от гипермасштабаторов к разработчикам приложений, от централизации к дистрибуции знаменует собой новый этап в развитии ИИ. Те, кто осознает и примет этот переход на ранней стадии, окажутся в выигрыше. Те, кто цепляется за старую логику, рискуют превратить свою дорогостоящую инфраструктуру в бесполезный актив, вытесненный более гибкими и эффективными альтернативами. 57 миллиардов долларов не просто потрачены впустую — они знаменуют начало конца парадигмы, которая уже устарела.
Ваш глобальный партнер по маркетингу и развитию бизнеса
☑️ Наш деловой язык — английский или немецкий.
☑️ НОВИНКА: Переписка на вашем национальном языке!
Я был бы рад служить вам и моей команде в качестве личного консультанта.
Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein ∂ xpert.digital
Я с нетерпением жду нашего совместного проекта.
☑️ Поддержка МСП в разработке стратегии, консультировании, планировании и реализации.
☑️ Создание или корректировка цифровой стратегии и цифровизации.
☑️ Расширение и оптимизация процессов международных продаж.
☑️ Глобальные и цифровые торговые платформы B2B
☑️ Пионерское развитие бизнеса/маркетинг/PR/выставки.
🎯🎯🎯 Воспользуйтесь преимуществами обширного пятистороннего опыта Xpert.Digital в комплексном пакете услуг | BD, R&D, XR, PR и оптимизация цифровой видимости
Воспользуйтесь преимуществами обширного пятистороннего опыта Xpert.Digital в комплексном пакете услуг | НИОКР, XR, PR и оптимизация цифровой видимости — Изображение: Xpert.Digital
Xpert.Digital обладает глубокими знаниями различных отраслей. Это позволяет нам разрабатывать индивидуальные стратегии, которые точно соответствуют требованиям и задачам вашего конкретного сегмента рынка. Постоянно анализируя тенденции рынка и следя за развитием отрасли, мы можем действовать дальновидно и предлагать инновационные решения. Благодаря сочетанию опыта и знаний мы создаем добавленную стоимость и даем нашим клиентам решающее конкурентное преимущество.
Подробнее об этом здесь:

