Значок веб-сайта Эксперт.Цифровой

НОВИНКА! DeepSeek OCR — тихий триумф Китая: как ИИ с открытым исходным кодом подрывает доминирование США на рынке чипов

НОВИНКА! DeepSeek OCR — тихий триумф Китая: как ИИ с открытым исходным кодом подрывает доминирование США на рынке чипов

НОВИНКА! DeepSeek OCR — тихий триумф Китая: как ИИ с открытым исходным кодом подрывает доминирование США на рынке чипов — Изображение: Xpert.Digital

Конец дорогостоящему ИИ? Вместо чтения текста этот ИИ анализирует изображения — и поэтому он в 10 раз эффективнее.

Как простой трюк может сократить затраты на вычисления на 90% — ахиллесова пята ChatGPT: почему новая технология OCR меняет правила экономики искусственного интеллекта

Долгое время казалось, что мир искусственного интеллекта следует простому закону: чем больше, тем лучше. Благодаря миллиардам, вложенным в гигантские центры обработки данных, такие технологические гиганты, как OpenAI, Google и Anthropic, вступили в гонку вооружений, разрабатывая всё более масштабные языковые модели с всё более широкими контекстными окнами. Но за этими впечатляющими демонстрациями кроется фундаментальная экономическая слабость: квадратичное масштабирование. Каждое удвоение длины текста, который должна обрабатывать модель, приводит к экспоненциальному росту вычислительных затрат, делая бесчисленные перспективные приложения практически нерентабельными.

Именно на этом экономическом барьере теперь вступает в игру технология, которая не только представляет собой улучшение, но и предлагает фундаментальную альтернативу устоявшейся парадигме: DeepSeek-OCR. Вместо того, чтобы разбивать текст на длинную цепочку токенов, эта система использует радикально иной подход: она преобразует текст в изображение и обрабатывает информацию визуально. Этот, казалось бы, простой трюк оказывается экономическим прорывом, подрывающим основы инфраструктуры ИИ.

Благодаря интеллектуальному сочетанию визуального сжатия, сокращающего количество дорогостоящих вычислительных операций в 10–20 раз, и высокоэффективной архитектуры «Смесь экспертов» (MoE), технология распознавания текста DeepSeek OCR обходит традиционную ловушку затрат. Результатом является не только значительное повышение эффективности, удешевляющее обработку документов до 90%, но и смена парадигмы с далеко идущими последствиями. В данной статье анализируется, как это нововведение не только революционизирует рынок обработки документов, но и бросает вызов бизнес-моделям устоявшихся поставщиков решений на основе ИИ, переосмысливая стратегическую важность аппаратного превосходства и демократизируя технологию в широких масштабах благодаря её открытому исходному коду. Возможно, мы находимся на пороге новой эры, в которой архитектурный интеллект, а не чистая вычислительная мощность, будет диктовать правила экономики ИИ.

Подходит для:

Почему DeepSeek OCR бросает фундаментальный вызов устоявшейся инфраструктуре искусственного интеллекта и задаёт новые правила экономики компьютерных наук: классические ограничения контекстно-зависимой обработки

Центральная проблема, с которой столкнулись большие языковые модели с момента их коммерческого внедрения, заключается не в их интеллектуальности, а в их математической неэффективности. Конструкция механизма внимания, лежащая в основе всех современных архитектур преобразователей, имеет фундаментальный недостаток: сложность обработки растёт квадратично с числом входных токенов. В частности, это означает, что языковая модель с контекстом из 4096 токенов требует в шестнадцать раз больше вычислительных ресурсов, чем модель с контекстом из 1024 токенов. Это квадратичное масштабирование — не просто техническая деталь, а прямой экономический порог, различающий практически жизнеспособные и экономически невыгодные приложения.

Долгое время отрасль реагировала на это ограничение классической стратегией масштабирования: более широкие контекстные окна достигались за счёт наращивания мощности оборудования. Например, Microsoft разработала LongRoPE, который расширяет контекстные окна до более чем двух миллионов токенов, в то время как Google Gemini 1.5 может обрабатывать один миллион токенов. Однако практика наглядно демонстрирует иллюзорность такого подхода: несмотря на рост технических возможностей обработки более длинных текстов, внедрение этих технологий в производственных средах застопорилось, поскольку структура затрат для таких сценариев остаётся просто нерентабельной. Операционная реальность для центров обработки данных и облачных провайдеров такова, что они сталкиваются с экспоненциальным ростом затрат при каждом удвоении длины контекста.

Эта экономическая дилемма становится геометрически прогрессирующей из-за вышеупомянутой квадратичной сложности: модель, обрабатывающая текст из 100 000 токенов, требует не в десять, а в сто раз больше вычислительных затрат, чем модель, обрабатывающая 10 000 токенов. В промышленной среде, где пропускная способность, измеряемая в токенах в секунду на графический процессор, является ключевым показателем рентабельности, это означает, что обработка длинных документов с использованием текущей парадигмы токенизации нерентабельна.

Бизнес-модель большинства поставщиков программ LLM построена на монетизации этих токенов. OpenAI, Anthropic и другие известные поставщики рассчитывают свои цены на основе входных и выходных токенов. Средний деловой документ объёмом в сто страниц может быстро конвертироваться в пять-десять тысяч токенов. Если компания ежедневно обрабатывает сотни таких документов, годовой счёт быстро достигает шести-семизначных сумм. Большинство корпоративных приложений в контексте RAG (Retrieval Augmented Generation) были ограничены этими затратами и поэтому либо не были внедрены, либо были переключены на более экономичные альтернативы, такие как традиционные системы оптического распознавания символов (OCR) или системы на основе правил.

Подходит для:

Механизм визуальной компрессии

DeepSeek-OCR представляет собой принципиально иной подход к этой проблеме, не ограничиваясь рамками существующей парадигмы токенов, а буквально обходит её. Система работает по простому, но радикально эффективному принципу: вместо разложения текста на отдельные токены, текст сначала визуализируется как изображение, а затем обрабатывается как визуальный носитель. Это не просто техническая трансформация, а концептуальная переработка самого процесса ввода.

Основная схема состоит из нескольких последовательных уровней обработки. Страница документа высокого разрешения сначала преобразуется в изображение, сохраняя всю визуальную информацию, включая макет, графику, таблицы и исходную типографику. В этой графической форме одна страница, например, форматом 1024×1024 пикселя, теоретически может быть эквивалентна тексту из тысячи-двадцати тысяч токенов, поскольку страница с таблицами, многоколоночной компоновкой и сложной визуальной структурой может содержать именно такой объём информации.

DeepEncoder, первый компонент обработки системы, использует не классическую конструкцию визуального преобразователя, а гибридную архитектуру. Модуль локального восприятия, основанный на модели «Сегментировать всё», сканирует изображение, используя оконное внимание. Это означает, что система обрабатывает не всё изображение, а небольшие перекрывающиеся области. Эта стратегия критически важна, поскольку позволяет избежать классической ловушки квадратичной сложности. Вместо того, чтобы каждый пиксель или визуальный элемент привлекал внимание ко всем остальным, система работает в локальных окнах, например, в областях 1/8 или 1/14 пикселей.

Далее следует технически революционный этап: двухслойный свёрточный даунсэмплер уменьшает количество визуальных токенов в шестнадцать раз. Это означает, что исходные 4960 визуальных патч-токенов из локального модуля сжимаются всего до 256 визуальных токенов. Это сжатие удивительно эффективно, но что действительно важно, так это то, что оно происходит до применения дорогостоящих механизмов глобального внимания. Даунсэмплер представляет собой точку инверсии, где экономичная локальная обработка преобразуется в предельно сжатое представление, к которому затем применяется более дорогостоящее, но теперь реализуемое глобальное внимание.

После такого сжатия модель размером с CLIP, которая сама по себе содержит триста миллионов параметров, оперирует всего двумястами пятьюдесятью шестью токенами. Это означает, что глобальной матрице внимания требуется выполнить всего четыре тысячи шестьсот тридцать пять парных операций внимания вместо шестнадцати тысяч девяноста четырёх. Это сокращение в двести пятьдесят раз только на этом этапе обработки.

Результатом такого архитектурного разделения является сквозное сжатие от 10:1 до 20:1, что практически обеспечивает точность 97%, при условии, что сжатие не превышает 10:1. Даже при более сильном сжатии до 20:1 точность снижается всего до 60%, что приемлемо для многих приложений, особенно в контексте обучающих данных.

Слой оптимизации «Смесь экспертов»

Вторым важным аспектом DeepSeek OCR является архитектура декодирования. Система использует DeepSeek-3B-MoE — модель с общим числом параметров в три миллиарда, но только 570 миллионов активных параметров на вывод. Это не было случайным решением, а скорее ответом на проблемы контекстного окна и стоимости.

Модели со смесью экспертов работают по принципу динамического отбора экспертов. Вместо того, чтобы обрабатывать каждый токен по всем параметрам модели, каждый токен направляется небольшому подмножеству экспертов. Это означает, что на каждом этапе декодирования активируется лишь часть от общего числа параметров. В DeepSeek OCR обычно активируются шесть из шестидесяти четырёх экспертов, плюс два общих эксперта, которые активны для всех токенов. Такая разреженная активация приводит к явлению, известному в экономике как сублинейное масштабирование: вычислительные затраты растут не пропорционально размеру модели, а гораздо медленнее.

Экономические последствия такой архитектуры весьма существенны. Плотная модель преобразователя с тремя миллиардами параметров активирует все три миллиарда параметров для каждого токена. Это приводит к огромному использованию пропускной способности памяти и вычислительной нагрузке. Однако модель MoE с теми же тремя миллиардами параметров активирует всего 570 миллионов на токен, что составляет примерно пятую часть эксплуатационных затрат с точки зрения времени вычислений. Это не означает снижения качества, поскольку производительность модели не снижается из-за разнообразия экспертов, а, скорее, мобилизуется выборочно.

В промышленных условиях эта архитектура радикально меняет структуру стоимости услуг. Крупный центр обработки данных, использующий DeepSeek-V3 с архитектурой MoE, может достичь четырёх-пятикратного увеличения пропускной способности на той же аппаратной инфраструктуре по сравнению с плотной моделью аналогичного качества. Это означает, что на одном графическом процессоре A100 оптическое сжатие в сочетании с архитектурой MoE позволяет обрабатывать около девяноста миллиардов токенов в день чисто текстовых данных. Это колоссальная пропускная способность, ранее недостижимая в этом секторе.

 

🎯🎯🎯 Воспользуйтесь преимуществами обширного пятистороннего опыта Xpert.Digital в комплексном пакете услуг | BD, R&D, XR, PR и оптимизация цифровой видимости

Воспользуйтесь преимуществами обширного пятистороннего опыта Xpert.Digital в комплексном пакете услуг | НИОКР, XR, PR и оптимизация цифровой видимости — Изображение: Xpert.Digital

Xpert.Digital обладает глубокими знаниями различных отраслей. Это позволяет нам разрабатывать индивидуальные стратегии, которые точно соответствуют требованиям и задачам вашего конкретного сегмента рынка. Постоянно анализируя тенденции рынка и следя за развитием отрасли, мы можем действовать дальновидно и предлагать инновационные решения. Благодаря сочетанию опыта и знаний мы создаем добавленную стоимость и даем нашим клиентам решающее конкурентное преимущество.

Подробнее об этом здесь:

 

Парадокс эффективности токенов: почему более дешевый ИИ все равно увеличивает расходы

Экономическая трансформация рынка обработки документов

Последствия этого технологического прорыва для всего рынка обработки документов весьма существенны. Традиционный рынок OCR, на котором долгое время доминировали такие компании, как ABBYY, Tesseract и их собственные решения, исторически фрагментирован по уровню сложности документов, точности и пропускной способности. Стандартизированные OCR-решения обычно обеспечивают точность 90–95% для гладких цифровых документов, но опускаются до 50% и ниже для отсканированных документов с рукописными аннотациями или устаревшей информацией.

Технология DeepSeek OCR значительно превосходит эти показатели точности, но при этом достигает того, чего не может традиционная технология OCR: она не просто обрабатывает текст, но и сохраняет понимание макета, структуры таблицы, форматирования и даже семантики. Это означает, что финансовый отчёт не просто извлекается как текстовая строка, но и сохраняет структуру таблицы и математические связи между ячейками. Это открывает возможности автоматизированной проверки данных, которую традиционные технологии OCR обеспечить не могли.

Экономический эффект особенно очевиден в приложениях с большим объёмом обработки. Компания, обрабатывающая тысячи счетов ежедневно, обычно платит от сорока центов до двух долларов за документ за традиционное извлечение данных, в зависимости от сложности и уровня автоматизации. Благодаря DeepSeek OCR эти расходы могут снизиться до менее чем десяти центов за документ, поскольку оптическое сжатие делает весь процесс вывода настолько эффективным. Это означает снижение затрат на семьдесят-девяносто процентов.

Это оказывает ещё более серьёзное влияние на системы RAG (Retrieval Augmented Generation), где компании извлекают внешние документы в режиме реального времени и передают их языковым моделям для генерации точных ответов. Компании, управляющей агентом службы поддержки клиентов, имеющим доступ к базе данных документов объёмом в сотни миллионов слов, традиционно пришлось бы токенизировать одно или несколько таких слов и передавать их модели с каждым запросом. С помощью DeepSeek OCR эта же информация может быть предварительно сжата в виде визуальных токенов и повторно использоваться с каждым запросом. Это устраняет необходимость в огромных избыточных вычислениях, которые раньше выполнялись при каждом запросе.

Исследования показывают конкретные цифры: компания, желающая автоматически анализировать юридические документы, может ожидать затрат в сто долларов за анализ, используя традиционный текстовый редактор. Благодаря визуальному сжатию эти затраты снижаются до двенадцати-пятнадцати долларов за анализ. Для крупных компаний, обрабатывающих сотни дел ежедневно, это означает ежегодную экономию в десятки миллионов.

Подходит для:

Противоречие парадокса эффективности токенов

Интересный экономический аспект, возникающий в связи с такими разработками, как оптическое распознавание символов (OCR) DeepSeek, — это так называемый парадокс эффективности токенов. На первый взгляд, снижение затрат за счёт повышения эффективности должно привести к снижению общих расходов. Однако эмпирическая реальность показывает обратную картину. Хотя стоимость одного токена за последние три года снизилась в тысячу раз, компании часто сообщают о росте общих расходов. Это связано с явлением, которое экономисты называют парадоксом Джевонса: снижение затрат приводит не к пропорциональному сокращению использования, а к взрывному росту, что в конечном итоге приводит к росту общих расходов.

В контексте DeepSeek OCR может возникнуть противоположный феномен: компании, которые ранее минимизировали использование языковых моделей для обработки документов из-за непомерно высоких затрат, теперь масштабируют эти приложения, поскольку они внезапно становятся экономически выгодными. Как ни парадоксально, это означает, что, несмотря на снижение стоимости одного приложения, общие расходы на ИИ-вывод в компании могут увеличиться, поскольку ранее нереализуемые сценарии использования теперь становятся осуществимыми.

Это не является негативным фактором, а скорее отражает экономическую рациональность компаний: они инвестируют в технологии до тех пор, пока предельные выгоды превышают предельные издержки. Пока издержки остаются непомерно высокими, технология не будет внедрена. Когда она станет более доступной, её внедрение начнётся в массовом порядке. Это нормальный процесс внедрения технологий.

Влияние на экономику инфраструктуры графических процессоров

Ещё один критический момент касается инфраструктуры графических процессоров, необходимой для развёртывания этих систем. Оптическое сжатие и архитектура «смешанных экспертов» приводят к значительному снижению требуемой аппаратной мощности на единицу пропускной способности. Центр обработки данных, которому ранее требовалось 40 000 графических процессоров H100 для достижения заданной пропускной способности, может достичь этого, используя не более 10 000 систем оптического распознавания символов (OCR) на базе DeepSeek.

Это имеет геополитические и стратегические последствия, выходящие за рамки чистой технологии. Китай, столкнувшись с экспортными ограничениями на передовые полупроводники, разработал систему на базе DeepSeek, которая работает более эффективно с имеющимся оборудованием. Это не означает, что аппаратные ограничения исчезают, но они становятся менее обременительными. Китайский дата-центр с 5000 двухлетних графических процессоров Nvidia A100 может, благодаря технологии оптического распознавания символов DeepSeek и архитектуре MoE, обеспечить пропускную способность, которая ранее потребовала бы 10 000 или 15 000 более новых графических процессоров.

Это меняет стратегический баланс в экономике инфраструктуры ИИ. США и их союзники долгое время сохраняли своё доминирование в разработке ИИ, имея доступ к новейшим и самым мощным чипам. Новые методы повышения эффективности, такие как оптическое сжатие, разрушат это доминирование, позволяя эффективнее использовать устаревшее оборудование.

Трансформация бизнес-модели поставщиков ИИ

Известные поставщики программ LLM, такие как OpenAI, Google и Anthropic, столкнулись с проблемой, которая подрывает их бизнес-модели. Они вложили значительные средства в оборудование для обучения и развертывания больших, насыщенных моделей. Эти модели ценны и приносят реальную пользу. Однако такие системы, как DeepSeek OCR, ставят под сомнение рентабельность этих инвестиций. Если компания с меньшим бюджетом может создавать более эффективные модели, используя различные архитектурные подходы, стратегическое преимущество более крупных и капиталоёмких систем снижается.

OpenAI долго компенсировала это скоростью: у них раньше были более совершенные модели. Это обеспечивало им практически монопольную прибыль, позволяя оправдать дальнейшие инвестиции. Однако по мере того, как другие поставщики догоняли и превосходили их по некоторым показателям, устоявшиеся игроки теряли это преимущество. Рыночные доли стали более фрагментированными, а средняя рентабельность на токен упала.

Образовательная инфраструктура и демократизация технологий

Часто упускаемый из виду аспект таких систем, как DeepSeek-OCR, — это их роль в демократизации технологий. Система выпущена с открытым исходным кодом, весовые коэффициенты моделей доступны на Hugging Face, а обучающий код — на GitHub. Это означает, что любой, у кого есть хотя бы один мощный графический процессор или даже доступ к облачным вычислениям, может использовать, понимать и даже настраивать систему.

Эксперимент с Unsloth показал, что технология оптического распознавания символов DeepSeek, оптимизированная для персидского текста, снизила частоту ошибок в символах на 88% всего за 60 шагов обучения на одном графическом процессоре. Это не так важно, поскольку оптическое распознавание персидского языка — проблема массового рынка, а скорее демонстрирует, что инновации в сфере ИИ-инфраструктуры больше не находятся в руках компаний-миллиардеров. Небольшая группа исследователей или стартап могут адаптировать модель под свои конкретные потребности.

Это имеет колоссальные экономические последствия. Страны, не имеющие ресурсов для инвестирования миллиардов долларов в разработку собственных систем ИИ, теперь могут использовать системы с открытым исходным кодом и адаптировать их под свои нужды. Это сокращает разрыв в технологических возможностях между крупными и малыми экономиками.

Влияние предельных издержек и будущее ценовой стратегии

В классической экономике цены в долгосрочной перспективе стремятся к предельным издержкам, особенно при наличии конкуренции и возможности выхода на рынок новых игроков. В индустрии LLM эта закономерность уже проявляется, хотя и с задержкой. Предельные издержки вывода токенов в устоявшихся моделях обычно составляют от одной до двух десятых цента за миллион токенов. Однако цены обычно колеблются от двух до десяти центов за миллион токенов, что обеспечивает существенную норму прибыли.

Технология оптического распознавания символов DeepSeek может ускорить эту динамику. Если предельные издержки резко снизятся из-за оптического сжатия, конкуренты будут вынуждены скорректировать свои цены. Это может привести к ускоренному снижению рентабельности, что в конечном итоге приведёт к потребительскому сценарию, когда вывод токенов станет практически бесплатной или недорогой услугой, подобной облачному хранилищу.

Такое развитие событий пугает существующих поставщиков и выгодно новым или ориентированным на эффективность. Оно спровоцирует масштабную консолидацию или переориентацию в отрасли. Компании, делающие ставку исключительно на масштаб и размер модели, столкнутся с трудностями. Компании, ориентированные на эффективность, конкретные варианты использования и интеграцию с клиентами, в долгосрочной перспективе окажутся сильнее.

Подходит для:

Смена парадигмы на экономическом уровне

Технология оптического распознавания символов DeepSeek и лежащая в её основе инновация в области оптического сжатия представляют собой нечто большее, чем просто техническое усовершенствование. Они знаменуют собой смену парадигмы в том, как индустрия искусственного интеллекта мыслит, инвестирует и внедряет инновации. Переход от чистого масштабирования к интеллектуальному проектированию, внедрение архитектур MoE и понимание того, что визуальное кодирование может быть эффективнее кодирования токенов, — всё это признаки того, что отрасль рассматривает свои технические возможности в перспективе.

С экономической точки зрения это означает масштабное изменение структуры затрат, перераспределение конкурентных позиций между существующими и новыми игроками и фундаментальный перерасчёт рентабельности различных приложений ИИ. Компании, которые понимают эти изменения и быстро адаптируются, получат значительные стратегические преимущества. Компании, игнорирующие эти изменения и цепляющиеся за устоявшиеся подходы, потеряют конкурентоспособность.

 

Ваш глобальный партнер по маркетингу и развитию бизнеса

☑️ Наш деловой язык — английский или немецкий.

☑️ НОВИНКА: Переписка на вашем национальном языке!

 

Konrad Wolfenstein

Я был бы рад служить вам и моей команде в качестве личного консультанта.

Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein xpert.digital

Я с нетерпением жду нашего совместного проекта.

 

 

☑️ Поддержка МСП в разработке стратегии, консультировании, планировании и реализации.

☑️ Создание или корректировка цифровой стратегии и цифровизации.

☑️ Расширение и оптимизация процессов международных продаж.

☑️ Глобальные и цифровые торговые платформы B2B

☑️ Пионерское развитие бизнеса/маркетинг/PR/выставки.

 

Наш глобальный отраслевой и экономический опыт в развитии бизнеса, продажах и маркетинге

Наша глобальная отраслевая и деловая экспертиза в области развития бизнеса, продаж и маркетинга - Изображение: Xpert.Digital

Отраслевые направления: B2B, цифровизация (от искусственного интеллекта до расширенной реальности), машиностроение, логистика, возобновляемые источники энергии и промышленность

Подробнее об этом здесь:

Тематический центр с идеями и опытом:

  • Платформа знаний о мировой и региональной экономике, инновациях и отраслевых тенденциях
  • Сбор анализов, импульсов и справочной информации из наших приоритетных направлений
  • Место для получения экспертных знаний и информации о текущих событиях в бизнесе и технологиях
  • Тематический центр для компаний, желающих узнать больше о рынках, цифровизации и отраслевых инновациях
Выйти из мобильной версии