иконка веб-сайта Xpert.Digital

НОВИНКА! DeepSeek OCR — тихий триумф Китая: как искусственный интеллект с открытым исходным кодом подрывает доминирование США в производстве микросхем

НОВИНКА! DeepSeek OCR — тихий триумф Китая: как искусственный интеллект с открытым исходным кодом подрывает доминирование США в производстве микросхем

НОВИНКА! Технология распознавания текста DeepSeek OCR — тихий триумф Китая: как ИИ с открытым исходным кодом подрывает доминирование США в производстве микросхем — Изображение: Xpert.Digital

Конец дорогостоящему ИИ? Вместо чтения текста этот ИИ анализирует изображения, а значит, работает в 10 раз эффективнее

Как простой трюк может снизить вычислительные затраты на 90% – Ахиллесова пята ChatGPT: Почему новая технология оптического распознавания символов переписывает правила экономики искусственного интеллекта

Долгое время мир искусственного интеллекта, казалось, подчинялся простому закону: чем больше, тем лучше. Благодаря миллиардным инвестициям в гигантские центры обработки данных, такие технологические гиганты, как OpenAI, Google и Anthropic, участвовали в гонке вооружений по разработке всё более крупных языковых моделей с всё более обширными контекстными окнами. Но за этими впечатляющими достижениями скрывается фундаментальная экономическая слабость: квадратичное масштабирование. Каждое удвоение длины текста, который должна обрабатывать модель, приводит к экспоненциальному увеличению вычислительных затрат, что делает бесчисленные перспективные приложения практически нерентабельными.

Именно на этом экономическом барьере вступает в игру технология, которая не только представляет собой улучшение, но и предлагает фундаментальную альтернативу устоявшейся парадигме: DeepSeek-OCR. Вместо того чтобы разбивать текст на длинную цепочку токенов, эта система использует принципиально иной подход: она преобразует текст в изображение и обрабатывает информацию визуально. Этот, казалось бы, простой трюк оказывается экономическим прорывом, сотрясающим основы инфраструктуры искусственного интеллекта.

Благодаря интеллектуальному сочетанию визуального сжатия, которое сокращает дорогостоящие вычислительные этапы в 10–20 раз, и высокоэффективной архитектуры «смешанных экспертов» (Mixture-of-Experts, MoE), DeepSeek OCR обходит традиционную ловушку затрат. Результатом является не только значительное повышение эффективности, делающее обработку документов до 90% дешевле, но и кардинальное изменение парадигмы с далеко идущими последствиями. В этой статье анализируется, как это нововведение не только революционизирует рынок обработки документов, но и бросает вызов бизнес-моделям устоявшихся поставщиков ИИ, переопределяет стратегическую важность превосходства в аппаратном обеспечении и демократизирует технологию в широком масштабе благодаря своему подходу с открытым исходным кодом. Мы, возможно, стоим на пороге новой эры, в которой правила экономики ИИ будут определяться архитектурным интеллектом, а не чистой вычислительной мощностью.

В связи с этим:

Почему технология DeepSeek OCR коренным образом бросает вызов устоявшейся инфраструктуре искусственного интеллекта и устанавливает новые правила экономики компьютерных наук: классические ограничения контекстно-зависимой обработки

Главная проблема, с которой сталкиваются большие языковые модели с момента их коммерческого появления, заключается не в их интеллекте, а в математической неэффективности. Механизм внимания, лежащий в основе всех современных архитектур трансформеров, имеет фундаментальный недостаток: сложность обработки растет квадратично с количеством входных токенов. В частности, это означает, что языковая модель с контекстом из 4096 токенов требует в шестнадцать раз больше вычислительных ресурсов, чем модель с контекстом из 1024 токенов. Эта квадратичная зависимость — не просто техническая деталь, а прямой экономический порог, который отличает практически жизнеспособные приложения от экономически нецелесообразных.

Долгое время отрасль реагировала на это ограничение классической стратегией масштабирования: увеличение контекстных окон достигалось за счет расширения аппаратных возможностей. Например, Microsoft разработала LongRoPE, которая расширяет контекстные окна до более чем двух миллионов токенов, а Gemini 1.5 от Google может обрабатывать один миллион токенов. Однако практика наглядно демонстрирует иллюзорность этого подхода: хотя технические возможности обработки более длинных текстов выросли, внедрение этих технологий в производственных средах застопорилось, поскольку структура затрат в таких сценариях по-прежнему остается нерентабельной. В реальной операционной ситуации центры обработки данных и облачные провайдеры сталкиваются с экспоненциальным ростом затрат при каждом удвоении длины контекста.

Эта экономическая дилемма приобретает геометрически прогрессивный характер из-за упомянутой выше квадратичной сложности: модель, обрабатывающая текст из 100 000 токенов, требует не в десять, а в сто раз больше вычислительных ресурсов, чем модель, обрабатывающая 10 000 токенов. В промышленной среде, где пропускная способность, измеряемая в токенах в секунду на один графический процессор, является ключевым показателем рентабельности, это означает, что длинные документы не могут быть экономически эффективно обработаны с использованием существующей парадигмы токенизации.

Бизнес-модель большинства поставщиков услуг LLM построена на монетизации этих токенов. OpenAI, Anthropic и другие известные поставщики рассчитывают свои цены на основе входных и выходных токенов. Средний деловой документ объемом в сто страниц может быстро превратиться в пять-десять тысяч токенов. Если компания обрабатывает сотни таких документов ежедневно, счет быстро накапливается до шести- или семизначных сумм в год. Большинство корпоративных приложений в контексте RAG (Retrieval Augmented Generation — расширенное генерация поиска) были ограничены этими затратами и поэтому либо не были внедрены, либо перешли на более экономичные альтернативы, такие как традиционное оптическое распознавание символов (OCR) или системы, основанные на правилах.

В связи с этим:

Механизм визуального сжатия

DeepSeek-OCR предлагает принципиально иной подход к этой проблеме, который не ограничивается существующей парадигмой токенов, а буквально обходит её. Система работает по простому, но радикально эффективному принципу: вместо разложения текста на отдельные токены, текст сначала преобразуется в изображение, а затем обрабатывается как визуальное средство. Это не просто техническая трансформация, а концептуальное перепроектирование самого процесса ввода.

Основная схема состоит из нескольких последовательных уровней обработки. Сначала страница документа высокого разрешения преобразуется в изображение, сохраняя всю визуальную информацию, включая макет, графику, таблицы и исходную типографику. В этой графической форме одна страница, например, в формате 1024×1024 пикселей, теоретически может быть эквивалентна тексту объемом от тысячи до двадцати тысяч токенов, поскольку страница с таблицами, многоколоночной компоновкой и сложной визуальной структурой может содержать такое количество информации.

DeepEncoder, первый компонент системы обработки, использует не классическую архитектуру визуальных трансформеров, а гибридную архитектуру. Модуль локального восприятия, основанный на модели сегментации чего угодно, сканирует изображение с помощью оконного внимания. Это означает, что система работает не со всем изображением целиком, а с небольшими перекрывающимися областями. Эта стратегия имеет решающее значение, поскольку позволяет избежать классической ловушки квадратичной сложности. Вместо того чтобы каждый пиксель или визуальная особенность привлекали внимание ко всем остальным, система работает в локализованных окнах, таких как области размером от восьмой до восьмой или от четырнадцатой до четырнадцатой доли пикселя.

Следующий этап — технически революционный: двухслойный сверточный алгоритм понижения разрешения уменьшает количество визуальных токенов в шестнадцать раз. Это означает, что исходные 4960 визуальных токенов из локального модуля сжимаются до всего 256 визуальных токенов. Это сжатие удивительно эффективно, но по-настоящему важно то, что это сжатие происходит до применения дорогостоящих механизмов глобального внимания. Алгоритм понижения разрешения представляет собой точку инверсии, где экономически эффективная локальная обработка преобразуется в чрезвычайно сжатое представление, к которому затем применяется более дорогостоящее, но теперь осуществимое глобальное внимание.

После такого сжатия модель размером с CLIP, которая сама по себе имеет триста миллионов параметров, работает всего с двумястами пятьюдесятью шестью токенами. Это означает, что глобальной матрице внимания нужно выполнить всего четыре тысячи шестьсот тридцать пять парных операций внимания вместо шестнадцати тысяч девяноста четырех. Это сокращение в двести пятьдесят раз только на этом этапе обработки.

Результатом такого архитектурного разделения является сквозное сжатие от 10:1 до 20:1, что практически обеспечивает точность 97%, при условии, что степень сжатия не превышает 10:1. Даже при более экстремальном сжатии в 20:1 точность снижается лишь примерно до 60%, что приемлемо для многих приложений, особенно в контексте обучающих данных.

Оптимизационный слой «Смесь экспертов»

Второй важный аспект DeepSeek OCR заключается в его архитектуре декодирования. Система использует DeepSeek-3B-MoE, модель с тремя миллиардами параметров в общей сложности, но только 570 миллионами активных параметров на один вывод. Это не было произвольным проектным решением, а скорее ответом на проблемы контекстного окна и стоимости.

Модели, использующие смешанный состав экспертов, работают по принципу динамического выбора экспертов. Вместо обработки каждого токена всеми параметрами модели, каждый токен направляется к небольшому подмножеству экспертов. Это означает, что на каждом этапе декодирования активируется лишь часть всех параметров. В DeepSeek OCR это обычно шесть из шестидесяти четырех экспертов, плюс два общих эксперта, активных для всех токенов. Такая разреженная активация позволяет наблюдать явление, известное в экономике как сублинейное масштабирование: вычислительные затраты растут не пропорционально размеру модели, а гораздо медленнее.

Экономические последствия такой архитектуры весьма значительны. Плотная модель трансформера с тремя миллиардами параметров активировала бы все три миллиарда параметров для каждого токена. Это приводит к огромным затратам на пропускную способность памяти и вычислительной нагрузке. Однако модель MoE с теми же тремя миллиардами параметров активирует только 570 миллионов параметров на токен, что составляет примерно одну пятую часть операционных затрат с точки зрения вычислительного времени. Это не означает, что качество страдает, поскольку производительность модели не снижается из-за разнообразия экспертов, а, наоборот, выборочно мобилизуется.

В промышленных условиях эта архитектура радикально меняет структуру затрат на обслуживание. Крупный центр обработки данных, использующий DeepSeek-V3 с архитектурой MoE, может достичь в четыре-пять раз большей пропускной способности на той же аппаратной инфраструктуре по сравнению с плотной моделью аналогичного качества. Это означает, что на одном графическом процессоре A100 оптическое сжатие в сочетании с архитектурой MoE позволяет обрабатывать приблизительно девяносто миллиардов токенов в день, представляющих собой чистый текст. Это огромная пропускная способность, ранее недостижимая в этом секторе.

 

🎯🎯🎯 Воспользуйтесь обширным пятисторонним опытом Xpert.Digital в одном комплексном пакете услуг | Развитие бизнеса, НИОКР, XR, PR и оптимизация цифровой видимости

Воспользуйтесь обширным пятисторонним опытом Xpert.Digital в рамках комплексного пакета услуг | НИОКР, XR, PR и оптимизация цифровой видимости - Изображение: Xpert.Digital

Компания Xpert.Digital обладает глубокими знаниями в различных отраслях. Это позволяет нам разрабатывать индивидуальные стратегии, точно соответствующие требованиям и задачам вашего конкретного сегмента рынка. Благодаря постоянному анализу рыночных тенденций и мониторингу отраслевых разработок мы можем действовать на опережение и предлагать инновационные решения. Сочетание опыта и экспертных знаний создает добавленную стоимость и обеспечивает нашим клиентам решающее конкурентное преимущество.

Более подробная информация здесь:

 

Парадокс эффективности токенов: почему более дешевый ИИ все равно увеличивает расходы

Экономическая трансформация рынка обработки документов

Последствия этого технологического прорыва для всего рынка обработки документов значительны. Традиционный рынок оптического распознавания текста (OCR), долгое время доминируемый такими компаниями, как ABBYY, Tesseract и их собственными разработками, исторически был фрагментирован в зависимости от сложности документов, точности и производительности. Стандартизированные решения OCR обычно обеспечивают точность от 90 до 95 процентов для цифровых документов без искажений, но падают до 50 процентов или ниже для отсканированных документов с рукописными аннотациями или устаревшей информацией.

Технология DeepSeek OCR значительно превосходит эти показатели точности, но она также достигает того, чего не могла достичь традиционная технология распознавания текста: она обрабатывает не только текст, но и сохраняет понимание структуры, таблицы, форматирования и даже семантики. Это означает, что финансовый отчет не просто извлекается как текстовая строка, а сохраняется структура таблицы и математические связи между ячейками. Это открывает возможности для автоматической проверки данных, которую традиционная технология распознавания текста не могла обеспечить.

Экономический эффект особенно заметен в приложениях с большим объемом данных. Компания, обрабатывающая тысячи счетов-фактур ежедневно, обычно платит от сорока центов до двух долларов за документ за традиционное извлечение данных из документов, в зависимости от сложности и уровня автоматизации. С помощью DeepSeek OCR эти затраты могут снизиться до менее чем десяти центов за документ, поскольку оптическое сжатие делает весь процесс обработки данных настолько эффективным. Это означает снижение затрат на семьдесят-девяносто процентов.

Это оказывает ещё более существенное влияние на системы RAG (Retrieval Augmented Generation), где компании в режиме реального времени извлекают внешние документы и передают их языковым моделям для генерации точных ответов. Компания, управляющая службой поддержки клиентов и имеющая доступ к базе данных документов, содержащей сотни миллионов слов, традиционно должна была бы токенизировать одно или несколько из этих слов и передавать их модели с каждым запросом. С помощью DeepSeek OCR эта же информация может быть предварительно сжата в виде сжатых визуальных токенов и повторно использована с каждым запросом. Это исключает масштабные избыточные вычисления, которые ранее выполнялись при каждом запросе.

Исследования показывают конкретные цифры: компания, желающая автоматически анализировать юридические документы, может рассчитывать на затраты в размере ста долларов за анализ одного случая при использовании традиционных текстовых редакторов. При использовании визуального сжатия эти затраты снижаются до двенадцати-пятнадцати долларов за случай. Для крупных компаний, обрабатывающих сотни дел ежедневно, это означает ежегодную экономию в десятки миллионов долларов.

В связи с этим:

Противоречие парадокса эффективности токенов

Увлекательный экономический аспект, возникающий в связи с такими разработками, как DeepSeek OCR, — это так называемый парадокс эффективности токенов. На первый взгляд, снижение затрат за счет повышения эффективности должно привести к снижению общих расходов. Однако эмпирическая реальность показывает обратную картину. Хотя стоимость одного токена за последние три года снизилась в тысячу раз, компании часто сообщают о росте общих затрат. Это связано с явлением, которое экономисты называют парадоксом Джевонса: снижение затрат не приводит к пропорциональному снижению использования, а скорее к взрывному росту использования, что в конечном итоге приводит к увеличению общих затрат.

В контексте технологии распознавания текста DeepSeek может наблюдаться противоположное явление: компании, которые ранее минимизировали использование языковых моделей для обработки документов из-за непомерных затрат, теперь будут масштабировать эти приложения, поскольку они внезапно стали экономически целесообразными. Парадоксально, но это означает, что, хотя стоимость одного приложения снижается, общие затраты на вывод данных с помощью ИИ внутри компании могут увеличиться, поскольку ранее неприменимые сценарии использования теперь становятся осуществимыми.

Это не негативное явление, а скорее отражение экономической рациональности компаний: они инвестируют в технологии до тех пор, пока предельные выгоды превышают предельные издержки. Пока издержки непомерно высоки, технология не будет внедряться. Когда она станет более доступной, она будет внедрена массово. Это нормальный ход внедрения технологий.

Последствия для экономики инфраструктуры графических процессоров

Ещё один важный момент касается инфраструктуры графических процессоров, необходимой для развертывания этих систем. Оптическое сжатие и архитектура, основанная на использовании различных специалистов, приводят к значительному снижению требуемой аппаратной мощности на единицу пропускной способности. Центр обработки данных, которому ранее требовалось 40 000 графических процессоров H100 для достижения заданной пропускной способности, теперь сможет достичь этого с помощью 10 000 или менее систем обработки данных на основе технологии распознавания текста DeepSeek.

Это имеет геополитические и стратегические последствия, выходящие за рамки чисто технологических аспектов. Китай, столкнувшись с экспортными ограничениями на передовые полупроводники, разработал систему на основе DeepSeek, которая работает более эффективно с имеющимся оборудованием. Это не означает, что аппаратные ограничения становятся неактуальными, но они делают их менее обременительными. Китайский центр обработки данных с 5000 двухлетних графических процессоров Nvidia A100 может, благодаря архитектуре DeepSeek OCR и MoE, обеспечить пропускную способность, для которой ранее потребовалось бы 10 000 или 15 000 более новых графических процессоров.

Это меняет стратегический баланс в экономике инфраструктуры ИИ. Соединенные Штаты и их союзники долгое время сохраняли свое доминирование в разработке ИИ, имея доступ к новейшим и самым мощным чипам. Новые методы повышения эффективности, такие как оптическое сжатие, подорвут это доминирование, позволяя более эффективно использовать устаревшее оборудование.

Трансформация бизнес-модели поставщиков ИИ

Устоявшиеся поставщики LLM-моделей, такие как OpenAI, Google и Anthropic, теперь сталкиваются с проблемой, которая подрывает их бизнес-модели. Они вложили значительные средства в оборудование для обучения и развертывания больших, сложных моделей. Эти модели ценны и приносят реальную пользу. Однако такие системы, как DeepSeek OCR, ставят под сомнение рентабельность этих инвестиций. Если компания с меньшим капитальным бюджетом может добиться более эффективных моделей за счет различных архитектурных подходов, стратегическое преимущество более крупных и капиталоемких систем уменьшается.

Долгое время OpenAI компенсировала это скоростью: у них были более совершенные модели на ранних этапах. Это обеспечивало им почти монопольную прибыль, позволяя обосновывать дальнейшие инвестиции. Однако, по мере того как другие поставщики догоняли и превосходили их по некоторым параметрам, устоявшиеся игроки потеряли это преимущество. Рыночные доли стали более фрагментированными, а средняя рентабельность на токен снизилась.

Образовательная инфраструктура и демократизация технологий

Часто упускаемый из виду аспект таких систем, как DeepSeek-OCR, — это их роль в демократизации технологий. Система была выпущена как проект с открытым исходным кодом, веса модели доступны на Hugging Face, а код обучения — на GitHub. Это означает, что любой, у кого есть хотя бы одна высокопроизводительная видеокарта или даже доступ к облачным вычислениям, может использовать, понимать и даже тонко настраивать систему.

Эксперимент с Unsloth показал, что DeepSeek OCR, доработанный для персидского текста, улучшил показатель ошибок распознавания символов на 88 процентов, используя всего 60 шагов обучения на одном графическом процессоре. Это важно не потому, что распознавание персидского текста — задача массового рынка, а потому, что демонстрирует, что инновации в инфраструктуре ИИ больше не принадлежат компаниям с миллиардными оборотами. Небольшая группа исследователей или стартап могли бы адаптировать модель под свои конкретные потребности.

Это имеет колоссальные экономические последствия. Страны, не располагающие ресурсами для инвестирования миллиардов в разработку собственных решений в области ИИ, теперь могут использовать системы с открытым исходным кодом и адаптировать их к своим потребностям. Это сокращает разрыв в технологических возможностях между крупными и малыми экономиками.

Влияние предельных издержек и будущее ценовой стратегии

В классической экономике цены в долгосрочной перспективе стремятся к предельным издержкам, особенно при наличии конкуренции и возможности выхода на новые рынки. Индустрия LLM уже демонстрирует эту закономерность, хотя и с некоторой задержкой. Предельные издержки вывода токенов в устоявшихся моделях обычно составляют от одной до двух десятых цента за миллион токенов. Однако цены обычно колеблются от двух до десяти центов за миллион токенов, что соответствует существенной прибыли.

Технология DeepSeek OCR может ускорить этот процесс. Если предельные издержки резко снизятся благодаря оптическому сжатию, конкуренты будут вынуждены скорректировать свои цены. Это может привести к ускоренному снижению рентабельности, в конечном итоге создав ситуацию, когда вывод токенов станет практически бесплатной или недорогой услугой, подобно облачному хранилищу.

Это развитие событий пугает устоявшихся поставщиков и выгодно для новых или ориентированных на эффективность поставщиков. Оно спровоцирует масштабную консолидацию или перепозиционирование в отрасли. Компании, которые полагаются исключительно на масштаб и размер модели, столкнутся с трудностями. Компании, ориентированные на эффективность, конкретные сценарии использования и интеграцию с клиентами, в долгосрочной перспективе выйдут из кризиса более сильными.

В связи с этим:

Смена парадигмы на экономическом уровне

Технология DeepSeek OCR и лежащая в её основе инновация в области оптического сжатия представляют собой нечто большее, чем просто техническое усовершенствование. Они знаменуют собой сдвиг парадигмы в том, как индустрия ИИ мыслит, инвестирует и внедряет инновации. Переход от чистого масштабирования к интеллектуальному проектированию, внедрение архитектур MoE и понимание того, что визуальное кодирование может быть более эффективным, чем кодирование токенов, — всё это признаки того, что отрасль рассматривает возможность совершенствования своих технических возможностей.

С экономической точки зрения это означает масштабную перестройку структуры затрат, перераспределение конкурентных позиций между устоявшимися и новыми игроками, а также фундаментальный перерасчет прибыльности различных приложений искусственного интеллекта. Компании, которые понимают эти изменения и быстро адаптируются, получат значительные стратегические преимущества. Компании, которые игнорируют эти изменения и придерживаются устоявшихся подходов, потеряют конкурентоспособность.

 

Ваш глобальный партнер по маркетингу и развитию бизнеса

☑️ Язык ведения нашего бизнеса — английский или немецкий

☑️ НОВИНКА: Переписка на вашем родном языке!

 

Konrad Wolfenstein

Я и моя команда будем рады быть вашими личными консультантами.

Вы можете связаться со мной, заполнив контактную форму здесь wolfenstein@xpert.digital:или просто позвонив по номеру +49 7348 4088 965. Мой адрес электронной почты

Я с нетерпением жду начала нашего совместного проекта.

 

 

☑️ Поддержка малых и средних предприятий в области стратегии, консалтинга, планирования и реализации проектов

☑️ Разработка или корректировка цифровой стратегии и цифровизации

☑️ Расширение и оптимизация международных процессов продаж

☑️ Глобальные и цифровые торговые платформы B2B

☑️ Развитие бизнеса / Маркетинг / PR / Выставки от компании Pioneer

 

Наш глобальный отраслевой и экономический опыт в области развития бизнеса, продаж и маркетинга

Наш глобальный отраслевой и экономический опыт в области развития бизнеса, продаж и маркетинга. — Изображение: Xpert.Digital

Основные отраслевые направления: B2B, цифровизация (от ИИ до XR), машиностроение, логистика, возобновляемые источники энергии и промышленность

Более подробная информация здесь:

Тематический центр, предлагающий аналитические материалы и экспертные знания:

  • Информационная платформа, охватывающая глобальную и региональную экономику, инновации и отраслевые тенденции
  • Сборник аналитических материалов, выводов и справочной информации по нашим ключевым направлениям деятельности
  • Место, где можно найти экспертные знания и информацию о текущих событиях в бизнесе и технологиях
  • Центр для компаний, стремящихся получить информацию о рынках, цифровизации и отраслевых инновациях
Оставьте мобильную версию