НОВО! DeepSeek OCR е тихият триумф на Китай: Как изкуствен интелект с отворен код подкопава господството на САЩ в областта на чиповете

Konrad Wolfenstein

преди 7 месеца

НОВО! DeepSeek OCR е тихият триумф на Китай: Как изкуствен интелект с отворен код подкопава господството на САЩ в областта на чиповете – Изображение: Xpert.Digital

Краят на скъпия изкуствен интелект? Вместо да чете текст, този изкуствен интелект разглежда изображения – и следователно е 10 пъти по-ефективен

Как един прост трик може да намали разходите за изчисления с 90% – Ахилесовата пета на ChatGPT: Защо нова OCR технология пренаписва правилата на икономиката на изкуствения интелект

Дълго време светът на изкуствения интелект сякаш следваше един прост закон: по-голямото е по-добро. Подхранвани от милиарди, инвестирани в гигантски центрове за данни, технологични гиганти като OpenAI, Google и Anthropic се включиха в надпревара във въоръжаването, за да разработват все по-големи езикови модели с все по-обширни контекстуални прозорци. Но зад тези впечатляващи демонстрации се крие фундаментална икономическа слабост: квадратичното мащабиране. Всяко удвояване на дължината на текста, която се очаква да обработи даден модел, води до експоненциално увеличение на изчислителните разходи, което прави безброй обещаващи приложения практически нерентабилни.

Именно на тази икономическа бариера сега се намесва технология, която не само представлява подобрение, но и предлага фундаментална алтернатива на установената парадигма: DeepSeek-OCR. Вместо да разделя текста на дълга верига от токени, тази система следва радикално различен подход: тя превръща текста в изображение и обработва информацията визуално. Този на пръв поглед прост трик се оказва икономически разрушител, който разтърсва основите на инфраструктурата на изкуствения интелект.

Чрез интелигентна комбинация от визуална компресия, която намалява скъпите изчислителни стъпки с коефициент от 10 до 20, и високоефективна архитектура на смесена експертиза (MoE), DeepSeek OCR заобикаля традиционния капан на разходите. Резултатът е не само огромно увеличение на ефективността, което прави обработката на документи до 90% по-евтина, но и промяна на парадигмата с дългосрочни последици. Тази статия анализира как тази иновация не само революционизира пазара на обработка на документи, но и предизвиква бизнес моделите на утвърдени доставчици на ИИ, предефинира стратегическото значение на хардуерното превъзходство и демократизира технологията в широк мащаб чрез своя подход с отворен код. Може би сме на прага на нова ера, в която архитектурният интелект, а не суровата изчислителна мощност, диктува правилата на икономиката на ИИ.

Свързано с това:

Забравете гигантите в областта на изкуствения интелект: Защо бъдещето е малко, децентрализирано и много по-евтино | Грешката в изчислението от 57 милиарда долара – NVIDIA предупреждава от всички компании: Индустрията за изкуствен интелект заложи на грешния кон

Защо DeepSeek OCR фундаментално оспорва установената инфраструктура на изкуствения интелект и пише нови правила на компютърната икономика: Класическите ограничения на контекстно-осъзнатата обработка

Централният проблем, с който се сблъскват големите езикови модели след комерсиалното им въвеждане, не се крие в тяхната интелигентност, а в тяхната математическа неефективност. Дизайнът на механизма за внимание, който е в основата на всички съвременни трансформаторни архитектури, има фундаментална слабост: сложността на обработката нараства квадратично с броя на входните токени. По-конкретно, това означава, че езиков модел с контекст от 4096 токена изисква шестнадесет пъти повече изчислителни ресурси от модел с контекст от 1024 токена. Това квадратично мащабиране не е просто технически детайл, а директен икономически праг, който разграничава практически жизнеспособни от икономически неустойчиви приложения.

Дълго време индустрията реагираше на това ограничение с класическа стратегия за мащабиране: по-големи контекстни прозорци се постигаха чрез разширяване на хардуерния капацитет. Microsoft например разработи LongRoPE, който разширява контекстните прозорци до над два милиона токена, докато Gemini 1.5 на Google може да обработва един милион токена. Практиката обаче ясно показва илюзорния характер на този подход: докато техническите възможности за обработка на по-дълги текстове са нараснали, приемането на тези технологии в производствени среди е в застой, защото структурата на разходите за подобни сценарии просто остава нерентабилна. Оперативната реалност за центровете за данни и доставчиците на облачни услуги е, че те са изправени пред експоненциално увеличение на разходите за всяко удвояване на дължината на контекста.

Тази икономическа дилема става геометрично прогресивна поради гореспоменатата квадратична сложност: Модел, обработващ текст от 100 000 токена, изисква не десет пъти, а сто пъти повече изчислителни усилия от модел, обработващ 10 000 токена. В индустриална среда, където производителността, измерена в токени в секунда на графичен процесор, е ключов показател за рентабилност, това означава, че дългите документи не могат да бъдат обработвани икономично, използвайки настоящата парадигма на токенизация.

Бизнес моделът на повечето доставчици на LLM е изграден около монетизирането на тези токени. OpenAI, Anthropic и други утвърдени доставчици изчисляват цените си въз основа на входни и изходни токени. Средностатистически бизнес документ със сто страници може бързо да се превърне в пет до десет хиляди токена. Ако една компания обработва стотици такива документи дневно, сметката бързо се натрупва до шест- или седемцифрени годишни суми. Повечето корпоративни приложения в контекста на RAG (Retrieval Augmented Generation) са ограничени от тези разходи и следователно или не са внедрени, или са преминали към по-рентабилна алтернатива, като например традиционни OCR или системи, базирани на правила.

Свързано с това:

Вътрешната платформа за изкуствен интелект на компанията като стратегическа инфраструктура и бизнес необходимост

Механизмът на визуална компресия

DeepSeek-OCR представя фундаментално различен подход към този проблем, който не работи в рамките на съществуващата парадигма на токените, а буквално я заобикаля. Системата функционира според прост, но радикално ефективен принцип: вместо да разлага текста на отделни токени, текстът първо се рендира като изображение и след това се обработва като визуална среда. Това не е просто техническа трансформация, а концептуално препроектиране на самия процес на въвеждане.

Основната схема се състои от няколко последователни нива на обработка. Страница от документ с висока резолюция първо се преобразува в изображение, като се запазва цялата визуална информация, включително оформление, графики, таблици и оригиналната типография. В тази изобразителна форма, една страница, например във формат 1024×1024 пиксела, теоретично може да бъде еквивалентна на текст от хиляда до двадесет хиляди маркера, защото страница с таблици, многоколонни оформления и сложна визуална структура може да съдържа това количество информация.

DeepEncoder, първият компонент за обработка на системата, не използва класически дизайн на визуален трансформатор, а по-скоро хибридна архитектура. Модул за локално възприятие, базиран на модела Segment Anything, сканира изображението с прозоречно внимание. Това означава, че системата не работи върху цялото изображение, а върху малки, припокриващи се области. Тази стратегия е от решаващо значение, защото избягва класическия капан на квадратичната сложност. Вместо всеки пиксел или визуална характеристика да привлича вниманието към всички останали, системата работи в рамките на локализирани прозорци, като например области от осми до осми или четиринадесети до четиринадесети пиксел.

Следва технически революционната фаза: Двуслоен конволюционен даунсемплер намалява броя на визуалните маркери с коефициент шестнадесет. Това означава, че оригиналните 4960 визуални маркера за пач от локалния модул се компресират до само 256 визуални маркера. Това е компресия с изненадващо ефективни пропорции, но наистина важното е, че тази компресия се случва преди да се приложат скъпите механизми за глобално внимание. Даунсемплерът представлява точка на инверсия, където рентабилната локална обработка се трансформира в изключително кондензирано представяне, към което след това се прилага по-скъпо, но вече осъществимо, глобално внимание.

След това компресиране, модел с размер CLIP, който сам по себе си има триста милиона параметъра, работи само с двеста петдесет и шест токена. Това означава, че глобалната матрица на вниманието трябва да извърши само четири хиляди шестстотин тридесет и пет двойни операции за внимание вместо шестнадесет хиляди деветдесет и четири. Това е намаление с коефициент двеста и петдесет само на този етап на обработка.

Резултатът от това архитектурно разделяне е компресия от край до край от 10:1 до 20:1, като на практика се постига 97% точност, при условие че компресията не е по-екстремна от 10:1. Дори при по-екстремна компресия от 20:1, точността пада само до около 60%, точка, която е приемлива за много приложения, особено в контекста на данни за обучение.

Слой за оптимизация „Смес от експерти“

Втори критичен аспект на DeepSeek OCR се крие в неговата архитектура на декодиране. Системата използва DeepSeek-3B-MoE, модел с общо три милиарда параметъра, но само 570 милиона активни параметъра на извод. Това не е произволен избор на дизайн, а по-скоро отговор на проблемите с контекстния прозорец и разходите.

Моделите със смес от експерти работят на принципа на динамичния подбор на експерти. Вместо да обработват всеки токен през всички параметри на модела, всеки токен се насочва към малък набор от експерти. Това означава, че само малка част от общия брой параметри се активират на всяка стъпка на декодиране. В DeepSeek OCR това обикновено са шест от общо шестдесет и четири експерта, плюс два споделени експерта, които са активни за всички токени. Тази рядка активация позволява феномен, известен в икономиката като сублинейно мащабиране: изчислителните разходи не нарастват пропорционално на размера на модела, а по-скоро много по-бавно.

Икономическите последици от тази архитектура са дълбоки. Модел с плътен трансформатор с три милиарда параметъра би активирал всичките три милиарда параметъра за всеки токен. Това се изразява в огромно натоварване от честотна лента на паметта и изчислително натоварване. Модел на MoE със същите три милиарда параметъра обаче активира само 570 милиона на токен, което е приблизително една пета от оперативните разходи по отношение на времето за изчисление. Това не означава, че качеството страда, защото капацитетът на модела не се намалява от разнообразието на експертите, а по-скоро се мобилизира селективно.

В индустриалните инсталации тази архитектура радикално променя структурата на разходите за услуги. Голям център за данни, внедряващ DeepSeek-V3 с MoE архитектура, може да постигне четири до пет пъти по-голяма пропускателна способност на същата хардуерна инфраструктура в сравнение с плътен модел с еквивалентно качество. Това означава, че на един A100 GPU, оптичната компресия, съчетана с MoE архитектура, позволява обработката на приблизително 90 милиарда токена на ден от чисти текстови данни. Това е огромна пропускателна способност, която преди това не беше постижима в този сектор.

🎯🎯🎯 Възползвайте се от обширния, петкратен опит на Xpert.Digital в един цялостен пакет услуги | BD, R&D, XR, PR и оптимизация на дигиталната видимост

Възползвайте се от обширния, петкратен опит на Xpert.Digital в цялостен пакет от услуги | R&D, XR, PR и оптимизация на дигиталната видимост - Изображение: Xpert.Digital

Xpert.Digital притежава задълбочени познания в различни индустрии. Това ни позволява да разработваме персонализирани стратегии, прецизно съобразени с изискванията и предизвикателствата на вашия специфичен пазарен сегмент. Чрез непрекъснат анализ на пазарните тенденции и наблюдение на развитието в индустрията, ние можем да действаме проактивно и да предлагаме иновативни решения. Комбинацията от опит и експертиза генерира добавена стойност и осигурява на нашите клиенти решаващо конкурентно предимство.

Повече информация тук:

Възползвайте се от 5-те области на експертиза на Xpert.Digital в един пакет – от само 500 евро/месец

Парадокс на ефективността на токените: Защо по-евтиният изкуствен интелект все още увеличава разходите

Икономическа трансформация на пазара за обработка на документи

Последиците от този технологичен пробив за целия пазар за обработка на документи са значителни. Традиционният пазар на OCR, дълго време доминиран от компании като ABBYY, Tesseract и собствени решения, исторически е фрагментиран въз основа на сложността, точността и производителността на документите. Стандартизираните OCR решения обикновено постигат точност между 90 и 95 процента за гладки цифрови документи, но падат до 50 процента или по-ниско за сканирани документи с ръкописни анотации или остаряла информация.

DeepSeek OCR драстично надминава тези показатели за точност, но също така постига нещо, което традиционното OCR не може: не само обработва текст, но и запазва разбирането за оформлението, структурата на таблицата, форматирането и дори семантиката. Това означава, че финансовият отчет не се извлича просто като текстов низ, а структурата на таблицата и математическите връзки между клетките се запазват. Това отваря вратата към автоматизирана проверка на данни, която традиционното OCR не може да осигури.

Икономическото въздействие е особено очевидно при приложения с голям обем работа. Компания, която обработва хиляди фактури дневно, обикновено плаща между четиридесет цента и два долара на документ за традиционно извличане на данни от документи, в зависимост от сложността и нивото на автоматизация. С DeepSeek OCR тези разходи могат да паднат до по-малко от десет цента на документ, тъй като оптичното компресиране прави целия процес на извеждане на данни толкова ефективен. Това представлява намаление на разходите от седемдесет до деветдесет процента.

Това има още по-драматично въздействие върху RAG системите (Retrieval Augmented Generation - Генериране на добавени данни), където компаниите извличат външни документи в реално време и ги подават към езикови модели, за да генерират точни отговори. Компания, която управлява агент за обслужване на клиенти с достъп до база данни с документи от стотици милиони думи, традиционно би трябвало да токенизира една или повече от тези думи и да ги предава на модела с всяка заявка. С DeepSeek OCR същата тази информация може да бъде предварително компресирана като компресирани визуални токени и използвана повторно с всяка заявка. Това елиминира масивните излишни изчисления, които преди това се случваха с всяка заявка.

Проучванията показват конкретни цифри: Компания, която иска автоматично да анализира правни документи, може да очаква разходи от сто долара на случай за анализ, използвайки традиционна текстообработка. С визуална компресия тези разходи падат до дванадесет до петнадесет долара на случай. За големи компании, които обработват стотици случаи дневно, това се превръща в годишни спестявания от десетки милиони.

Свързано с това:

„Германската тревога“ – Дали германската иновационна култура е изостанала – или самата „предпазливост“ е форма на бъдеща жизнеспособност?

Противоречието на парадокса за ефективността на токените

Един интересен икономически аспект, произтичащ от разработки като DeepSeek OCR, е така нареченият парадокс на ефективността на токените. На пръв поглед намаляването на разходите чрез подобрена ефективност би трябвало да доведе до по-ниски общи разходи. Емпиричната реалност обаче разкрива обратната картина. Въпреки че цената на токен е спаднала хиляда пъти през последните три години, компаниите често отчитат нарастващи общи сметки. Това се дължи на феномен, който икономистите наричат парадокс на Джевънс: намаляването на разходите не води до пропорционално намаляване на потреблението, а по-скоро до експлозия в потреблението, което в крайна сметка води до по-високи общи разходи.

В контекста на DeepSeek OCR може да възникне контрастен феномен: компании, които преди това са минимизирали използването на езикови модели за обработка на документи, защото разходите са били непосилни, сега ще мащабират тези приложения, защото те внезапно стават икономически жизнеспособни. Парадоксално, това означава, че въпреки че цената на приложение намалява, общите разходи за изкуствен интелект в рамките на една компания могат да се увеличат, защото преди това неизползваеми случаи на употреба сега стават осъществими.

Това не е отрицателно развитие, а по-скоро отразява икономическата рационалност на компаниите: те инвестират в технологии, стига пределните ползи да надвишават пределните разходи. Докато разходите са непосилни, технологията няма да бъде възприета. Когато стане по-достъпна, тя ще бъде възприета масово. Това е нормалният ход на приемането на технологии.

Последици за икономиката на инфраструктурата на графичните процесори

Друг критичен момент се отнася до инфраструктурата на графичните процесори, необходима за внедряването на тези системи. Оптичната компресия и архитектурата със смесен екип от експерти означават, че необходимият хардуерен капацитет на единица пропускателна способност намалява драстично. Център за данни, който преди това изискваше 40 000 графични процесора H100, за да постигне дадена пропускателна способност, би могъл да постигне това с 10 000 или по-малко системи за инференциален извод, базирани на DeepSeek OCR.

Това има геополитически и стратегически последици, които се простират отвъд чистите технологии. Китай, изправен пред ограничения за износ на съвременни полупроводници, разработи система чрез DeepSeek, която работи по-ефективно с наличния хардуер. Това не означава, че хардуерните ограничения стават несъществени, но ги правят по-малко изтощителни. Китайски център за данни с 5000 двугодишни графични процесора Nvidia A100 може, с архитектурата на DeepSeek OCR и MoE, да осигури пропускателна способност, която преди би изисквала 10 000 или 15 000 по-нови графични процесора.

Това измества стратегическия баланс в икономиката на инфраструктурата на изкуствения интелект. Съединените щати и техните съюзници отдавна поддържат господството си в разработването на изкуствен интелект, като имат достъп до най-новите и мощни чипове. Нови методи за ефективност, като оптичната компресия, ще подкопаят това господство, като позволят по-ефективно използване на по-стар хардуер.

Трансформацията на бизнес модела на доставчиците на ИИ

Утвърдени доставчици на LLM като OpenAI, Google и Anthropic сега са изправени пред предизвикателство, което подкопава техните бизнес модели. Те са инвестирали сериозно в хардуер за обучение и внедряване на големи, плътни модели. Тези модели са ценни и предоставят реална стойност. Системи като DeepSeek OCR обаче поставят под въпрос рентабилността на тези инвестиции. Ако компания с по-малък капиталов бюджет може да постигне по-ефективни модели чрез различни архитектурни подходи, стратегическото предимство на по-големите, по-капиталоемки системи се намалява.

OpenAI дълго време компенсираше това със скорост: по-рано те имаха по-добри модели. Това им даваше почти монополни печалби, позволявайки им да оправдаят по-нататъшни инвестиции. Въпреки това, тъй като други доставчици ги настигаха и надминаваха в някои измерения, утвърдените играчи губеха това предимство. Пазарните дялове ставаха по-фрагментирани, а средните маржове на печалба на токен паднаха под натиск.

Образователна инфраструктура и демократизация на технологиите

Често пренебрегван аспект на системи като DeepSeek-OCR е тяхната роля в демократизирането на технологиите. Системата беше пусната с отворен код, с тегла на моделите, достъпни в Hugging Face, и код за обучение в GitHub. Това означава, че всеки, който има един висок клас графичен процесор или дори достъп до облачни изчисления, може да използва, разбира и дори да настройва системата.

Експеримент с Unsloth показа, че DeepSeek OCR, фино настроен към персийски текст, е подобрил процента на грешки в символите с 88%, използвайки само 60 стъпки за обучение на един графичен процесор. Това не е съществено, защото персийското OCR е проблем на масовия пазар, а защото демонстрира, че иновациите в инфраструктурата на изкуствения интелект вече не са собственост на милиардни компании. Малка група изследователи или стартираща компания биха могли да пригодят модел към специфичните си нужди.

Това има огромни икономически последици. Държавите, които нямат ресурси да инвестират милиарди в разработване на собствени системи с изкуствен интелект, вече могат да вземат системи с отворен код и да ги адаптират към собствените си нужди. Това намалява разликата в технологичните възможности между големите и малките икономики.

Последиците от пределните разходи и бъдещето на ценовата стратегия

В класическата икономика цените са насочени към пределните разходи в дългосрочен план, особено когато съществува конкуренция и са възможни нови навлизания на пазара. Индустрията за магистърска степен по право (LLM) вече показва този модел, макар и със закъснение. Пределните разходи за извод за токени в установените модели обикновено са от една до две десети от цента на милион токена. Цените обаче обикновено варират между два и десет цента на милион токена, диапазон, който представлява значителни маржове на печалба.

DeepSeek OCR би могъл да ускори тази динамика. Ако пределните разходи намалеят драстично чрез оптична компресия, конкурентите ще бъдат принудени да коригират цените си. Това би могло да доведе до ускорена ерозия на маржовете на печалба, което в крайна сметка ще доведе до потребителски сценарий, при който изводът за токени се превръща в квазибезплатна или евтина услуга, подобно на облачното съхранение.

Това развитие е плашещо за утвърдените доставчици и предимство за новите или ориентираните към ефективност доставчици. То ще предизвика мащабна консолидация или препозициониране в индустрията. Компаниите, които разчитат единствено на мащаба и размера на модела, ще се затруднят. Компаниите, фокусирани върху ефективността, специфичните случаи на употреба и интеграцията на клиентите, ще се окажат по-силни в дългосрочен план.

Свързано с това:

Суверенитет на ИИ за компаниите: Това ли е предимството на Европа в областта на ИИ? Как един спорен закон се превръща във възможност в глобалната конкуренция

Промяна на парадигмата на икономическо ниво

DeepSeek OCR и иновацията в областта на оптичното компресиране представляват повече от просто техническо подобрение. Те бележат промяна в парадигмата в начина, по който индустрията с изкуствен интелект мисли, инвестира и внедрява иновации. Преминаването от чисто мащабиране към интелигентен дизайн, приемането на MoE архитектури и разбирането, че визуалното кодиране може да бъде по-ефективно от кодирането на токени, са все признаци, че индустрията обмисля разширяване на техническите си граници.

Икономически това означава мащабно преоразмеряване на структурите на разходите, преразпределение на конкурентната позиция между утвърдени и нови играчи и фундаментално преизчисляване на рентабилността на различни приложения с изкуствен интелект. Компаниите, които разбират тези промени и се адаптират бързо, ще получат значителни стратегически предимства. Компаниите, които игнорират тази промяна и се придържат към установените подходи, ще загубят конкурентоспособност.

Вашият глобален партньор по маркетинг и бизнес развитие

☑️ Нашият бизнес език е английски или немски

☑️ НОВО: Кореспонденция на родния ви език!

Konrad Wolfenstein

Аз и моят екип с удоволствие ще бъдем на ваше разположение като ваш личен съветник.

Можете да се свържете с мен, като попълните формата за контакт тук wolfenstein@xpert.digital:или просто ми се обадите на +49 7348 4088 965. Моят имейл адрес е

Очаквам с нетърпение нашия съвместен проект.

☑️ Подкрепа за МСП в стратегията, консултирането, планирането и внедряването

☑️ Създаване или пренасочване на дигиталната стратегия и дигитализация

☑️ Разширяване и оптимизиране на международните процеси на продажби

☑️ Глобални и дигитални B2B търговски платформи

☑️ Pioneer Развитие на бизнеса / Маркетинг / PR / Търговски панаири

Нашият глобален индустриален и икономически опит в развитието на бизнеса, продажбите и маркетинга

Нашата глобална индустриална и икономическа експертиза в развитието на бизнеса, продажбите и маркетинга - Изображение: Xpert.Digital

Фокусни области в индустрията: B2B, дигитализация (от AI до XR), машиностроене, логистика, възобновяеми енергийни източници и промишленост

Повече информация тук:

Експертен бизнес център

Тематичен център, предлагащ анализи и експертиза:

Платформа за знания, обхващаща глобалните и регионалните икономики, иновациите и специфичните за индустрията тенденции
Колекция от анализи, прозрения и обща информация от ключовите ни области на фокус
Място за експертиза и информация за актуалните развития в бизнеса и технологиите
Център за компании, търсещи информация за пазари, дигитализация и иновации в индустрията

Краят на скъпия изкуствен интелект? Вместо да чете текст, този изкуствен интелект разглежда изображения – и следователно е 10 пъти по-ефективен

Механизмът на визуална компресия

Слой за оптимизация „Смес от експерти“

🎯🎯🎯 Възползвайте се от обширния, петкратен опит на Xpert.Digital в един цялостен пакет услуги | BD, R&D, XR, PR и оптимизация на дигиталната видимост

Парадокс на ефективността на токените: Защо по-евтиният изкуствен интелект все още увеличава разходите

Икономическа трансформация на пазара за обработка на документи

Противоречието на парадокса за ефективността на токените

Последици за икономиката на инфраструктурата на графичните процесори

Трансформацията на бизнес модела на доставчиците на ИИ

Образователна инфраструктура и демократизация на технологиите

Последиците от пределните разходи и бъдещето на ценовата стратегия

Промяна на парадигмата на икономическо ниво

Вашият глобален партньор по маркетинг и бизнес развитие

☑️ Нашият бизнес език е английски или немски

☑️ НОВО: Кореспонденция на родния ви език!

☑️ Подкрепа за МСП в стратегията, консултирането, планирането и внедряването

☑️ Създаване или пренасочване на дигиталната стратегия и дигитализация

☑️ Разширяване и оптимизиране на международните процеси на продажби

☑️ Глобални и дигитални B2B търговски платформи

☑️ Pioneer Развитие на бизнеса / Маркетинг / PR / Търговски панаири

Нашият глобален индустриален и икономически опит в развитието на бизнеса, продажбите и маркетинга

Други теми