ウェブサイトのアイコン エキスパートデジタル

新着!DeepSeek OCRは中国の静かな勝利:オープンソースAIがチップ市場における米国の優位性を揺るがす

新着!DeepSeek OCRは中国の静かな勝利:オープンソースAIがチップ市場における米国の優位性を揺るがす

新着!DeepSeek OCRは中国の静かな勝利:オープンソースAIがチップ市場における米国の優位性を揺るがす - 画像:Xpert.Digital

高価な AI の終焉?この AI はテキストを読む代わりに画像を見るため、10 倍の効率を実現します。

シンプルなトリックでコンピューティングコストを90%削減する方法 – ChatGPTの弱点:新しいOCRテクノロジーがAI経済のルールを書き換える理由

人工知能の世界は長らく、「大きいほど良い」というシンプルな法則に従っているように見えました。OpenAI、Google、Anthropicといった巨大テクノロジー企業は、巨大なデータセンターへの数十億ドルの投資を背景に、より広範なコンテキストウィンドウを備えた、より大規模な言語モデルの開発競争に明け暮れました。しかし、こうした目覚ましい成果の裏には、根本的な経済的な弱点、すなわち二次スケーリングが潜んでいます。モデルが処理できると予想されるテキストの長さが2倍になるごとに、計算コストは​​指数関数的に増加し、数え切れないほどの有望なアプリケーションが実質的に採算が取れなくなります。

まさにこの経済的な障壁に、既存のパラダイムに根本的な代替案を提供する技術が登場しました。それがDeepSeek-OCRです。テキストを長いトークンの連鎖に分解するのではなく、このシステムは根本的に異なるアプローチを採用しています。テキストを画像に変換し、情報を視覚的に処理するのです。一見単純なこのトリックは、AIインフラの根幹を揺るがす経済的なダムブレーカーとなるのです。

DeepSeek OCRは、高コストな計算ステップを10~20分の1に削減する画像圧縮と、高効率なMixture-of-Experts(MoE)アーキテクチャをインテリジェントに組み合わせることで、従来のコスト削減の罠を回避します。その結果、効率性が飛躍的に向上し、文書処理コストが最大90%削減されるだけでなく、広範囲にわたる影響をもたらすパラダイムシフトがもたらされます。この記事では、このイノベーションが文書処理市場に革命をもたらすだけでなく、既存のAIベンダーのビジネスモデルに挑戦し、ハードウェアの優位性という戦略的重要性を再定義し、オープンソースアプローチを通じてAI技術を大規模に民主化していることを分析します。私たちは今、単なる計算能力ではなく、アーキテクチャインテリジェンスがAI経済のルールを左右する新しい時代の瀬戸際にいるのかもしれません。

に適し:

DeepSeek OCRが人工知能の既存のインフラストラクチャに根本的な挑戦を挑み、コンピュータサイエンスの経済学に新たなルールを書き加える理由:文脈認識処理の古典的な限界

大規模言語モデルが商用導入以来直面してきた中心的な問題は、その知能ではなく、数学的な非効率性にあります。あらゆる現代のTransformerアーキテクチャの基盤となる注目機構の設計には、根本的な弱点があります。それは、処理の複雑さが入力トークン数の2乗に比例して増大することです。具体的には、4096トークンのコンテキストを持つ言語モデルは、1024トークンのコンテキストを持つモデルよりも16倍の計算リソースを必要とすることを意味します。この2乗スケーリングは単なる技術的な詳細ではなく、実用的に実行可能なアプリケーションと経済的に持続不可能なアプリケーションを区別する、直接的な経済的な閾値です。

業界は長らく、この制限に対して古典的なスケーリング戦略で対応してきました。つまり、ハードウェア容量の拡張によってコンテキストウィンドウを拡大するという戦略です。例えば、Microsoftはコンテキストウィンドウを200万トークン以上に拡張するLongRoPEを開発し、GoogleのGemini 1.5は100万トークンを処理できます。しかし、実践は、このアプローチが幻想的であることを明確に示しています。より長いテキストを処理する技術的能力は向上している一方で、実稼働環境におけるこれらの技術の導入は停滞しています。これは、そのようなシナリオのコスト構造が依然として採算が取れないためです。データセンターやクラウドプロバイダーの運用上の現実は、コンテキスト長が倍増するごとにコストが指数関数的に増加することです。

この経済的ジレンマは、前述の二次関数的な複雑性によって幾何級数的に増大します。10万トークンのテキストを処理するモデルは、1万トークンを処理するモデルと比較して、10倍どころか100倍もの計算量を必要とします。GPUあたりの1秒あたりのトークン数で測定されるスループットが収益性の重要な指標となる産業環境においては、これは、現在のトークン化パラダイムでは長いドキュメントを経済的に処理できないことを意味します。

ほとんどのLLMプロバイダーのビジネスモデルは、これらのトークンを収益化することを中心に構築されています。OpenAI、Anthropic、その他の大手プロバイダーは、入力トークンと出力トークンに基づいて価格を設定しています。平均的な100ページのビジネス文書は、5,000~10,000トークンにすぐに換算されます。企業が毎日数百の文書を処理する場合、年間請求額はすぐに6桁または7桁に達します。RAG(Retrieval Augmented Generation)コンテキストにおけるほとんどのエンタープライズアプリケーションは、これらのコストによって制限されており、実装されていないか、従来のOCRやルールベースシステムなどのより費用対効果の高い代替手段に切り替えられています。

に適し:

視覚的圧縮のメカニズム

DeepSeek-OCRは、この問題に対して根本的に異なるアプローチを提示します。既存のトークンパラダイムの枠にとらわれることなく、文字通りそれを回避します。このシステムは、シンプルでありながら根本的に効果的な原理に基づいて動作します。テキストを個別のトークンに分解するのではなく、まずテキストを画像としてレンダリングし、次に視覚媒体として処理します。これは単なる技術的な変革ではなく、入力プロセスそのものの概念的な再設計です。

コアスキームは、複数の連続した処理レベルで構成されています。高解像度の文書ページはまず画像に変換され、レイアウト、グラフィック、表、元のタイポグラフィなど、すべての視覚情報が保持されます。この画像形式では、例えば1024×1024ピクセルの1ページは、理論的には1,000~2万トークンのテキストに相当します。これは、表、複数段のレイアウト、複雑な視覚構造を含むページには、これだけの量の情報が含まれる可能性があるためです。

システムの最初の処理コンポーネントであるDeepEncoderは、従来のビジュアルトランスフォーマー設計ではなく、ハイブリッドアーキテクチャを採用しています。Segment Anything Modelに基づくローカル認識モジュールは、ウィンドウ化された注意を用いて画像をスキャンします。つまり、システムは画像全体ではなく、小さな重なり合う領域に作用します。この戦略は、従来の二次複雑度の罠を回避する上で非常に重要です。個々のピクセルまたは視覚的特徴が他のすべてのピクセルまたは特徴に注目させるのではなく、システムは8分の1-8ピクセル領域や14分の1-14ピクセル領域などの局所的なウィンドウ内で動作します。

技術的に革命的な段階は次に訪れます。2層の畳み込みダウンサンプラーによって、視覚トークンの数が1/16に削減されます。つまり、ローカルモジュールの元の4,960個の視覚パッチトークンが、わずか256個の視覚トークンに圧縮されるのです。これは驚くほど効果的な圧縮率ですが、真に重要なのは、この圧縮が高価なグローバルアテンション機構を適用する前に行われることです。ダウンサンプラーは、コスト効率の高いローカル処理を極めて凝縮された表現に変換する反転点を表し、その後、よりコストはかかるものの、実現可能になったグローバルアテンションを適用します。

この圧縮により、3億個のパラメータを持つCLIPサイズのモデルは、わずか256個のトークンで動作します。つまり、グローバルアテンションマトリックスは、16,094回のペアワイズアテンション演算ではなく、4,635回のペアワイズアテンション演算を実行するだけで済みます。これは、この処理段階だけで250分の1の削減となります。

このアーキテクチャ分割の結果、エンドツーエンドの圧縮率は10:1から20:1へと向上し、10:1よりも極端な圧縮率でない限り、実質的に97%の精度を達成します。20:1という極端な圧縮率でも、精度は約60%にしか低下せず、これは多くのアプリケーション、特にトレーニングデータにおいては許容できる水準です。

専門家混合最適化層

DeepSeek OCRの2つ目の重要な側面は、そのデコードアーキテクチャにあります。このシステムはDeepSeek-3B-MoEモデルを採用しています。これは合計30億のパラメータを持つモデルですが、推論ごとに有効なパラメータはわずか5億7000万です。これは恣意的な設計上の選択ではなく、コンテキストウィンドウとコストの問題への対応策です。

混合エキスパートモデルは、動的なエキスパート選択の原理に基づいて動作します。すべてのトークンをすべてのモデルパラメータで処理するのではなく、各トークンは少数のエキスパートのサブセットにルーティングされます。つまり、各デコードステップでアクティブ化されるパラメータは、全体のごく一部に限られます。DeepSeek OCRでは、通常、合計64個のエキスパートのうち6個と、すべてのトークンに対してアクティブ化される2個の共有エキスパートがアクティブ化されます。このスパースなアクティブ化により、経済学で「亜線形スケーリング」と呼ばれる現象が実現されます。つまり、計算コストは​​モデルのサイズに比例して増加するのではなく、はるかに緩やかに増加します。

このアーキテクチャの経済的影響は甚大です。30億のパラメータを持つ高密度Transformerモデルは、トークンごとに30億のパラメータすべてをアクティブ化します。これは、膨大なメモリ帯域幅の確保と計算負荷につながります。しかし、同じ30億のパラメータを持つMoEモデルは、トークンごとに5億7000万のパラメータしかアクティブ化しません。これは、計算時間の観点から見ると、運用コストの約5分の1です。これは品質の低下を意味するものではありません。モデルのキャパシティは専門家の多様性によって低下するのではなく、選択的に活用されるからです。

産業用途において、このアーキテクチャはサービスのコスト構造を根本的に変革します。MoEアーキテクチャを採用したDeepSeek-V3を導入した大規模データセンターは、同等の品質の高密度モデルと比較して、同一のハードウェアインフラストラクチャで4~5倍のスループットを実現できます。つまり、単一のA100 GPUで、MoEアーキテクチャと組み合わせた光学圧縮により、純粋なテキストデータで1日あたり約900億トークンの処理が可能になります。これは、この分野ではこれまで達成できなかった驚異的なスループットです。

 

🎯🎯🎯 Xpert.Digitalの5つの専門知識を包括的サービスパッケージで活用 | BD、R&D、XR、PR、デジタル可視性の最適化

Xpert.Digitalの5つの専門知識を包括的サービスパッケージで活用 | R&D、XR、PR、デジタル可視性の最適化 - 画像: Xpert.Digital

Xpert.Digital は、さまざまな業界について深い知識を持っています。 これにより、お客様の特定の市場セグメントの要件と課題に正確に合わせたオーダーメイドの戦略を開発することが可能になります。 継続的に市場動向を分析し、業界の発展をフォローすることで、当社は先見性を持って行動し、革新的なソリューションを提供することができます。 経験と知識を組み合わせることで付加価値を生み出し、お客様に決定的な競争上の優位性を提供します。

詳細については、こちらをご覧ください:

 

トークン効率パラドックス:安価なAIが依然として支出を増加させる理由

文書処理市場の経済的変革

この技術革新が文書処理市場全体に与える影響は甚大です。ABBYY、Tesseract、そして独自仕様のソリューションといった企業が長らく市場を独占してきた従来のOCR市場は、文書の複雑さ、精度、そしてスループットに基づいて細分化されてきました。標準化されたOCRソリューションは、滑らかなデジタル文書では一般的に90~95%の精度を達成しますが、手書きの注釈や古い情報が含まれるスキャン文書では50%以下に低下します。

DeepSeek OCRはこれらの精度ベンチマークをはるかに上回りますが、従来のOCRでは不可能だった機能も実現しています。それは、テキストを処理するだけでなく、レイアウト、表構造、書式、さらにはセマンティクスまでも理解することです。つまり、財務報告書を単なるテキスト文字列として抽出するのではなく、表構造やセル間の数学的関係も保持するということです。これにより、従来のOCRでは実現できなかった自動データ検証が可能になります。

経済効果は、特に大量のデータを処理するアプリケーションで顕著です。毎日数千枚の請求書を処理する企業では、従来の文書ベースのデータ抽出に、複雑さや自動化のレベルに応じて、文書1枚あたり40セントから2ドル程度の費用がかかります。DeepSeek OCRでは、光学圧縮によって推論プロセス全体が非常に効率化されるため、これらのコストは文書1枚あたり10セント未満にまで削減できます。これは、70~90%のコスト削減に相当します。

これは、企業が外部文書をリアルタイムで取得し、それを言語モデルに入力して正確な応答を生成するRAGシステム(Retrieval Augmented Generation)にさらに劇的な影響を与えます。数億語の文書データベースにアクセスできるカスタマーサービスエージェントを運用する企業は、従来、これらの単語を1つ以上トークン化し、クエリごとにモデルに渡す必要がありました。DeepSeek OCRを使用すると、同じ情報を圧縮されたビジュアルトークンとして事前に圧縮し、各クエリで再利用できます。これにより、これまでリクエストごとに発生していた膨大な冗長計算が不要になります。

調査では具体的な数値が示されています。法律文書の自動分析を希望する企業が、従来のワードプロセッサを使用した場合、分析案件1件あたり100ドルのコストがかかると予想されます。ビジュアル圧縮を利用すると、このコストは1件あたり12~15ドルにまで削減されます。毎日数百件の案件を処理する大企業の場合、これは年間数千万ドルの節約に相当します。

に適し:

トークン効率パラドックスの矛盾

DeepSeek OCRのような開発から生じる興味深い経済的側面は、いわゆるトークン効率パラドックスです。一見すると、効率向上によるコスト削減は総経費の削減につながるはずです。しかし、実証的な現実は逆のパターンを示しています。過去3年間でトークンあたりのコストは1000分の1にまで低下しているにもかかわらず、企業は総経費の増加を報告することがよくあります。これは、経済学者がジェヴォンズのパラドックスと呼ぶ現象によるものです。つまり、コスト削減は使用量の比例的な減少にはつながらず、むしろ使用量の爆発的な増加を招き、最終的には総コストの上昇につながるのです。

DeepSeek OCRの文脈では、対照的な現象が発生する可能性があります。これまでコストが高すぎるため文書処理における言語モデルの活用を最小限に抑えてきた企業が、突如として経済的に採算が取れるようになったため、これらのアプリケーションを拡大するようになるのです。逆説的に言えば、これはアプリケーションあたりのコストは低下するものの、これまでは利用できなかったユースケースが実現可能になるため、企業におけるAI推論への総支出が増加する可能性があることを意味します。

これは否定的な展開ではなく、むしろ企業の経済合理性を反映していると言えるでしょう。企業は限界便益が限界費用を上回る限り、技術に投資します。費用が法外な額である限り、その技術は採用されません。しかし、より手頃な価格になれば、大規模に採用されるでしょう。これが技術採用における通常の流れです。

GPUインフラ経済への影響

もう一つの重要な点は、これらのシステムの導入に必要なGPUインフラストラクチャです。光圧縮とエキスパート混合アーキテクチャにより、スループット単位あたりの必要なハードウェア容量が大幅に削減されます。以前は所定のスループットを達成するために40,000個のH100 GPUを必要としていたデータセンターは、10,000個以下のDeepSeek OCRベース推論システムで同じスループットを達成できます。

これは、純粋な技術にとどまらず、地政学的および戦略的な意味合いをもちます。先進半導体の輸出制限に直面している中国は、DeepSeekを活用して、既存のハードウェアでより効率的に動作するシステムを開発しました。これはハードウェアの制限が無関係になるという意味ではありませんが、ハードウェアの制約が軽減されることを意味します。2年前に導入されたNvidia A100 GPUを5,000基搭載した中国のデータセンターは、DeepSeek OCRとMoEアーキテクチャを活用することで、従来であれば1万基から1万5,000基の新型GPUを必要としていたスループットを実現できます。

これはAIインフラ経済における戦略的バランスを変化させます。米国とその同盟国は、最新かつ最も強力なチップへのアクセスによって、長年にわたりAI開発における優位性を維持してきました。しかし、光圧縮のような新たな効率化手法は、古いハードウェアをより効率的に活用することを可能にし、この優位性を揺るがすでしょう。

AIプロバイダーのビジネスモデルの変革

OpenAI、Google、Anthropicといった既存のLLMプロバイダーは、現在、ビジネスモデルを揺るがす課題に直面しています。大規模で高密度なモデルの学習と展開のために、ハードウェアに多額の投資を行ってきました。これらのモデルは価値があり、真の価値をもたらします。しかし、DeepSeek OCRのようなシステムは、これらの投資の収益性に疑問を投げかけています。資本予算の少ない企業でも、異なるアーキテクチャアプローチによってより効率的なモデルを実現できる場合、大規模で資本集約的なシステムの戦略的優位性は薄れてしまいます。

OpenAIは長らく、この欠点をスピードで補ってきました。より優れたモデルを早くから開発していたからです。これにより、ほぼ独占的な利益を得ることができ、さらなる投資を正当化することができました。しかし、他のプロバイダーが追いつき、いくつかの側面で追い越していくにつれ、既存のプレーヤーはこの優位性を失いました。市場シェアはより細分化され、トークンあたりの平均利益率は低下しました。

教育インフラとテクノロジーの民主化

DeepSeek-OCRのようなシステムで見落とされがちな側面の一つは、テクノロジーの民主化における役割です。このシステムはオープンソースとして公開され、モデルの重みはHugging Faceで、学習コードはGitHubで公開されています。つまり、高性能GPUを1つ、あるいはクラウドコンピューティングにアクセスできる人なら誰でも、このシステムを使い、理解し、さらには微調整することも可能です。

Unslothを用いた実験では、ペルシア語テキスト向けに微調整されたDeepSeek OCRが、単一のGPUでわずか60ステップの学習で文字エラー率を88%改善したことが示されました。これは、ペルシア語OCRが大衆市場の問題であるからという理由ではなく、AIインフラのイノベーションがもはや数十億ドル規模の企業だけのものではないことを示しているため、重要な意味を持ちます。少人数の研究者グループやスタートアップ企業が、それぞれのニーズに合わせてモデルをカスタマイズできる可能性があります。

これは経済に甚大な影響をもたらします。独自のAI開発に数十億ドルを投資するだけの資金力を持たない国々は、オープンソースシステムを導入し、自国のニーズに合わせて調整することが可能になります。これにより、大国と小国の間の技術力格差が縮小されます。

限界費用の含意と価格戦略の将来

古典経済学では、特に競争が存在し、新規市場参入が可能な場合、価格は長期的には限界費用に向かって動くとされています。LLM業界では、遅れてではあるものの、既にこのパターンが見られます。確立されたモデルにおけるトークン推論の限界費用は、通常、100万トークンあたり0.1~0.2セントです。しかし、価格は通常、100万トークンあたり2~10セントの範囲で推移し、これはかなりの利益幅を意味します。

DeepSeek OCRはこの動きを加速させる可能性があります。光学圧縮によって限界費用が劇的に低下すれば、競合他社は価格調整を余儀なくされるでしょう。これは利益率の低下を加速させ、最終的にはクラウドストレージのように、トークン推論が準無料、あるいは低価格のサービスになるという消費者シナリオにつながる可能性があります。

この展開は、既存のプロバイダーにとっては脅威となる一方で、新規プロバイダーや効率重視のプロバイダーにとっては有利となるでしょう。業界内で大規模な統合や再編が引き起こされるでしょう。規模やモデルサイズだけに頼る企業は苦戦するでしょう。効率性、特定のユースケース、そして顧客との統合に注力する企業が、長期的にはより強力な存在となるでしょう。

に適し:

経済レベルでのパラダイムシフト

DeepSeek OCRとその基盤となる光学圧縮技術の革新は、単なる技術革新にとどまりません。AI業界の思考、投資、そしてイノベーションにおけるパラダイムシフトを象徴するものです。純粋なスケーリングからインテリジェント設計への移行、MoEアーキテクチャの採用、そしてビジュアルエンコーディングがトークンエンコーディングよりも効率的であるという認識は、業界が技術的限界の成熟期を迎えていることを示す兆候です。

経済的には、これはコスト構造の大幅な見直し、既存企業と新規企業間の競争ポジションの再配分、そして様々なAIアプリケーションの収益性の根本的な再計算を意味します。これらの変化を理解し、迅速に適応する企業は、大きな戦略的優位性を獲得するでしょう。この変化を無視し、既存のアプローチに固執する企業は、競争力を失うことになります。

 

あなたのグローバルマーケティングおよびビジネス開発パートナー

☑️ 私たちのビジネス言語は英語またはドイツ語です

☑️ NEW: 母国語での通信!

 

Konrad Wolfenstein

喜んで個人アドバイザーとしてあなたと私のチームにお役に立ちたいと思っています。

お問い合わせフォームにご記入 +49 89 89 674 804 (ミュンヘン)までお電話ください。私のメールアドレスは: wolfenstein xpert.digital

私たちの共同プロジェクトを楽しみにしています。

 

 

☑️ 戦略、コンサルティング、計画、実行における中小企業のサポート

☑️ デジタル戦略の策定または再調整とデジタル化

☑️ 海外販売プロセスの拡大と最適化

☑️ グローバルおよびデジタル B2B 取引プラットフォーム

☑️ パイオニア事業開発 / マーケティング / PR / 見本市

 

ビジネス開発、販売、マーケティングにおける世界的な業界と経済の専門知識

ビジネス開発、営業、マーケティングにおける当社のグローバルな業界およびビジネスの専門知識 - 画像: Xpert.Digital

業界重点分野: B2B、デジタル化(AIからXRまで)、機械工学、物流、再生可能エネルギー、産業

詳細については、こちらをご覧ください:

洞察力と専門知識を備えたトピックハブ:

  • 世界および地域の経済、イノベーション、業界特有のトレンドに関する知識プラットフォーム
  • 重点分野からの分析、インパルス、背景情報の収集
  • ビジネスとテクノロジーの最新動向に関する専門知識と情報を提供する場所
  • 市場、デジタル化、業界のイノベーションについて学びたい企業のためのトピックハブ
モバイル版を終了する