AMI – Zaawansowana inteligencja maszynowa – Koniec skalowania: Dlaczego Yann LeCun nie wierzy już w studia LLM
Przedpremierowe wydanie Xperta
Wybór głosu 📢
Opublikowano: 23 listopada 2025 r. / Zaktualizowano: 23 listopada 2025 r. – Autor: Konrad Wolfenstein

AMI – Zaawansowana inteligencja maszynowa – Koniec skalowania: Dlaczego Yann LeCun nie wierzy już w studia LLM – Zdjęcie: Xpert.Digital
Ślepa uliczka zamiast superinteligencji: dlaczego główny wizjoner Meta rezygnuje
600 miliardów za błędne podejście? „Ojciec chrzestny sztucznej inteligencji” stawia na LLaMA, ChatGPT i spółkę.
Ogłoszenie to spadło jak grom z jasnego nieba na branżę technologiczną w listopadzie 2025 roku. Yann LeCun, jeden z trzech ojców założycieli głębokiego uczenia i główny naukowiec w Meta, ogłosił swoje odejście po dwunastu latach pracy w firmie, aby założyć własny startup. Ta decyzja to coś więcej niż osobisty wybór kariery przez pojedynczego naukowca. Stanowi ona fundamentalny punkt zwrotny w globalnym przemyśle sztucznej inteligencji i ukazuje rosnącą przepaść między krótkoterminowymi interesami rynku a długoterminową wizją naukową.
LeCun, który w 2018 roku otrzymał Nagrodę Turinga wraz z Geoffreyem Hintonem i Yoshuą Bengio, jest uważany za twórcę konwolucyjnych sieci neuronowych, które stanowią dziś fundament współczesnych systemów przetwarzania obrazu. Jego odejście następuje w czasie, gdy cała branża inwestuje setki miliardów dolarów w duże modele językowe – technologię, którą LeCun od lat określa jako fundamentalnie ślepą uliczkę. W swojej nowej firmie 65-letni naukowiec zamierza rozwijać to, co nazywa Zaawansowaną Inteligencją Maszynową (Advanced Machine Intelligence), radykalnie odmienne podejście oparte na modelach świata i zaczynające się od percepcji fizycznej, a nie tekstu.
Ekonomiczne konsekwencje tego rozwoju są ogromne. Sama Meta zainwestowała ponad 600 miliardów dolarów w infrastrukturę AI w ciągu ostatnich trzech lat. OpenAI osiągnęło wycenę pół biliona dolarów, pomimo rocznych przychodów wynoszących zaledwie dziesięć miliardów dolarów. Cała branża podąża w kierunku, który jeden z jej najważniejszych pionierów publicznie określił jako ślepą uliczkę. Aby zrozumieć ekonomiczne konsekwencje tej zmiany, należy dogłębnie przeanalizować techniczne, organizacyjne i finansowe struktury obecnej rewolucji AI.
Nadaje się do:
Architektura bańki
Architektura Transformer, wprowadzona przez badaczy z Google w 2017 roku, zrewolucjonizowała rynek sztucznej inteligencji w niespotykanym dotąd tempie. To podejście po raz pierwszy umożliwiło efektywne przetwarzanie ogromnych ilości tekstu i trenowanie modeli językowych z dotychczas nieosiągalnymi możliwościami. OpenAI zbudowało na tym fundamencie serię GPT, która wraz z ChatGPT w listopadzie 2022 roku po raz pierwszy pokazała szerokiej publiczności, co te technologie mogą osiągnąć. Odzew był ogromny. W ciągu kilku miesięcy do sektora napłynęły dziesiątki miliardów dolarów.
Jednak od końca 2024 roku pojawia się coraz więcej oznak, że ten wykładniczy rozwój osiąga swoje granice. OpenAI od ponad 18 miesięcy pracuje nad następcą GPT-4, wewnętrznie nazywanym Orion lub GPT-5. Firma podobno przeprowadziła co najmniej dwa duże cykle szkoleniowe, z których każdy kosztował około 500 milionów dolarów. Wyniki są niepokojące. Podczas gdy GPT-4 stanowił ogromny skok wydajnościowy w porównaniu z GPT-3, ulepszenia Oriona w stosunku do GPT-4 są marginalne. W niektórych obszarach, szczególnie w programowaniu, model ten wykazuje praktycznie zerowy postęp.
Ten rozwój sytuacji jest zasadniczo sprzeczny z prawami skalowania, empirycznymi zasadami, które do niedawna kierowały całą branżą. Podstawowa idea była prosta: jeśli powiększysz model, wykorzystasz więcej danych do trenowania i zainwestujesz więcej mocy obliczeniowej, wzrost wydajności będzie zgodny z przewidywalną funkcją potęgową. Ta zasada wydawała się uniwersalna i uzasadniała astronomiczne inwestycje ostatnich lat. Teraz okazuje się, że te krzywe się spłaszczają. Kolejne podwojenie inwestycji nie przynosi już oczekiwanego podwojenia wydajności.
Przyczyn jest wiele i są one technicznie złożone. Kluczowym problemem jest ściana danych. GPT-4 został wytrenowany przy użyciu około 13 bilionów tokenów, co stanowi zasadniczo cały publicznie dostępny internet. W przypadku GPT-5 po prostu brakuje nowych, wysokiej jakości danych. OpenAI zareagowało, zatrudniając programistów, matematyków i fizyków teoretycznych do generowania nowych danych poprzez pisanie kodu i rozwiązywanie problemów matematycznych. Jednak nawet gdyby 1000 osób produkowało 5000 słów dziennie, wygenerowanie zaledwie miliarda tokenów zajęłoby miesiące. Skalowanie z wykorzystaniem danych generowanych przez ludzi po prostu się nie sprawdza.
Alternatywnie, firmy coraz częściej polegają na danych syntetycznych – czyli generowanych przez inne modele sztucznej inteligencji. Czyha jednak nowe zagrożenie: załamanie się modelu. Gdy modele są rekurencyjnie trenowane na danych generowanych przez inne modele, drobne błędy narastają z pokolenia na pokolenie. W rezultacie powstają modele, które stają się coraz bardziej oderwane od rzeczywistości, a grupy mniejszościowe w danych nieproporcjonalnie zanikają. Badanie opublikowane w czasopiśmie „Nature” w 2024 roku wykazało, że proces ten zachodzi zaskakująco szybko. Dane syntetyczne nie są zatem panaceum, lecz niosą ze sobą znaczne ryzyko.
Transformacja energetyczna i ograniczenia wzrostu
Oprócz bariery danych istnieje druga, jeszcze bardziej fundamentalna bariera: bariera energetyczna. Szkolenie GPT-3 pochłonęło około 1300 megawatogodzin energii elektrycznej, co odpowiada rocznemu zużyciu 130 amerykańskich gospodarstw domowych. Szacuje się, że GPT-4 wymagał 50 razy więcej energii, czyli 65 000 megawatogodzin. Moc obliczeniowa wymagana do szkolenia dużych modeli AI podwaja się mniej więcej co 100 dni. Ta krzywa wykładnicza szybko prowadzi do ograniczeń fizycznych.
Centra danych, które trenują i obsługują te modele, zużywają już tyle samo energii elektrycznej, co małe miasta. Międzynarodowa Agencja Energetyczna prognozuje, że zużycie energii elektrycznej przez centra danych wzrośnie o 80% do 2026 roku, z 20 terawatogodzin w 2022 roku do 36 terawatogodzin w 2026 roku. Głównym motorem tego wzrostu jest sztuczna inteligencja. Dla porównania, pojedyncze zapytanie w ChatGPT zużywa około dziesięciokrotnie więcej energii niż wyszukiwanie w Google. Przy miliardach zapytań dziennie daje to ogromne ilości energii.
Ten rozwój sytuacji zmusza firmy technologiczne do podjęcia drastycznych kroków. Microsoft podpisał już umowy z dostawcami energii jądrowej. Meta, Amazon i Google inwestują łącznie ponad 1,3 biliona dolarów w nadchodzących latach w budowę niezbędnej infrastruktury. Inwestycje te napotykają jednak na ograniczenia fizyczne i polityczne. Stany Zjednoczone po prostu nie dysponują wystarczającą infrastrukturą energetyczną, aby zasilić planowane centra danych AI. Analitycy szacują, że projekty o wartości 750 miliardów dolarów mogą zostać opóźnione do 2030 roku z powodu wąskich gardeł w infrastrukturze energetycznej.
Do tego dochodzi wymiar geopolityczny. Zapotrzebowanie energetyczne branży AI nasila konkurencję o zasoby i zwiększa zależność od paliw kopalnych. Podczas gdy decydenci domagają się neutralności klimatycznej, branża AI napędza wzrost zużycia energii. To napięcie będzie się pogłębiać w nadchodzących latach i może doprowadzić do interwencji regulacyjnych, które ograniczą rozwój branży.
Ściana architektoniczna i alternatywa LeCuna
Trzecia bariera jest prawdopodobnie najbardziej fundamentalna: bariera architektoniczna. Yann LeCun od lat argumentuje, że architektura Transformer ma nieodłączne ograniczenia, których nie da się pokonać poprzez samo skalowanie. Jego krytyka koncentruje się na fundamentalnym sposobie działania dużych modeli językowych (LJM). Systemy te są trenowane w celu przewidywania kolejnego słowa w sekwencji. Uczą się wzorców statystycznych w ogromnych korpusach tekstowych, ale nie rozwijają prawdziwego zrozumienia przyczynowości, praw fizyki ani długoterminowego planowania.
LeCun lubi ilustrować ten problem porównaniem: czteroletnie dziecko przyswaja więcej informacji o świecie za pomocą percepcji wzrokowej niż najdoskonalsze modele językowe za pomocą tekstu. Dziecko intuicyjnie rozumie, że przedmioty nie znikają po prostu, że ciężkie przedmioty spadają, a działania mają swoje konsekwencje. Rozwija model świata, wewnętrzną reprezentację rzeczywistości fizycznej, której używa do przewidywania i planowania działań. Absolwentom studiów magisterskich z prawa (LLM) brakuje tej fundamentalnej umiejętności. Potrafią tworzyć imponująco spójny tekst, ale nie rozumieją świata.
To ograniczenie staje się widoczne wielokrotnie w praktycznych zastosowaniach. Jeśli poprosimy GPT-4 o wizualizację obracającego się sześcianu, zawodzi on w zadaniu, które każde dziecko może z łatwością wykonać. W przypadku złożonych zadań wymagających wieloetapowego planowania, modele regularnie zawodzą. Nie mogą one niezawodnie uczyć się na błędach, ponieważ każdy błąd w przewidywaniu tokenów potencjalnie kaskadowo się nawarstwia i wzmacnia. Modele autoregresyjne mają fundamentalną kruchość: błąd na wczesnym etapie sekwencji może zrujnować cały wynik.
Alternatywą LeCuna są modele świata oparte na architekturze predykcyjnej Joint Embedding Predictive Architecture. Podstawową ideą jest to, że systemy sztucznej inteligencji nie powinny uczyć się poprzez predykcję tekstową, lecz poprzez przewidywanie abstrakcyjnych reprezentacji przyszłych stanów. Zamiast generować piksel po pikselu lub token po tokenie, system uczy się skompresowanej, ustrukturyzowanej reprezentacji świata i może ją wykorzystać do mentalnej symulacji różnych scenariuszy przed podjęciem działania.
Pod kierownictwem LeCuna, Meta opracowała już kilka implementacji tego podejścia. Modele I-JEPA dla obrazów i V-JEPA dla filmów wideo przynoszą obiecujące rezultaty. Modele te uczą się komponentów obiektów wysokiego poziomu i ich relacji przestrzennych bez konieczności intensywnej akwizycji danych. Są one również znacznie bardziej energooszczędne w trenowaniu niż modele konwencjonalne. Celem jest połączenie tych podejść w systemy hierarchiczne, które mogą działać na różnych poziomach abstrakcji i w różnych skalach czasowych.
Kluczowa różnica tkwi w naturze procesu uczenia się. Podczas gdy LLM-y zasadniczo polegają na dopasowywaniu wzorców na sterydach, modele świata dążą do uchwycenia struktury i przyczynowości rzeczywistości. System z solidnym modelem świata mógłby przewidywać konsekwencje swoich działań bez konieczności ich faktycznego wykonywania. Mógłby uczyć się na kilku przykładach, ponieważ rozumie podstawowe zasady, a nie tylko powierzchowne korelacje.
Dysfunkcja organizacyjna i kryzys egzystencjalny Meta
Odejście LeCuna nie jest jednak wyłącznie decyzją naukową, ale także wynikiem dysfunkcji organizacyjnych w Meta. W czerwcu 2025 roku prezes Mark Zuckerberg ogłosił gruntowną restrukturyzację działów sztucznej inteligencji (AI). Założył Meta Superintelligence Labs, nową jednostkę, której celem jest rozwój sztucznej inteligencji ogólnej (AI). Na jej czele stanął Alexandr Wang, 28-letni były prezes Scale AI, firmy zajmującej się przetwarzaniem danych. Meta zainwestowała 14,3 miliarda dolarów w Scale AI i zatrudniła ponad 50 inżynierów i badaczy z konkurencji.
Ta decyzja wywróciła do góry nogami dotychczasową strukturę. Zespół Badań nad Sztuczną Inteligencją (Fundamental AI Research Team) firmy LeCun, który przez lata rozwijał PyTorch i pierwsze modele lamy, został zmarginalizowany. FAIR koncentrował się na badaniach podstawowych z horyzontem czasowym od pięciu do dziesięciu lat, podczas gdy nowe laboratoria superinteligencji koncentrowały się na krótkoterminowym rozwoju produktów. Źródła donoszą o narastającym chaosie w działach AI firmy Meta. Nowo zatrudnieni najlepsi specjaliści wyrażali frustrację biurokracją dużej korporacji, podczas gdy ugruntowane zespoły dostrzegały słabnący wpływ.
Sytuacja pogorszyła się z powodu kilku restrukturyzacji w ciągu zaledwie sześciu miesięcy. W sierpniu 2025 roku Superintelligence Labs zostało ponownie zreorganizowane, tym razem dzieląc się na cztery pododdziały: tajemnicze TBD Lab ds. nowych modeli, zespół produktowy, zespół ds. infrastruktury oraz FAIR. W październiku nastąpiła kolejna fala zwolnień, a około 600 pracowników otrzymało odprawy. Podanym powodem było zmniejszenie złożoności organizacyjnej i przyspieszenie rozwoju sztucznej inteligencji.
Te ciągłe restrukturyzacje stoją w jaskrawej sprzeczności z względną stabilnością konkurentów, takich jak OpenAI, Google i Anthropic. Wskazują one na fundamentalną niepewność w Meta co do właściwego kierunku strategicznego. Zuckerberg zauważył, że Meta pozostaje w tyle w wyścigu o dominację w dziedzinie sztucznej inteligencji. Llama 4, wprowadzona na rynek w kwietniu 2025 roku, okazała się rozczarowaniem. Chociaż model Maverick wykazał się dobrą wydajnością, w dłuższych kontekstach zawiódł drastycznie. Pojawiły się zarzuty, że Meta optymalizuje testy porównawcze, ucząc modele w oparciu o typowe pytania testowe, sztucznie zawyżając wydajność.
Dla LeCuna sytuacja stała się nie do utrzymania. Jego wizja długoterminowych badań podstawowych zderzyła się z presją osiągnięcia krótkoterminowych sukcesów produktowych. Fakt, że był w istocie podporządkowany znacznie młodszemu Wangowi, prawdopodobnie przyczynił się do jego decyzji. W pożegnalnym liście LeCun podkreśla, że Meta pozostanie partnerem w jego nowej firmie, ale przesłanie jest jasne: niezależne badania, które uważa za niezbędne, nie są już możliwe w ramach struktur korporacyjnych.
Nowy wymiar transformacji cyfrowej z „zarządzaną sztuczną inteligencją” (Managed AI) – platforma i rozwiązanie B2B | Xpert Consulting

Nowy wymiar transformacji cyfrowej z „zarządzaną sztuczną inteligencją” (Managed AI) – platforma i rozwiązanie B2B | Xpert Consulting – Zdjęcie: Xpert.Digital
Tutaj dowiesz się, jak Twoja firma może szybko, bezpiecznie i bez wysokich barier wejścia wdrażać dostosowane rozwiązania z zakresu sztucznej inteligencji.
Zarządzana platforma AI to kompleksowy, bezproblemowy pakiet rozwiązań dla sztucznej inteligencji. Zamiast zmagać się ze skomplikowaną technologią, kosztowną infrastrukturą i długotrwałymi procesami rozwoju, otrzymujesz gotowe rozwiązanie dopasowane do Twoich potrzeb od wyspecjalizowanego partnera – często w ciągu kilku dni.
Najważniejsze korzyści w skrócie:
⚡ Szybka implementacja: Od pomysłu do wdrożenia w ciągu kilku dni, a nie miesięcy. Dostarczamy praktyczne rozwiązania, które generują natychmiastową wartość.
🔒 Maksymalne bezpieczeństwo danych: Twoje wrażliwe dane pozostają u Ciebie. Gwarantujemy bezpieczne i zgodne z przepisami przetwarzanie bez udostępniania danych osobom trzecim.
💸 Brak ryzyka finansowego: Płacisz tylko za rezultaty. Wysokie początkowe inwestycje w sprzęt, oprogramowanie lub personel są całkowicie wyeliminowane.
🎯 Skoncentruj się na swojej podstawowej działalności: Skoncentruj się na tym, co robisz najlepiej. Zajmujemy się całościową implementacją techniczną, obsługą i utrzymaniem Twojego rozwiązania AI.
📈 Przyszłościowa i skalowalna: Twoja sztuczna inteligencja rośnie razem z Tobą. Dbamy o ciągłą optymalizację i skalowalność oraz elastycznie dostosowujemy modele do nowych wymagań.
Więcej na ten temat tutaj:
Od szumu informacyjnego do rzeczywistości: Zbliżająca się ponowna ocena branży AI
Ekonomiczna anatomia powstawania pęcherzy
Rozwój Meta jest symptomem szerszej dynamiki gospodarczej w branży AI. Od przełomu ChatGPT pod koniec 2022 roku nastąpił bezprecedensowy boom inwestycyjny. Tylko w pierwszym kwartale 2025 roku do startupów AI napłynęło 73,1 miliarda dolarów, co stanowiło 58% wszystkich inwestycji venture capital. OpenAI osiągnął wycenę na poziomie 500 miliardów dolarów, stając się pierwszą prywatną firmą, która przekroczyła ten próg, nigdy wcześniej nie osiągając rentowności.
Wyceny są skrajnie nieproporcjonalne do rzeczywistych przychodów. W 2025 roku OpenAI generował roczne przychody w wysokości 10 miliardów dolarów, a jego wycena wyniosła 500 miliardów dolarów, co przekładało się na wskaźnik ceny do sprzedaży (P/S) na poziomie 50. Dla porównania, nawet w szczytowym okresie bańki internetowej niewiele firm osiągnęło takie wskaźniki. Anthropic jest wyceniany na 170 miliardów dolarów, przy przychodach na poziomie 2,2 miliarda dolarów i wskaźniku P/E wynoszącym około 77. Dane te wskazują na znaczne przeszacowanie wyceny.
Szczególnie problematyczna jest opracowana struktura finansowania o obiegu zamkniętym. Nvidia inwestuje 100 miliardów dolarów w OpenAI, które z kolei jest zobowiązane do zakupu układów Nvidia o wartości dziesiątek miliardów dolarów. OpenAI zawarło podobne umowy z AMD o wartości dziesiątek miliardów dolarów. Microsoft zainwestował ponad 13 miliardów dolarów w OpenAI i hostuje swoją infrastrukturę w Azure. Amazon zainwestował 8 miliardów dolarów w Anthropic, który z kolei wykorzystuje AWS jako swoją główną platformę chmurową i korzysta z własnych układów AI Amazon.
Takie rozwiązania niepokojąco przypominają finansowanie o obiegu zamkniętym z końca lat 90., kiedy firmy technologiczne sprzedawały sobie nawzajem sprzęt i księgowały transakcje jako przychód, nie generując żadnej realnej wartości ekonomicznej. Analitycy mówią o coraz bardziej złożonej i nieprzejrzystej sieci relacji biznesowych, napędzającej bilionowy boom. Analogie do bańki internetowej i kryzysu finansowego z 2008 roku są niewątpliwe: nieprzejrzyste i niekonwencjonalne mechanizmy finansowania, trudne do zrozumienia i oceny przez inwestorów.
Do tego dochodzi koncentracja kapitału. „Wspaniała Siódemka”, siedem największych amerykańskich firm technologicznych, zwiększyła swoje zużycie energii o 19% w 2023 roku, podczas gdy mediana zużycia energii przez spółki z indeksu S&P 500 uległa stagnacji. Około 80% zysków giełdowych w USA w 2025 roku przypisano firmom związanym z AI. Sama Nvidia stała się najchętniej kupowanymi akcjami inwestorów detalicznych, którzy zainwestowali w tego producenta chipów prawie 30 miliardów dolarów w 2024 roku.
Ta skrajna koncentracja niesie ze sobą ryzyko systemowe. Jeśli oczekiwania dotyczące zwrotu okażą się nierealistyczne, krach na rynku może mieć daleko idące konsekwencje. JPMorgan szacuje, że same emisje obligacji o ratingu inwestycyjnym związanych ze sztuczną inteligencją mogą osiągnąć 1,5 biliona dolarów do 2030 roku. Znaczna część tego zadłużenia opiera się na założeniu, że systemy sztucznej inteligencji wygenerują ogromny wzrost produktywności. Jeśli to oczekiwanie się nie zmaterializuje, grozi kryzys kredytowy.
Nadaje się do:
- Meta stawia wszystko na superinteligencję: inwestycje warte miliardy dolarów, megacentra danych i ryzykowny wyścig sztucznej inteligencji
Wojna o talenty i wstrząsy społeczne
Napięcia gospodarcze znajdują również odzwierciedlenie na rynku pracy. Stosunek liczby wolnych stanowisk w branży AI do liczby wykwalifikowanych kandydatów wynosi 3,2 do 1. Jest 1,6 miliona wolnych stanowisk, ale tylko 518 000 wykwalifikowanych kandydatów. Ten skrajny niedobór kadrowy powoduje wzrost wynagrodzeń do astronomicznych wysokości. Specjaliści ds. AI mogą zwiększyć swoje roczne dochody o dziesiątki tysięcy dolarów, zdobywając umiejętności w zakresie Pythona, TensorFlow lub specjalistycznych frameworków AI.
Konkurencja jest zacięta. Duże firmy technologiczne, dobrze finansowane startupy, a nawet rządy walczą o tę samą, niewielką grupę ekspertów. W ostatnich miesiącach OpenAI doświadczyło odpływu kadry kierowniczej, w tym współzałożyciela Ilyi Sutskevera i dyrektora ds. technologii Mira Murati. Wielu z tych utalentowanych ludzi zakłada własne startupy lub przechodzi do konkurencji. Meta aktywnie rekrutuje pracowników z OpenAI, Anthropic i Google. Anthropic rekrutuje również z Meta i OpenAI.
Ta dynamika ma kilka konsekwencji. Po pierwsze, fragmentuje środowisko badawcze. Zamiast dążyć do wspólnych celów, małe zespoły w różnych organizacjach konkurują o te same przełomowe odkrycia. Po drugie, podnosi koszty. Ogromne pensje specjalistów od sztucznej inteligencji są do utrzymania tylko w firmach z dużym kapitałem, co wyklucza mniejszych graczy z rynku. Po trzecie, opóźnia realizację projektów. Firmy zgłaszają, że wakaty pozostają nieobsadzone przez miesiące, co zakłóca harmonogramy rozwoju.
Implikacje społeczne wykraczają daleko poza sektor technologiczny. Jeśli sztuczna inteligencja rzeczywiście reprezentuje kolejną rewolucję przemysłową, to nieuchronny jest ogromny wstrząs na rynku pracy. W przeciwieństwie do pierwszej rewolucji przemysłowej, która dotyczyła przede wszystkim pracy fizycznej, sztuczna inteligencja koncentruje się na zadaniach kognitywnych. Zagrożone są nie tylko proste wprowadzanie danych i obsługa klienta, ale potencjalnie również zawody wysoko wykwalifikowane, takie jak programiści, projektanci, prawnicy i dziennikarze.
Badanie branży zarządzania inwestycjami przewiduje pięcioprocentowy spadek udziału dochodów z pracy ze względu na sztuczną inteligencję i duże zbiory danych. Jest to porównywalne ze zmianami w czasie rewolucji przemysłowej, które spowodowały spadek o pięć do piętnastu procent. Kluczowa różnica: obecna transformacja trwa latami, a nie dekadami. Społeczeństwa mają niewiele czasu na adaptację.
Obliczenia w czasie testowania i zmiana paradygmatu
Podczas gdy prawa skalowania dla wstępnego treningu osiągają swoje granice, pojawił się nowy paradygmat: skalowanie obliczeń w czasie testu. Modele o1 firmy OpenAI wykazały, że możliwe jest znaczne zwiększenie wydajności poprzez zainwestowanie większej mocy obliczeniowej podczas wnioskowania. Zamiast po prostu zwiększać rozmiar modelu, systemy te pozwalają modelowi dłużej myśleć o zapytaniu, stosować wiele podejść do jego rozwiązania i samodzielnie weryfikować odpowiedzi.
Badania pokazują jednak, że ten paradygmat ma również ograniczenia. Skalowanie sekwencyjne, w którym model wielokrotnie iteruje ten sam problem, nie prowadzi do ciągłych ulepszeń. Badania nad modelami takimi jak Deepseeks R1 i QwQ pokazują, że dłuższe procesy myślowe nie prowadzą automatycznie do lepszych rezultatów. Często to model koryguje poprawne odpowiedzi na niepoprawne, a nie odwrotnie. Zdolność do samorewizji, niezbędna do efektywnego skalowania sekwencyjnego, jest niewystarczająco rozwinięta.
Skalowanie równoległe, gdzie wiele rozwiązań jest generowanych jednocześnie, a następnie wybierane jest najlepsze, przynosi lepsze rezultaty. Jednak i tutaj korzyść marginalna maleje z każdym podwojeniem zainwestowanej mocy obliczeniowej. Efektywność kosztowa gwałtownie spada. W przypadku aplikacji komercyjnych, które muszą odpowiadać na miliony zapytań dziennie, koszty są zaporowe.
Prawdziwy przełom może leżeć w połączeniu różnych podejść. Architektury hybrydowe, łączące modele Transformers z modelami przestrzeni stanów, obiecują połączenie zalet obu. Modele przestrzeni stanów, takie jak Mamba, oferują liniowe skalowanie wnioskowania, podczas gdy modele Transformers doskonale radzą sobie z rejestrowaniem zależności długoterminowych. Takie systemy hybrydowe mogłyby zrównoważyć równanie koszt-jakość.
Alternatywne architektury i przyszłość po Transformerach
Oprócz modeli świata pojawia się szereg alternatywnych architektur, które mogłyby zagrozić dominacji Transformerów. Modele przestrzeni stanów poczyniły w ostatnich latach znaczne postępy. S4, Mamba i Hyena dowodzą, że efektywne wnioskowanie długokontekstowe o złożoności liniowej jest możliwe. Podczas gdy Transformery skalują się kwadratowo wraz z długością sekwencji, SSM-y osiągają skalowanie liniowe zarówno w procesie uczenia, jak i wnioskowania.
Ten wzrost wydajności może mieć kluczowe znaczenie, gdy systemy AI są wdrażane w środowiskach produkcyjnych. Koszt wnioskowania jest często niedoceniany. Szkolenie to jednorazowa inwestycja, ale wnioskowanie działa w sposób ciągły. ChatGPT nigdy nie jest offline. Przy miliardach zapytań dziennie, nawet niewielkie ulepszenia wydajności przekładają się na ogromne oszczędności. Model, który wymaga o połowę mniejszej mocy obliczeniowej dla tej samej jakości, ma ogromną przewagę konkurencyjną.
Wyzwanie leży w dojrzewaniu tych technologii. Transformers mają prawie ośmioletnią przewagę i rozległy ekosystem narzędzi, bibliotek i wiedzy specjalistycznej. Alternatywne architektury muszą być nie tylko technicznie lepsze, ale także praktyczne. Historia technologii jest pełna zaawansowanych technicznie rozwiązań, które nie sprawdziły się na rynku z powodu braków w ekosystemie.
Co ciekawe, chińska konkurencja również opiera się na alternatywnych podejściach. DeepSeek V3, model open source z 671 miliardami parametrów, wykorzystuje architekturę mieszaną, w której na token aktywowanych jest tylko 37 miliardów parametrów. Model ten osiąga porównywalną wydajność do zachodnich konkurentów w testach porównawczych, ale został wyszkolony po znacznie niższych kosztach. Czas szkolenia wyniósł zaledwie 2,788 miliona godzin pracy GPU H800, znacznie mniej niż w przypadku porównywalnych modeli.
Ten rozwój sytuacji pokazuje, że przywództwo technologiczne niekoniecznie należy do najpotężniejszych finansowo graczy. Sprytne decyzje architektoniczne i optymalizacje mogą zrekompensować przewagę w zakresie zasobów. Dla globalnego krajobrazu sztucznej inteligencji oznacza to rosnącą wielobiegunowość. Chiny, Europa i inne regiony rozwijają własne podejścia, które nie są jedynie kopiami modeli zachodnich.
Ponowna ocena i nieunikniony kac
Zbieżność wszystkich tych czynników sugeruje rychłą ponowną ocenę branży AI. Obecne wyceny opierają się na założeniu ciągłego wzrostu wykładniczego, zarówno pod względem wydajności modeli, jak i ich komercjalizacji. Oba założenia stają się coraz bardziej wątpliwe. Wydajność modeli stagnuje, a koszty nadal gwałtownie rosną. Pomimo rosnącej popularności komercyjnej, monetyzacja pozostaje wyzwaniem.
OpenAI, z wyceną na pół biliona dolarów, musiałoby osiągnąć co najmniej 100 miliardów dolarów rocznych przychodów i stać się rentowne w nadchodzących latach, aby uzasadnić swoją wycenę. Oznaczałoby to dziesięciokrotny wzrost w ciągu zaledwie kilku lat. Dla porównania, Google potrzebował ponad dekady, aby zwiększyć przychody z 10 do 100 miliardów dolarów. Oczekiwania wobec firm z branży AI są nierealistycznie wysokie.
Analitycy ostrzegają przed potencjalnym pęknięciem bańki spekulacyjnej na rynku sztucznej inteligencji. Analogie do bańki internetowej są oczywiste. Wtedy, tak jak i teraz, istniała rewolucyjna technologia o ogromnym potencjale. Wtedy, tak jak i teraz, istniały irracjonalnie zawyżone wyceny i obiegowe struktury finansowania. Wtedy, tak jak i teraz, inwestorzy uzasadniali absurdalne wyceny argumentując, że technologia wszystko zmieni, a tradycyjne wskaźniki wyceny nie mają już zastosowania.
Kluczowa różnica: w przeciwieństwie do wielu firm internetowych, dzisiejsze firmy zajmujące się sztuczną inteligencją (AI) faktycznie oferują działające produkty o realnej wartości. ChatGPT to nie vaporware, ale technologia używana codziennie przez miliony ludzi. Pytanie nie brzmi, czy AI jest wartościowa, ale czy jest wystarczająco cenna, aby uzasadnić obecne wyceny. Odpowiedź brzmi najprawdopodobniej nie.
Kiedy nastąpi rewaluacja, będzie bolesna. Fundusze venture capital zainwestowały 70 procent swojego kapitału w sztuczną inteligencję. Fundusze emerytalne i inwestorzy instytucjonalni są narażeni na ogromne ryzyko. Znaczny spadek wycen AI miałby daleko idące konsekwencje finansowe. Firmy, które polegają na tanim finansowaniu, nagle miałyby trudności z pozyskaniem kapitału. Projekty zostałyby wstrzymane, a pracownicy zwolnieni.
Długoterminowa perspektywa i droga naprzód
Pomimo tych ponurych perspektyw krótkoterminowych, długoterminowy potencjał sztucznej inteligencji pozostaje ogromny. Obecny szum medialny nie zmienia fundamentalnego znaczenia tej technologii. Pytanie nie brzmi czy, ale jak i kiedy sztuczna inteligencja spełni swoje obietnice. Przejście LeCuna od krótkoterminowego rozwoju produktu do długoterminowych badań podstawowych wskazuje drogę.
Następna generacja systemów AI prawdopodobnie będzie się różnić od dzisiejszych systemów LLM. Będzie łączyć elementy modeli świata, alternatywnych architektur i nowych paradygmatów szkoleniowych. Będzie mniej polegać na skalowaniu siłowym, a bardziej na wydajnych, ustrukturyzowanych reprezentacjach. Będzie się uczyć ze świata fizycznego, a nie tylko z tekstu. I będzie rozumieć związki przyczynowo-skutkowe, a nie tylko korelacje.
Wizja ta wymaga jednak czasu, cierpliwości i swobody prowadzenia badań podstawowych. Trudno o takie warunki w obecnym otoczeniu rynkowym. Presja na szybki sukces komercyjny jest ogromna. Kwartalne raporty i rundy ewaluacyjne dominują w programie. Długoterminowe programy badawcze, których rezultaty mogą być widoczne dopiero po latach, są trudne do uzasadnienia.
Decyzja LeCuna o założeniu startupu w wieku 65 lat to niezwykłe oświadczenie. Mógł przejść na emeryturę z pełnymi honorami i zagwarantowanym miejscem w historii. Zamiast tego wybrał wyboistą drogę realizacji wizji odrzuconej przez główny nurt branży. Meta pozostanie partnerem, co oznacza, że jego firma będzie miała zasoby, przynajmniej początkowo. Jednak jej prawdziwy sukces będzie zależał od tego, czy w nadchodzących latach uda mu się udowodnić, że zaawansowana inteligencja maszynowa rzeczywiście jest lepsza.
Transformacja zajmie lata. Nawet jeśli LeCun ma rację i modele świata są zasadniczo lepsze, nadal trzeba je rozwijać, optymalizować i industrializować. Trzeba zbudować ekosystem. Programiści muszą nauczyć się korzystać z nowych narzędzi. Firmy muszą migrować z programów LLM do nowych systemów. Te fazy przejściowe zawsze były bolesne.
Od szumu informacyjnego do rzeczywistości: długoterminowy plan działań w dziedzinie sztucznej inteligencji
Odejście Yanna LeCuna z Meta oznacza coś więcej niż tylko zmianę personalną. Symbolizuje fundamentalne napięcie między naukową wizją a komercyjnym pragmatyzmem, między długoterminową innowacją a krótkoterminowymi wymaganiami rynku. Obecna rewolucja AI znajduje się w punkcie zwrotnym. Łatwe sukcesy skalowania zostały wyczerpane. Kolejne kroki będą trudniejsze, droższe i bardziej niepewne.
Dla inwestorów oznacza to, że wygórowane wyceny obecnych liderów w dziedzinie sztucznej inteligencji (AI) wymagają krytycznej analizy. Dla firm oznacza to, że nadzieje na szybkie cuda produktywności dzięki AI mogą się zawieść. Dla społeczeństwa oznacza to, że transformacja będzie wolniejsza i bardziej nierównomierna, niż sugeruje to fala szumu medialnego.
Jednocześnie fundamenty pozostają solidne. Sztuczna inteligencja nie jest chwilową modą, lecz fundamentalną technologią, która w perspektywie długoterminowej przekształci praktycznie wszystkie sektory gospodarki. Paralele z rewolucją przemysłową są trafne. Podobnie jak wtedy, będą zwycięzcy i przegrani, nadużycia i korekty, wstrząsy i dostosowania. Pytanie nie brzmi, czy architektura transformatorowa osiągnęła kres swoich możliwości, ale jak będzie wyglądała kolejna faza i kto ją ukształtuje.
Postawienie LeCuna na zaawansowaną sztuczną inteligencję i modele świata jest śmiałe, ale może okazać się dalekowzroczne. Za pięć lat dowiemy się, czy odejście od głównego nurtu było właściwą decyzją, czy też branża utrzymała obrany kurs. Nadchodzące lata będą kluczowe dla długoterminowego rozwoju sztucznej inteligencji, a tym samym dla przyszłości gospodarczej i społecznej.
Nasze amerykańskie doświadczenie w zakresie rozwoju biznesu, sprzedaży i marketingu
Skupienie się na branży: B2B, digitalizacja (od AI do XR), inżynieria mechaniczna, logistyka, odnawialne źródła energii i przemysł
Więcej na ten temat tutaj:
Centrum tematyczne z przemyśleniami i wiedzą specjalistyczną:
- Platforma wiedzy na temat globalnej i regionalnej gospodarki, innowacji i trendów branżowych
- Zbieranie analiz, impulsów i informacji ogólnych z obszarów, na których się skupiamy
- Miejsce, w którym można zdobyć wiedzę i informacje na temat bieżących wydarzeń w biznesie i technologii
- Centrum tematyczne dla firm, które chcą dowiedzieć się więcej o rynkach, cyfryzacji i innowacjach branżowych
Twój globalny partner w zakresie marketingu i rozwoju biznesu
☑️Naszym językiem biznesowym jest angielski lub niemiecki
☑️ NOWOŚĆ: Korespondencja w Twoim języku narodowym!
Chętnie będę służyć Tobie i mojemu zespołowi jako osobisty doradca.
Możesz się ze mną skontaktować wypełniając formularz kontaktowy lub po prostu dzwoniąc pod numer +49 89 89 674 804 (Monachium) . Mój adres e-mail to: wolfenstein ∂ xpert.digital
Nie mogę się doczekać naszego wspólnego projektu.
☑️ Wsparcie MŚP w zakresie strategii, doradztwa, planowania i wdrażania
☑️ Stworzenie lub dostosowanie strategii cyfrowej i cyfryzacji
☑️Rozbudowa i optymalizacja procesów sprzedaży międzynarodowej
☑️ Globalne i cyfrowe platformy handlowe B2B
☑️ Pionierski rozwój biznesu / marketing / PR / targi
🎯🎯🎯 Skorzystaj z bogatej, pięciokrotnej wiedzy eksperckiej Xpert.Digital w ramach kompleksowego pakietu usług | BD, R&D, XR, PR i optymalizacja widoczności cyfrowej

Skorzystaj z bogatej, pięciokrotnej wiedzy specjalistycznej Xpert.Digital w ramach kompleksowego pakietu usług | Badania i rozwój, XR, PR i optymalizacja widoczności cyfrowej — Zdjęcie: Xpert.Digital
Xpert.Digital posiada dogłębną wiedzę na temat różnych branż. Dzięki temu możemy opracowywać strategie „szyte na miarę”, które są dokładnie dopasowane do wymagań i wyzwań konkretnego segmentu rynku. Dzięki ciągłej analizie trendów rynkowych i śledzeniu rozwoju branży możemy działać dalekowzrocznie i oferować innowacyjne rozwiązania. Dzięki połączeniu doświadczenia i wiedzy generujemy wartość dodaną i dajemy naszym klientom zdecydowaną przewagę konkurencyjną.
Więcej na ten temat tutaj:























