Ny LMU-studie visar: Hur artificiell intelligens verkligen gör läkare bättre | Ludwig Maximilians-universitetet i München

Xpert-förhandsversion

Available in 27 languages 📢

Publicerad den: 26 maj 2026 / Uppdaterad den: 26 maj 2026 – Författare: Konrad Wolfenstein

Ny LMU-studie visar: Hur artificiell intelligens verkligen gör läkare bättre | Ludwig Maximilians-universitetet i München – Bild: Xpert.Digital

Livräddare eller risk? Hur "tänkande" AI helt förändrar sjukhusets vardag

EU-lagstiftningen tvingar fram ett nytänkande: AI på sjukhus kommer att behöva ”tänka högt” i framtiden

Artificiell intelligens har länge hyllats som en räddare inom sjukvården och bekämpar kronisk tidspress och akut personalbrist. En banbrytande ny studie från Tyskland visar dock att huruvida en algoritm räddar liv eller, i värsta fall, till och med provocerar fram feldiagnoser, beror på en avgörande detalj som hittills har fått lite uppmärksamhet. Det räcker helt enkelt inte för att en AI ska leverera korrekta resultat – den måste också kunna förklara sin resonemangsprocess för läkaren steg för steg. Ett fascinerande experiment med över 100 radiologer avslöjar varför så kallade "chain-of-thought"-modeller drastiskt minskar den diagnostiska felfrekvensen, varför klassiska differentialdiagnoser plötsligt blir kognitiva fällor och varför dessa resultat radikalt kan förändra inte bara medicinsk praxis utan även den globala AI-marknaden och framtida EU-förordningar.

Relaterat till detta:

Effekten av medicinska förklaringar från stora språkmodeller på diagnostisk noggrannhet inom radiologi

När AI tänker själv: Hur förklarbar artificiell intelligens förändrar medicinsk diagnostik

Ett rimligt svar räcker inte – de som blint litar på AI äventyrar patienters liv

Stora språkmodeller är inte längre begränsade till laboratorieexperiment. De kan hittas på advokatbyråer, redaktioner, managementkonsultföretag – och i allt högre grad på sjukhus. Men medan den offentliga debatten ofta kretsar kring frågan om artificiell intelligens en dag kommer att ersätta läkare, ställer forskare vid LMU München, LMU Universitetssjukhuset, Karlsruhe Tekniska Högskola och Bayreuths universitet en betydligt mer nyanserad fråga som är direkt relevant för den kliniska vardagen: Under vilka förhållanden förbättrar AI-stöd faktiskt diagnostisk kvalitet – och när, i värsta fall, är det ens skadligt?

Svaret, som publicerades i tidskriften npj Digital Medicine av forskargruppen lett av Stefan Feuerriegel, professor vid LMU München School of Management, och Boj Friedrich Hoppe från LMU Universitetssjukhus, är lika tydligt som det är tankeväckande: Den primära frågan är inte om en AI ger en korrekt diagnos. Det är hur den förklarar diagnosen. Detta resultat är betydelsefullt eftersom det lyfter hela debatten om AI inom sjukvården till en ny nivå – och rör sig bort från den binära frågan "AI ja eller nej?" till den mer nyanserade frågan om hur man utformar människa-maskin-interaktion.

Experimentet: 101 radiologer och fyra tillstånd

Studien är metodologiskt anmärkningsvärd. I ett randomiserat experiment presenterades 101 radiologer med verkliga kliniska fall som involverade radiologisk avbildning – inklusive fynd från datortomografi och magnetisk resonanstomografi. Deltagarna ombads att formulera en diagnos i fritext, vilket är betydligt mer utmanande än att bara välja ett flervalsalternativ och återspeglar den kliniska verkligheten mycket mer exakt.

Deltagarna tilldelades slumpmässigt en av fyra grupper. Den första gruppen arbetade helt utan AI-stöd och fungerade som kontrollgrupp. Den andra gruppen fick endast en enda diagnostisk rekommendation från den multimodala språkmodellen. Den tredje gruppen fick en differentialdiagnos, dvs. en lista över möjliga sjukdomar med graderade sannolikheter. Slutligen fick den fjärde gruppen en så kallad tankekedja: Modellen avslöjade sitt resonemang steg för steg – den namngav relevanta bildfunktioner, förklarade kliniska indikationer, diskuterade exklusionskriterier och gjorde sitt resonemang begripligt för läkaren.

Resultatet: En skillnad på tolv procentenheter och vad som ligger bakom den

Resultaten är tydliga. Radiologer som använde den stegvisa förklaringen med tankekedjan uppnådde en diagnostisk noggrannhet som var 12,2 procentenheter högre än kontrollgruppen utan AI. Detta är inte en marginell effekt. I den kliniska vardagen, där tusentals rapporter genereras dagligen, motsvarar denna skillnad ett betydande antal feldiagnoser som kunde ha undvikits.

Enkla diagnostiska utdata och differentialdiagnoser klarade sig däremot betydligt sämre. Resultatet gällande differentialdiagnos är särskilt avslöjande: I fall där AI-modellen gav en felaktig bedömning följde läkare listan oftare än de skulle ha gjort med en enkel enskild diagnos. Differentialdiagnosen förmedlar ett intryck av fullständighet. Den presenterar flera möjligheter och skapar därmed känslan av att det diagnostiska utrymmet redan har täckts helt. Detta leder till att läkare minskar sitt eget kritiska tänkande – särskilt när det gäller sällsynta eller komplexa tillstånd som inte ens förekommer i den presenterade listan.

Automationsbias: Den underskattade risken i den kliniska vardagen

Det fenomen som LMU-studien så imponerande illustrerar är känt i forskningslitteraturen som automatiseringsbias. Det beskriver människors tendens att följa rekommendationer från automatiserade system även när deras egen uppfattning eller expertis motsäger dem. Automatiseringsbias är inte ett tecken på inkompetens. Det är ett djupt mänskligt kognitivt mönster som härrör från evolutionär heuristik: de som litar på effektiva system sparar kognitiva resurser. I de flesta vardagliga situationer är detta funktionellt. Inom medicinen kan det dock vara dödligt.

Tidigare studier har visat att automatiseringsbias är betydligt mer uttalad under tidspress. En studie om AI-stödt kliniskt beslutsstöd inom patologi mätte att även om AI-integration ledde till en statistiskt signifikant total förbättring av prestandan, genererade den samtidigt en automatiseringsbias på 7 procent – vilket innebär fall där initialt korrekta bedömningar ändrades av felaktiga AI-rekommendationer. Tidspress ökade inte frekvensen av biasen, men den ökade dess intensitet. Parallellerna till radiologisk praxis, där radiologer på vissa sjukhus måste producera mer än hundra rapporter per skift, är uppenbara.

LMU-studien visar nu att sättet AI förklaras på är en avgörande faktor för att mildra denna risk. Steg-för-steg-förklaringar gör modellens resonemang transparent och låter läkaren jämföra det med sin egen expertis – en process som gör det lättare att identifiera fel i modellen och samtidigt uppmuntrar aktivt kognitivt engagemang snarare än passiv acceptans.

Förklarbarhetens ekonomi: Vad bra AI egentligen kostar

Ur ett ekonomiskt perspektiv öppnar LMU-studien upp en viktig debatt som ofta förbises i marknadsdrivna tillväxtprognoser för AI inom hälso- och sjukvården. Den globala marknaden för artificiell intelligens inom hälso- och sjukvården uppskattades till cirka 28 till 39 miljarder USD för 2025 och förväntas växa till över 500 miljarder USD år 2034, med årliga tillväxttakter överstigande 34 procent. Dessa siffror beskriver dock främst marknaden för AI-produkter – inte det faktiska ekonomiska värde som dessa produkter genererar i klinisk användning.

Det är just här problemet ligger. En systematisk granskning som publicerades 2025 om den ekonomiska utvärderingen av AI inom radiologi analyserade mer än 1 800 publikationer och fann endast 21 studier som faktiskt kvantifierade kostnaderna, besparingarna eller kostnadseffektiviteten hos AI-verktyg. Den stora majoriteten av bevisen är baserade på modellerade scenarier, inte på verkliga kliniska implementeringar. Ännu allvarligare är att verkliga data visar att AI inom radiologi inte automatiskt sparar kostnader. Det ekonomiska värdet är starkt kontextberoende: det tenderar att vara positivt vid hög volym, brist på radiologer eller resurskrävande uppgifter. Det kan dock också vara negativt – om otillräcklig specificitet leder till fler uppföljningsundersökningar, eller om användningsbaserade licensieringsmodeller omintetgör de effektivitetsvinster som uppnås med höga fallvolymer.

Förklarbarheten av AI-utgifter är inte bara ett akademiskt lyxproblem – det är en konkret ekonomisk variabel. En AI som uppnår 12,2 procentenheter högresegennoggrannhet när dess utgifter förklaras med hjälp av en tankekedja genererar betydligt högre kliniskt och ekonomiskt värde än en AI som helt enkelt ger en diagnos, förutsatt att modellen har samma kvalitet. Översatt till kostnadstermer innebär detta: undvikna feldiagnoser, minskade uppföljningsundersökningar, kortare behandlingstider och en lägre felfrekvens. Fördelarna är verkliga, även om de är svåra att kvantifiera i euro – eftersom feldiagnoser har direkta medicinska kostnader såväl som indirekta kostnader på grund av förlängda sjukhusvistelser, juridiska risker och minskat förtroende för hälso- och sjukvårdssystemet.

Förklarbar AI som en strategisk nödvändighet inom regelverket

EU:s AI-lag, som har varit i kraft sedan augusti 2024, klassificerar nästan alla kliniska AI-tillämpningar – diagnostiska verktyg, behandlingsplaneringssystem och digitala övervakningstillämpningar – som högrisk. Detta medför omfattande skyldigheter: teknisk dokumentation, risk- och kvalitetshantering, kontinuerlig övervakning och uttryckliga krav på transparens. Från och med augusti 2028, efter det uppdaterade digitala omnibuspaketet, som EU-rådet och parlamentet preliminärt enades om den 7 maj 2026, kommer de fullständiga kraven för tillverkare av medicintekniska produkter att gälla.

Den centrala regelkärnan i dessa regleringar är precis: Högrisk-AI måste vara begriplig för användarna. Beslutsprocesser måste vara transparenta och rekommendationer måste vara ifrågasättbara. Vad EU:s AI-lag normativt kräver bekräftas empiriskt av LMU-studien: Förklarbarhet är inte bara ett efterlevnadskrav. Det är en förutsättning för säker användning av AI i kliniska situationer med hög risk. Den nya regleringen tvingar således tillverkare av AI-system inom hälso- och sjukvården att ta hänsyn till arten och kvaliteten på sin output – inte bara den tekniska noggrannheten hos sina modeller.

Ur ett strategiskt perspektiv skapar detta en intressant marknadsdynamik. Leverantörer som tar sin förklaringskraft på allvar och investerar i transparenta, tankekedjaliknande utdataformat kommer att vara bättre positionerade ur ett regulatoriskt perspektiv. Samtidigt kommer de påvisbart att uppnå bättre kliniska resultat. Konkurrensen om AI-lösningar inom sjukvården kommer därför i framtiden att skifta från frågan om teknisk modellnoggrannhet till frågan om klinisk användbarhet – ett paradigmskifte med betydande konsekvenser för hela branschen.

En ny dimension av digital transformation med 'Managed AI' (Artificial Intelligence) - Plattform & B2B-lösning | Xpert Consulting

En ny dimension av digital transformation med 'Managed AI' (Artificial Intelligence) – Plattform & B2B-lösning | Xpert Consulting - Bild: Xpert.Digital

Här får du lära dig hur ditt företag kan implementera skräddarsydda AI-lösningar snabbt, säkert och utan höga inträdesbarriärer.

En hanterad AI-plattform är din heltäckande och bekymmersfria lösning för artificiell intelligens. Istället för att behöva hantera komplex teknik, dyr infrastruktur och långa utvecklingsprocesser får du en färdig lösning skräddarsydd efter dina behov från en specialiserad partner – ofta inom bara några dagar.

De viktigaste fördelarna i korthet:

⚡ Snabb implementering: Från idé till färdig applikation på dagar, inte månader. Vi levererar praktiska lösningar som skapar omedelbart mervärde.

🔒 Maximal datasäkerhet: Dina känsliga uppgifter stannar hos dig. Vi garanterar säker och korrekt behandling utan att dela data med tredje part.

💸 Ingen ekonomisk risk: Du betalar bara för resultat. Höga initiala investeringar i hårdvara, mjukvara eller personal elimineras helt.

🎯 Fokusera på din kärnverksamhet: Koncentrera dig på det du gör bäst. Vi tar hand om hela den tekniska implementeringen, driften och underhållet av din AI-lösning.

📈 Framtidssäkert och skalbart: Din AI växer med dig. Vi säkerställer kontinuerlig optimering och skalbarhet, och anpassar modellerna flexibelt till nya krav.

Mer information här:

Den hanterade AI-lösningen - Industriella AI-tjänster: Nyckeln till konkurrenskraft inom tjänste-, industri- och maskintekniksektorerna

När AI är övertygande: Hur "troliga fel" kan bli farliga för läkare

Kompetensbrist som katalysator för okritisk AI-implementering

Resultaten från LMU-studien får särskild betydelse mot bakgrund av den strukturella bristen på kvalificerad personal inom det tyska sjukvårdssystemet. Radiologi är en specialitet som i Tyskland – liksom i många andra europeiska länder – är under betydande personalpress. Samtidigt exploderar volymen av bildfynd på grund av den ständigt ökande användningen av datortomografi, magnetresonanstomografi och andra bildtekniker. Denna press skapar ett sammanhang där frestelsen är stor att snabbt anamma AI-rekommendationer istället för att kritiskt granska dem.

Automatiseringsbias är särskilt farlig i detta sammanhang. När en radiolog är under tidspress och AI:n presenterar en lista med rimliga diagnoser, är vägen till okritisk acceptans kort. LMU-studien visar att väl utformad, förklarande AI-output kan motverka detta – men bara om läkare aktivt läser och granskar förklaringarna. Detta kräver att AI-system integreras i kliniska arbetsflöden på ett sådant sätt att tillräckligt med tid återstår för denna kritiska utvärdering. De som introducerar AI enbart som ett verktyg för acceleration, utan att beakta kvaliteten på interaktionen, riskerar att uppnå motsatsen till vad som önskas: snabbare, men mer felbenägna diagnoser.

Bertelsmann-stiftelsen uppskattar att Tyskland går miste om produktivitetsvinster på upp till 16 procent på grund av bristande AI-expertis – motsvarande miljarder i förlorade intäkter. Inom hälso- och sjukvårdssektorn är denna effekt ännu mer komplex att mäta eftersom värdet inte uttrycks i intäkter utan i hälsoutfall. Ändå är den underliggande logiken densamma: AI:s potential kan bara förverkligas om användarna är tillräckligt kompetenta för att kritiskt utvärdera AI-utgifter – och om AI-systemen själva är utformade på ett sådant sätt att kritisk utvärdering är både möjlig och uppmuntras.

Differentialdiagnoser och den bedrägliga trygghetskänslan

Ett av de mest subtila fynden från LMU-studien förtjänar särskild uppmärksamhet eftersom det motsäger klinisk intuition. Differentialdiagnoser anses vara ett tecken på klinisk noggrannhet inom medicin. De visar att en läkare överväger flera möjligheter och inte bestämmer sig för tidigt för en diagnos. Men i interaktion med ett AI-system kan just denna typ av utdata vara problematisk.

Den underliggande mekanismen förklaras enkelt psykologiskt: En lista med differentialdiagnoser ger intrycket att problemet redan har övervägts ingående. Informationstätheten i denna utdata är hög, vilket signalerar kognitiv lättnad. Följaktligen tenderar läkare att tänka mindre bortom de listade diagnoserna och att utöva mindre självvärdering. Om modellen producerar felaktiga eller ofullständiga differentialdiagnoser i detta ögonblick – vilket språkmodeller säkerligen gör – är sannolikheten för felaktig antagande högre än med en enda diagnos tydligt markerad som preliminär.

Tankekedjans förklaringar motverkar detta eftersom de explicit identifierar osäkerheter, avslöjar exkluderande faktorer och därmed kommunicerar modellens epistemiska öppenhet. Läkare uppmanas att ifrågasätta modellen – och är därför bättre rustade att korrigera den där den är bristfällig.

Generaliserbarhet: Vad fyndet betyder utöver radiologi

Stefan Feuerriegel, korresponderande författare till studien, betonar uttryckligen att resultaten sträcker sig långt bortom radiologi. Stora språkmodeller används i allt högre grad för beslut i vardagen och på jobbet – inom juridik, ekonomi, managementkonsulting och utbildning. Överallt där människor använder AI-resultat som grund för följdbeslut uppstår samma frågor: Granskar jag rekommendationen kritiskt, eller antar jag den av effektivitetsskäl? Förstår jag resonemanget, eller förlitar jag mig på AI:n för att resultatet låter trovärdigt?

Varningen mot "övertygande fel" är särskilt viktig. Språkmodeller kan producera förklaringar som verkar strukturellt korrekta och retoriskt övertygande – men är faktiskt felaktiga. Detta är ett välkänt fenomen, som i forskningslitteraturen kallas "hallucinationer", och kan inte helt elimineras genom att bara optimera modellernas prestanda. Även om stegvisa förklaringar erbjuder en förbättrad möjlighet till kritisk granskning, skyddar de inte helt mot denna risk. Ansvaret för det slutgiltiga beslutet ligger alltid hos människan.

Ur ett ekonomiskt perspektiv kan detta tolkas som ett argument för differentierad användarkompetens: De som vill dra hållbar nytta av AI-verktyg – vare sig det är inom medicin, juridik eller managementkonsulting – måste inte bara veta hur man använder dem, utan också hur man utvärderar deras kostnader. Denna kompetens kan läras in, men kräver riktad utbildning och professionell utveckling. Institutioner som investerar i denna kompetens kommer att använda AI-system mer effektivt än de som behandlar AI som ett autonomt beslutsfattande verktyg.

Förklarbar AI och förtroendeproblemet: Ett systemiskt perspektiv

Förtroende är inte en mjuk faktor inom medicin – det är ett hårt ekonomiskt värde. Patienter som litar på sina läkare är mer benägna att följa behandlingsrekommendationer, rapportera symtom tidigare och få bevisligen bättre behandlingsresultat. Detta förtroende har nu utökats till att inkludera ytterligare en dimension: det omfattar i allt högre grad förtroende för de AI-system som är involverade i diagnos och behandlingsplanering.

Konceptet förklarbar AI – i litteraturen kallat XAI, Explainable Artificial Intelligence – tar upp just denna förtroendefråga. Det handlar inte om att göra modeller mindre komplexa, utan om att göra deras beslutsprocesser förståeliga för relevanta användargrupper. "Förståelig" är inte en absolut term: det som är en hjälpsam steg-för-steg-förklaring för en erfaren radiolog kan vara för detaljerad eller missvisande för en allmänläkare utan specialisering inom medicinsk avbildning. Därför måste XAI betraktas inte bara ur ett tekniskt perspektiv, utan också med användaren och kontexten i åtanke.

Ur tillverkarnas perspektiv innebär detta att det inte är trivialt att utveckla effektiva AI-förklaringar. Det kräver en djup förståelse för kliniska arbetsflöden och de kognitiva kraven hos respektive användargrupp. Tankegångsförklaringar, som presterade överlägset i studien, är inte bara ett tekniskt utdataformat – de är resultatet av en noggrant utformad interaktion. Denna design kräver resurser, men den skapar påvisbart värde – för patienter, läkare och samhället.

Regulatoriska skyldigheter och klinisk verklighet: En pragmatisk synvinkel

Övergångsperioderna i EU:s AI-lag ger tillverkare och operatörer av AI-system inom hälso- och sjukvården tid att anpassa sig. Enligt de nya reglerna i Digital Omnibus Package är den slutgiltiga tidsfristen för tillverkare av medicintekniska produkter augusti 2028. Denna period bör dock inte misstas som en uppskjutning, utan snarare som en strukturerad övergång där resultaten från klinisk forskning – såsom de från LMU-studien – kan införlivas i produktutvecklingen.

Mer specifikt innebär detta för sjukhus och sjukhustekniker: Utvärderingen av AI-system bör inte bara mäta teknisksegennoggrannhet, utan även kvaliteten på resultatet vid klinisk användning. "Thought-chain"-uttalanden och liknande transparenta utdataformat bör beaktas som urvalskriterier vid upphandling. Utbildning för läkare som använder AI-verktyg måste uttryckligen ta upp automatiseringsbias och kritisk granskning av AI-rekommendationer. Slutligen bör kliniska kvalitetssäkringssystem dokumentera antagandet av AI-rekommendationer för att tidigt identifiera systematiska fel.

För utvecklare och leverantörer av AI-lösningar inom hälso- och sjukvården är budskapet tydligt: Att investera i förklarbarhet är inte ett valfritt tillägg. Det är den avgörande hävstången som omvandlar en tekniskt sund modell till ett kliniskt effektivt och regelefterlevande verktyg.

Det övergripande temat: Hur människor och maskiner kan bli smartare tillsammans

LMU-studien bidrar i slutändan till en större fråga som sträcker sig långt bortom radiologi och medicin: Hur måste AI-system utformas så att de förstärker mänskligt tänkande istället för att ersätta det eller – ännu värre – undergräver det? Svaret är: genom transparens, spårbarhet och genom att aktivt uppmuntra till kritisk granskning.

Detta är inte ett tekniskt romantiskt ideal. Det är en empiriskt bevisad, ekonomiskt sund och etiskt nödvändig designprincip. I ett hälsovårdssystem under ökande prestationspress, beroende av digitala verktyg och samtidigt skyldigt att uppfylla de högsta kvalitetsstandarderna, kan frågan "Hur förklarar er AI sina rekommendationer?" snart bli den viktigaste upphandlingsfrågan i kliniska miljöer.

En bra AI-respons är inte bara korrekt – den är verifierbar. De som konsekvent omsätter denna princip i utveckling, upphandling och driftsättning av AI-system kommer inte bara att uppnå bättre medicinska resultat. De kommer också att vinna det förtroende som den djupgående digitaliseringen av hälso- och sjukvården snarast behöver – förtroendet från läkare, patienter och samhället som helhet.

🎯🎯🎯 Datadriven B2B-branschhubb som en kvasi-intern lösning

Den kvasi-interna lösningen: Hur Xpert.Digital stänger operativa luckor inom B2B-marknadsföring och -försäljning – Smart Content-Driven Business - Bild: Xpert.Digital

Xpert.Digital är en datadriven B2B-branschhubb som leds av Konrad Wolfenstein . Företaget fungerar som en extern, nästan intern lösning för industriella partners och täcker operativa luckor inom marknadsföring, innehåll och försäljning – utan att kräva ytterligare resurser från kundsidan.

Mer information här:

Den kvasi-interna lösningen: Hur Xpert.Digital stänger operativa luckor inom B2B-marknadsföring och -försäljning – Smart Content-Driven Business

Din globala partner för marknadsföring och affärsutveckling

☑️ Vårt affärsspråk är engelska eller tyska

☑️ NYTT: Korrespondens på ditt modersmål!

Konrad Wolfenstein

Jag och mitt team står gärna till er förfogande som er personliga rådgivare.

Du kan kontakta mig genom att fylla i kontaktformuläret här helt enkelt ringa mig på +49 7348 4088 965. Min e-postadress är [email protected]:eller

Jag ser fram emot vårt gemensamma projekt.