
Читання думок та штучний інтелект: неінвазивне декодування тексту мозку та сенсори для архітектур глибокого навчання від Meta AI – Зображення: Xpert.Digital
Майбутнє взаємодії людини та машини вже зараз – сигнали мозку як ключ до комунікації
Технології декодування мозку в текст: порівняння неінвазивних та інвазивних підходів
Здатність перетворювати думки на текст являє собою революційний прогрес у взаємодії людини з комп'ютером і має потенціал для фундаментального покращення якості життя людей з порушеннями комунікації. Як неінвазивна технологія Brain2Qwerty від Meta AI, так і інвазивна електрокортикографія (ECoG) спрямовані на досягнення цієї мети шляхом декодування мовленнєвих намірів безпосередньо з сигналів мозку. Хоча обидві технології мають однакову загальну мету, вони принципово відрізняються своїм підходом, сильними та слабкими сторонами. Це всебічне порівняння підкреслює ключові переваги неінвазивного методу, не применшуючи ролі та переваг інвазивних процедур.
Профіль безпеки та клінічні ризики: суттєва різниця
Найбільш суттєва відмінність між неінвазивними та інвазивними інтерфейсами «мозок-комп'ютер» (ІМК) полягає в їхньому профілі безпеки та пов'язаних з ним клінічних ризиках. Цей аспект має центральне значення, оскільки він суттєво впливає на доступність, застосовність та довгострокове прийняття цих технологій.
Уникнення нейрохірургічних ускладнень: незаперечна перевага неінвазивних процедур
Електрокортикографія (ЕКоГ) вимагає нейрохірургічного втручання, під час якого електродні масиви імплантуються безпосередньо на поверхню мозку, під тверду мозкову оболонку (зовнішню оболонку, що покриває мозок). Хоча ця процедура регулярно виконується у спеціалізованих центрах, вона несе в собі певні ризики. Статистика вказує на ризик серйозних ускладнень після таких процедур від 2 до 5 відсотків. Ці ускладнення можуть охоплювати широкий спектр, включаючи:
Внутрішньочерепні крововиливи
Кровотеча всередині черепа, така як субдуральні гематоми (скупчення крові між твердою мозковою оболонкою та павутинною оболонкою) або внутрішньомозкові крововиливи (крововилив безпосередньо в тканину мозку), може бути спричинена самою операцією або наявністю електродів. Ця кровотеча може призвести до підвищення внутрішньочерепного тиску, неврологічного дефіциту, а у важких випадках навіть до смерті.
Інфекції
Кожна хірургічна процедура несе ризик інфекції. Під час імплантації електрокардіограми (ECoG) можуть виникнути інфекції рани, мозкових оболонок (менінгіт) або тканини мозку (енцефаліт). Такі інфекції часто потребують агресивної антибіотикотерапії та в рідкісних випадках можуть призвести до незворотного неврологічного пошкодження.
Неврологічний дефіцит
Хоча метою імплантації ECoG є покращення неврологічної функції, існує ризик того, що сама процедура або розміщення електродів може призвести до нових неврологічних дефіцитів. Вони можуть проявлятися як слабкість, втрата чутливості, порушення мовлення, судоми або когнітивні порушення. У деяких випадках ці дефіцити можуть бути тимчасовими, а в інших – постійними.
Ускладнення, пов'язані з анестезією
Імплантація ECoG зазвичай вимагає загальної анестезії, яка також несе свої ризики, включаючи алергічні реакції, проблеми з диханням та серцево-судинні ускладнення.
Натомість, підхід Meta AI на основі МЭГ/ЕЕГ повністю усуває ці ризики. Цей неінвазивний метод передбачає зовнішнє кріплення датчиків до шкіри голови, подібно до звичайного ЕЕГ-дослідження. Хірургічне втручання не потрібне, що дозволяє уникнути всіх вищезгаданих ускладнень. Клінічні випробування системи Brain2Qwerty, проведені за участю 35 учасників, не виявили жодних побічних ефектів, що потребують лікування. Це підкреслює чудовий профіль безпеки неінвазивних методів.
Довготривала стабільність та захист від апаратних збоїв: перевага для хронічних застосувань
Ще одним важливим аспектом клінічного застосування є довгострокова стабільність систем та ризик відмови обладнання. З електродами ECoG існує ризик втрати їхньої функціональності з часом через рубцювання тканин або деградацію електродів. Дослідження показують, що електроди ECoG можуть мати термін служби приблизно від 2 до 5 років. Після цього часу може знадобитися заміна електродів, що передбачає ще одну хірургічну процедуру та пов'язані з нею ризики. Крім того, завжди існує ймовірність раптового відмови обладнання, який може різко перервати функціональність системи.
Неінвазивні системи, такі як розроблені Meta AI, пропонують явну перевагу в цьому відношенні. Оскільки датчики кріпляться зовні, вони не піддаються тим самим процесам біологічної деградації, як імплантовані електроди. Неінвазивні системи пропонують практично необмежені цикли обслуговування. Компоненти можна замінювати або модернізувати за потреби без необхідності інвазивного хірургічного втручання. Ця довгострокова стабільність особливо важлива для хронічного застосування, особливо для пацієнтів із синдромом блокування або іншими хронічними паралічами, які покладаються на постійне комунікаційне рішення. Необхідність повторних хірургічних втручань та ризик відмови обладнання значно погіршать якість життя цих пацієнтів та обмежать прийнятність інвазивних систем для тривалого застосування.
Якість сигналу та продуктивність декодування: детальне порівняння
Хоча безпека є незаперечною перевагою неінвазивних методів, якість сигналу та результуюча ефективність декодування є більш складною галуззю, де як інвазивні, так і неінвазивні підходи мають свої сильні та слабкі сторони.
Порівняння просторово-часової роздільної здатності: точність проти неінвазивності
Системи ECoG, в яких електроди розміщуються безпосередньо на корі головного мозку, пропонують видатну просторову та часову роздільну здатність. Просторова роздільна здатність ECoG зазвичай становить від 1 до 2 міліметрів, що означає, що вони можуть фіксувати нейронну активність з дуже малих та специфічних ділянок мозку. Часова роздільна здатність також чудова, приблизно 1 мілісекунда, що дозволяє системам ECoG точно фіксувати надзвичайно швидкі нейронні події. Ця висока роздільна здатність дозволяє системам ECoG досягати клінічно підтвердженого коефіцієнта помилок символів (CER) менше 5%. Це означає, що зі 100 символів, згенерованих за допомогою BCI на основі ECoG, менше 5 міститимуть помилки. Ця висока точність має вирішальне значення для ефективного та вільного спілкування.
Brain2Qwerty, неінвазивна система Meta AI, наразі досягає рівня помилок розпізнавання знаків від 19 до 32% за допомогою магнітоенцефалографії (МЕГ). Хоча це вищі показники помилок порівняно з ЕКоГ, важливо підкреслити, що ці результати досягаються неінвазивним методом, який не несе хірургічних ризиків. Просторова роздільна здатність МЕГ становить від 2 до 3 міліметрів, що трохи нижче, ніж у ЕКоГ, але все ще достатньо для захоплення відповідних нейронних сигналів. Часова роздільна здатність МЕГ також дуже хороша, в мілісекундному діапазоні.
Однак, Meta AI досяг значного прогресу в покращенні якості сигналу та продуктивності декодування неінвазивних систем. Цей прогрес ґрунтується на трьох ключових інноваціях:
Гібридна архітектура CNN-Transformer
Ця вдосконалена архітектура поєднує сильні сторони згорткових нейронних мереж (ЗНМ) та трансформаторних мереж. ЗНМ особливо ефективні для вилучення просторових ознак зі складних патернів нейронної активності, що фіксуються за допомогою МЕГ та ЕЕГ. Вони можуть ідентифікувати локальні патерни та просторові зв'язки в даних, які є релевантними для декодування мовленнєвих намірів. Трансформаторні мережі, з іншого боку, чудово справляються з навчанням та використанням лінгвістичного контексту. Вони можуть моделювати зв'язки між словами та реченнями на великих відстанях, тим самим покращуючи прогнозування мовленнєвих намірів на основі контексту. Поєднання цих двох архітектур у гібридній моделі дозволяє ефективно використовувати як просторові ознаки, так і лінгвістичний контекст для підвищення точності декодування.
Інтеграція Wav2Vec
Інтеграція Wav2Vec, моделі самостійного навчання для представлення мовлення, є ще одним значним досягненням. Wav2Vec попередньо навчається на великих обсягах немаркованих аудіоданих, навчаючись витягувати надійні та контекстно-багаті представлення мовлення. Завдяки інтеграції Wav2Vec у систему Brain2Qwerty, нейронні сигнали можуть бути зіставлені з цими попередньо створеними представленнями мовлення. Це дозволяє системі ефективніше вивчати зв'язок між нейронною активністю та лінгвістичними шаблонами та покращувати точність декодування. Самостійне навчання особливо цінне, оскільки воно зменшує потребу у великих обсягах маркованих навчальних даних, які часто важко отримати в нейронауці.
Мультисенсорне злиття
Brain2Qwerty використовує синергетичний ефект, поєднуючи МЕГ та електроенцефалографію високої щільності (HD-EEG). МЕГ та ЕЕГ – це взаємодоповнюючі нейрофізіологічні методи вимірювання. МЕГ вимірює магнітні поля, що генеруються нейронною активністю, тоді як ЕЕГ вимірює електричні потенціали на шкірі голови. МЕГ пропонує чудову просторову роздільну здатність і менш чутливий до артефактів черепа, тоді як ЕЕГ є більш економічно ефективним та портативним. Завдяки одночасному отриманню та поєднанню даних МЕГ та HD-EEG, система Brain2Qwerty може використовувати переваги обох методів, ще більше покращуючи якість сигналу та продуктивність декодування. Системи HD-EEG з 256 каналами дозволяють детальніше фіксувати електричну активність на шкірі голови, доповнюючи просторову точність МЕГ.
Глибина когнітивного декодування: поза межами моторних навичок
Ключова перевага неінвазивних систем, таких як Brain2Qwerty, полягає в їхній здатності не просто вимірювати активність моторної кори, а й фіксувати мовні процеси вищого рівня. ECoG, особливо при розміщенні в моторних зонах, в першу чергу вимірює активність, пов'язану з моторним виконанням мовлення, таку як рухи мовних м'язів. Brain2Qwerty, з іншого боку, використовуючи МЕГ та ЕЕГ, також може фіксувати активність з інших ділянок мозку, задіяних у складніших мовних процесах, таких як:
Виправлення друкарських помилок за допомогою семантичного прогнозування
Brain2Qwerty здатна виправляти друкарські помилки за допомогою семантичного прогнозування. Система аналізує контекст введених слів і речень і може розпізнавати ймовірні помилки й автоматично їх виправляти. Це значно покращує плавність і точність спілкування. Ця здатність робити семантичні прогнози свідчить про те, що система не лише декодує моторні наміри, але й розвинула певне розуміння семантичного змісту мови.
Реконструкція повних наборів поза навчальною вибіркою
Чудовою особливістю Brain2Qwerty є її здатність реконструювати повні речення, навіть якщо ці речення не були включені до початкового навчального набору даних. Це свідчить про здатність системи до узагальнення, яка виходить за рамки простого запам'ятовування шаблонів. Система, схоже, здатна вивчати основні мовні структури та правила та застосовувати їх до нових і незнайомих речень. Це важливий крок до більш природних та гнучких інтерфейсів "мозок-текст".
Виявлення абстрактних мовних намірів
Початкові дослідження показали, що Brain2Qwerty досягає точності 40% у виявленні абстрактних мовленнєвих намірів у непідготовлених учасників. Абстрактні мовленнєві наміри стосуються загального комунікативного наміру, що стоїть за висловлюванням, такого як «Я хочу поставити запитання», «Я хочу висловити свою думку» або «Я хочу розповісти історію». Здатність розпізнавати такі абстрактні наміри свідчить про те, що неінвазивні індекси мовленнєвого розвитку (ІМК) одного дня зможуть не лише декодувати окремі слова чи речення, але й розуміти загальний комунікативний намір користувача. Це може закласти основу для більш природної та орієнтованої на діалог взаємодії людини з комп'ютером.
Важливо зазначити, що продуктивність декодування неінвазивних систем ще не досягла рівня інвазивних систем ECoG. ECoG залишається перевершуючою з точки зору точності та швидкості декодування. Однак, досягнення в неінвазивній обробці сигналів та глибокому навчанні неухильно скорочують цей розрив.
Масштабованість та діапазон застосування: доступність та економічна ефективність
Окрім безпеки та ефективності декодування, масштабованість та застосовність відіграють вирішальну роль у широкому прийнятті та суспільній користі технологій декодування тексту мозку. У цій галузі неінвазивні системи демонструють явні переваги над інвазивними методами.
Економічна ефективність та доступність: зменшення бар'єрів
Ключовим фактором, що впливає на масштабованість та доступність технологій, є вартість. Системи ECoG пов'язані зі значними витратами через необхідність хірургічного втручання, спеціалізованого медичного обладнання та висококваліфікованого персоналу. Загальна вартість системи ECoG, включаючи імплантацію та довгостроковий моніторинг, може сягати приблизно 250 000 євро або більше. Ці високі витрати роблять системи ECoG недоступними для широкого загалу та обмежують їх використання спеціалізованими медичними центрами.
На противагу цьому, Meta AI зі своїм рішенням Brain2Qwerty на основі MEG прагне значно знизити витрати. Використовуючи неінвазивні датчики та можливість масового виробництва MEG-пристроїв, метою є зниження вартості одного пристрою до рівня нижче 50 000 євро. Ця суттєва різниця у вартості зробить неінвазивні BCI доступними для набагато більшої кількості людей. Крім того, неінвазивні системи усувають потребу в спеціалізованих нейрохірургічних центрах. Застосування можна буде знайти в ширшому спектрі медичних установ і навіть у домашніх умовах. Це вирішальний фактор для надання медичної допомоги сільським районам та забезпечення рівного доступу до цієї технології для людей у всьому світі. Нижча вартість і більша доступність неінвазивних систем мають потенціал перетворити технологію декодування тексту мозку зі спеціалізованого та дорогого лікування на більш широкодоступне та доступне рішення.
Адаптивна узагальнюваність: персоналізація проти стандартизації
Ще одним аспектом масштабованості є адаптивність та узагальнюваність систем. Моделі ECoG зазвичай вимагають індивідуального калібрування для кожного пацієнта. Це пояснюється тим, що нейронні сигнали, що реєструються електродами ECoG, сильно залежать від анатомії мозку кожної пацієнтки, розташування електродів та інших факторів, специфічних для пацієнта. Індивідуальне калібрування може бути трудомістким, вимагаючи до 40 годин навчання на пацієнта. Ці зусилля з калібрування створюють значну перешкоду для широкого використання систем ECoG.
Brain2Qwerty застосовує інший підхід, використовуючи трансферне навчання, щоб зменшити потребу в трудомісткому індивідуальному калібруванні. Система попередньо навчається на великому наборі даних МЕГ/ЕЕГ, зібраних від 169 осіб. Ця попередньо навчена модель вже містить великі знання про взаємозв'язок між нейронними сигналами та мовленнєвими намірами. Для нових учасників потрібна лише коротка фаза адаптації тривалістю від 2 до 5 годин, щоб налаштувати модель до індивідуальних характеристик кожного користувача. Ця коротка фаза адаптації дозволяє досягти 75% максимальної продуктивності декодування з мінімальними зусиллями. Використання трансферного навчання дозволяє значно швидше та ефективніше вводити в експлуатацію неінвазивні системи, тим самим сприяючи їхній масштабованості та широкій застосовності. Можливість перенесення попередньо навченої моделі новим користувачам є ключовою перевагою неінвазивних ИМК з точки зору їх широкого застосування.
Етичні та регуляторні аспекти: Захист даних та процедури допуску
Розробка та застосування технологій декодування тексту мозку порушує важливі етичні та регуляторні питання, які необхідно ретельно розглянути. Також існують відмінності між інвазивними та неінвазивними підходами в цій галузі.
Захист даних завдяки обмеженій потужності сигналу: Захист конфіденційності
Етичним аспектом, який часто обговорюється у зв'язку з інтелектуальними когнітивними інтелектуальними інтелектуальними дослідженнями (ІКІ), є конфіденційність даних та можливість маніпулювання думками. Інвазивні системи електрокардіограми (ЕКГ), які дозволяють прямий доступ до активності мозку, потенційно становлять підвищений ризик неправильного використання даних мозку. В принципі, системи ЕКГ можна використовувати не лише для декодування мовленнєвих намірів, але й для запису інших когнітивних процесів і навіть для маніпулювання думками за допомогою стимуляції із замкнутим циклом. Хоча сучасні технології ще далекі від таких сценаріїв, важливо враховувати ці потенційні ризики та розробляти відповідні запобіжні заходи.
Brain2Qwerty та інші неінвазивні системи обмежені пасивним отриманням сигналів рухового наміру. Їхня архітектура розроблена для автоматичної фільтрації невербальних моделей активності. Ослаблені та зашумлені сигнали, що фіксуються МЕГ та ЕЕГ через перешкоди шкіри голови, технічно ускладнюють отримання детальної когнітивної інформації або навіть маніпулювання думками. «Обмежений вихід сигналу» неінвазивних методів можна певною мірою розглядати як захист конфіденційності. Однак важливо наголосити, що неінвазивні ИМК також викликають етичні питання, зокрема щодо захисту даних, інформованої згоди та можливості неправильного використання технології. Вкрай важливо розробити етичні рекомендації та регуляторні бази, які забезпечують відповідальне використання всіх типів ИМК.
Шлях затвердження медичних виробів: швидше подання заявки
Регуляторний процес затвердження медичних виробів є ще одним важливим фактором, що впливає на швидкість впровадження нових технологій у клінічну практику. Інвазивні системи електрокардіограми (ЕКГ) зазвичай класифікуються як медичні вироби високого ризику, оскільки вони потребують хірургічного втручання та потенційно можуть спричинити серйозні ускладнення. Тому затвердження систем ЕКГ вимагає широких випробувань III фази з вичерпними даними про довгострокову безпеку. Цей процес затвердження може тривати кілька років і вимагати значних ресурсів.
З іншого боку, неінвазивні системи потенційно мають швидший регуляторний шлях. У Сполучених Штатах неінвазивні системи, що базуються на існуючих пристроях ЕЕГ/МЕГ та доповнюють їх, можуть отримати схвалення через процедуру 510(k) Управління з контролю за продуктами харчування та лікарськими засобами (FDA). Процес 510(k) – це спрощений процес схвалення медичних пристроїв, які є «суттєво еквівалентними» вже схваленим продуктам. Цей швидший процес може дозволити неінвазивним технологіям декодування тексту мозку швидше потрапити в клінічне використання та швидше принести користь пацієнтам. Однак важливо наголосити, що навіть для неінвазивних систем для схвалення потрібні суворі докази безпеки та ефективності. Регуляторна база для мозкових індексів (BCI) – це галузь, що постійно розвивається, і вкрай важливо, щоб регуляторні органи, дослідники та промисловість співпрацювали для розробки чітких та відповідних регуляторних шляхів, які сприятимуть інноваціям, забезпечуючи при цьому безпеку пацієнтів.
Обмеження неінвазивного підходу: технічні проблеми залишаються
Незважаючи на численні переваги неінвазивних систем декодування тексту мозку, важливо визнати існуючі технічні перешкоди та обмеження. Ці проблеми необхідно вирішити, щоб повністю реалізувати потенціал неінвазивних мозкових індексів (ІКМ).
Затримка реального часу
Brain2Qwerty та інші неінвазивні системи наразі демонструють вищу затримку декодування, ніж інвазивні системи ECoG. Brain2Qwerty декодує мовленнєві наміри лише після закінчення речення, що призводить до затримки приблизно 5 секунд. Для порівняння, системи ECoG досягають значно меншої затримки, близько 200 мілісекунд, що дозволяє здійснювати зв'язок майже в реальному часі. Вища затримка неінвазивних систем зумовлена складнішою обробкою сигналів та необхідністю аналізу слабших і шумніших сигналів. Зменшення затримки є ключовою метою подальшого розвитку неінвазивних BCI для забезпечення плавнішого та природнішого спілкування.
Артефакти руху
Системи МЕГ дуже чутливі до артефактів руху. Навіть незначні рухи голови можуть суттєво порушити вимірювання та погіршити якість сигналу. Тому збір даних на основі МЕГ зазвичай вимагає фіксованого положення голови, що обмежує можливості мобільного застосування. Хоча ЕЕГ менш чутлива до артефактів руху, рухи м'язів та інші артефакти все ще можуть впливати на якість сигналу. Розробка надійних алгоритмів придушення артефактів та створення портативних і стійких до руху систем МЕГ та ЕЕГ є ключовими напрямками досліджень для розширення спектру застосувань неінвазивних ИМК.
Сумісність з пацієнтами
Неінвазивні системи, засновані на декодуванні сигналів наміру постукування, можуть досягти своїх меж у пацієнтів з тяжкою атрофією рухової кори, як це спостерігається на пізніх стадіях бічного аміотрофічного склерозу (БАС). У таких випадках декодування на основі рухового наміру може не вдатися, оскільки нейронні сигнали, пов'язані з рухами постукування, занадто слабкі або відсутні. Для цих груп пацієнтів можуть знадобитися альтернативні неінвазивні підходи, такі як ті, що засновані на декодуванні когнітивно-мовних процесів або інших методів, таких як відстеження погляду. Крім того, важливо враховувати індивідуальні відмінності в активності мозку та мінливість якості сигналу між людьми, щоб зробити неінвазивні інтерфейси мозок-комп'ютер (ІМК) доступними для ширшої групи пацієнтів.
Взаємодоповнюючі ролі в нейропротезуванні: співіснування та конвергенція
Незважаючи на існуючі технічні труднощі та високу точність інвазивних систем ЕКГ, неінвазивний підхід Meta AI та інших дослідників революціонізує ранню інтервенційну допомогу в галузі нейропротезування. Неінвазивні мозкові втручання (БКВ) мають перевагу низького ризику та придатності для використання навіть на початку захворювання, такого як БАС. Вони можуть забезпечити ранню комунікаційну підтримку пацієнтам з новими комунікаційними труднощами, тим самим покращуючи якість їхнього життя та участь у суспільстві.
Системи ЕКГ залишаються незамінними для високоточних застосувань у повністю паралізованих пацієнтів, особливо тих, хто має синдром замкненого серця, де максимальна точність декодування та зв'язок у режимі реального часу є критично важливими. Для цієї групи пацієнтів потенційні переваги інвазивних мозкових інвазій виправдовують вищі ризики та витрати.
Майбутнє інтерфейсів «мозок-комп'ютер» може полягати в конвергенції обох технологій. Гібридні системи, що поєднують переваги неінвазивних та інвазивних підходів, можуть започаткувати нову еру нейропротезування. Наприклад, такий гібридний підхід може використовувати епідуральні мікроелектроди, які є менш інвазивними, ніж електроди ECoG, але все ще пропонують вищу якість сигналу, ніж неінвазивні датчики. У поєднанні з передовими алгоритмами штучного інтелекту для обробки та декодування сигналів такі гібридні системи можуть подолати розрив між інвазивністю та точністю, що дозволить розширити спектр застосувань. Постійний розвиток як неінвазивних, так і інвазивних технологій декодування тексту мозку, а також дослідження гібридних підходів, обіцяє майбутнє, де люди з порушеннями комунікації матимуть доступ до ефективних, безпечних та доступних комунікаційних рішень.
Підходить для цього:
Ваш глобальний партнер з маркетингу та розвитку бізнесу
☑ Наша ділова мова - англійська чи німецька
☑ Нове: листування на вашій національній мові!
Я радий бути доступним вам та моїй команді як особистого консультанта.
Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн ∂ xpert.digital
Я з нетерпінням чекаю нашого спільного проекту.
