Группа американских ученых создала нейронную сеть, которая может считывать активность коры головного мозга во время речи, преобразовывать полученные сигналы в код и воспроизводить сказанное человеком. В будущем, говорят ученые, это может помочь глухонемым людям «заговорить».
Американские ученые Джозеф Мейкин, Дэвид Мозес и Эдвард Чанг научили искусственный интеллект (ИИ) считывать активность головного мозга и понимать, что человек говорил в этот момент. Итоги их исследования были опубликованы в журнале Nature Neuroscience.
Пока что модель нейронной сети, созданная группой ученых, работает лишь на ограниченном объеме исходных данных с заранее вычлененной мозговой активностью, отвечающей за речь человека. Тем не менее им удалось добиться точности воспроизведения сказанного в 97%.
Как отмечает доктор Кристиан Херф из Маастрихтского университета, ученые «достигли такого уровня точности, которого не удавалось достичь до сих пор никому».
Сами исследователи же говорят о том, что созданный ими ИИ может стать прорывной технологией, которая подарит немым людям возможность говорить. «Мы пока еще далеки от этого, но думаем, что эта технология может стать базой для речевого протезирования»,— цитирует господина Мейкина The Guardian.
Для создания искусственного интеллекта, способного читать мысли, ученые попросили нескольких добровольцев зачитать наборы коротких фраз вслух. Для самой нейросети при этом отбирались только те фразы, которые были повторены хотя бы тремя разными участниками. В итоге в распоряжении ученых оказалось около 50 фраз, состоящих из 250 уникальных слов. Во время чтения к участникам эксперимента были подсоединены электроды, которые позволяли считывать их мозговую активность. Полученные данные были загружены в программу, которая трансформировала их в наборы чисел. Затем в дело вступала непосредственно нейросеть, которая попыталась воспроизвести из полученных цифр изначально зачитанный текст. При первых попытках система выдавала полную бессмыслицу. Но в нее были загружены оригинальные фразы, с которыми она каждый раз сравнивала собственный выдаваемый текст. Вместе с тем система вычленяла логику построения фраз. В результате множества прогонов ученым удалось достичь небывалой точности воспроизведения с долей ошибок всего 3%.
Правда, сами ученые признают, что, несмотря на полученный успешный результат, до применения этой технологии еще далеко.
Ведь их нейросеть училась на очень маленьком объеме данных, а при увеличении их объема процент ошибок резко возрастает. Впрочем, в случае, если для эксперимента берется речь лишь одного человека, система учится быстрее. А значит, она может стать идеальным помощником для немых людей в будущем.
Кирилл Сарханянц
Если не затронут речевой центр.
Комментарии
Ну вот, а тут пипл ещё парится на счёт подкожных NFC. =)
Речь (то, что должно восполнить речевое протезирование) - суть и есть процесс мышления.
Со своим недоделанным ИИ они пытаются зайти с другой стороны...
Речь (то, что должно восполнить речевое протезирование) - суть и есть процесс мышления.
ЧИВООООО?
Ну, типа, вторая сигнальная система, и всё такое. Но сравнение (мышления и речи), конечно, корявое.
Имеется в виду, что они снимают некую биоэлектрическую активность и пытаются её как-то интерпретировать по адаптируемым алгоритмам. Ничего атинаучного в этом нет, пока они не начнут выдавать эту тему за трансляцию мыслительной деятельности, или за непосредственный съём мыслей человека.
Я бы назвал этот процесс, скорее "чтением кинетики жевательной мышцы" (глазной, лобной, челюстной, височной...) - кому что нравится, нужное добавить/подчеркнуть. А так-то — да, Хокинг "разговаривал", чем не речевое протезирование?
Хорошая статья, смешная
давно, до нейроных сетей попадался фантастический рассказ.
Во время допросв к герою применили технологи чтения его мыслей - все,что он думал, тут же звучало в динамиках.
Подход был такой. Когда человек мыслено что то проговаривает про себя (не будем путать мышление и процесс речи) возникают микронапряжения/микродвижения гортани, примерно такие же, что и при самой речи (вот это читатели АШ могут проверить на себе без всяких приборов), которые считывались и расшифровывались. По сути - одно и тоже, что и описано в статье. "Продвинутый детектор лжи" + технологии распознавания речи. В них нейроные сети (совершено незаслуженно именуемые ИИ) используются давно.
Кстати, в распознавалках речи выделяют два типа задач.
Дикторонезависимая командная распознавалка - когда нужно угадывать ограниченное количество фраз для любого диктора.
И распознавание речи конкретного диктора.
Подходы несколько разные.
В реальных продуктах используют оба подхода.
В том же яндекс-навигаторе проходит добучение под конкретного таксиста.
миелофон?
Его гибрид с полиграфом
Пусть обычный переводчик хороший для начала сделают, на него сперва посмотрим.
А первый комп, за который ты "сел", какой был если не секрет?
Вот таким пользуюсь: deepl, на основе нейросети. Мало языков, зато легко общаешься хоть с англоговорящим, хоть с бразильцем.
Те чтобы ИИ смог определить что говорит человек, в него надо сначала загрузить данные того что человек собирается сказать. Элементарно Ватцон! Только не понятно а зачем тогда определять?
money
Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.
Вот мы еще на шажок ближе к
Смарт-каска, с блоком чтения о чем думает солдат..