AMiner学术头条▲大脑所想直接合成文本或语音,华裔教授AI解码脑电波

许多患有神经疾病的患者因丧失语言能力 , 需要依赖特定的通讯设备进行沟通 , 这类设备大多利用脑机接口或者头部、眼睛的动作来控制光标 , 以选择屏幕上的字母 , 从而拼出他们想说的句子 。 但是 , 这个蹦单词的过程 , 实在无法与人类的正常说话过程相比 。
3月30日 , 《自然-神经科学》发表了美国加州大学旧金山分校华裔教授EdwardChang及同事开发的一款脑电波AI解码器 , 能够将大脑活动信号直接转化为句子文本 。
AMiner学术头条▲大脑所想直接合成文本或语音,华裔教授AI解码脑电波
文章图片
具体而言 , 研究人员首先通过电极记录受试者说话时的神经活动信号 , 并用特定语句和神经信号特征之间的关联数据训练AI算法 , 试验证明 , 训练后的机器翻译算法能够准确地解码受试者的神经活动 , 并将其接近实时地翻译为句子文本 , 错误率低至3% 。
从大脑“读取”人的意图
说话似乎是一件毫不费力的事 , 但实际上说话却是人类执行的最复杂的活动之一 。 十多年前 , 科学家首次从大脑信号中解码语言 , 但是一直以来 , 语言解码的准确性和速度远远低于自然语言交流 。
目前一些用于大脑控制打字的脑机接口技术 , 其实依赖的是头部或眼睛的残余非语言运动 , 或者依赖于光标控制以逐个选择字母并拼出单词 , 这种方式目前可以帮助瘫痪的人通过设备每分钟输出多达8个单词 。
但与流程自然语言交流时每分钟150个单词的平均速度比起来 , 现有技术的输出速度还是太慢了 。
AMiner学术头条▲大脑所想直接合成文本或语音,华裔教授AI解码脑电波
文章图片
使用特制语音合成器与外界交流的史蒂芬·霍金
理论上来说 , 脑机接口技术可以通过直接从大脑“读取”人的意图 , 并使用该信息来控制外部设备或移动瘫痪的肢体 , 来帮助瘫痪的人完成说话或运动 。
为了获得脑机接口直接解码语言更高的精度 , 研究人员利用了机器翻译任务与从神经活动解码语音到的相似性 。 也就是说 , 和机器翻译类似 , 解码语言也是从一种语言到另一种语言的算法翻译 , 两种任务实际上映射到同一种输出 , 即与一个句子对应的单词序列 。 只不过 , 机器翻译的输入内容是文本 , 而解码语言的输入内容是神经信号 。
于是 , 研究人员盘点了机器翻译领域的最新进展 , 并利用这些方法训练循环神经网络 , 然后尝试将神经信号直接映射为句子 。
AMiner学术头条▲大脑所想直接合成文本或语音,华裔教授AI解码脑电波
文章图片
【AMiner学术头条▲大脑所想直接合成文本或语音,华裔教授AI解码脑电波】语言相关的神经活动解码过程
具体而言 , 研究人员通过电极记录四名受试者他们大声读出句子时的神经活动 。 之后 , 研究人员将这些数据添加到一个循环神经网络中 , 从而将规律性出现的神经特征表示出来 , 这些神经特征可能与言语的重复性特征(比如元音、辅音或发音器官接收的指令)相关 。
接着 , 研究人员通过另一个循环神经网络逐字解码这种算法表示 , 形成句子 。 研究人员发现 , 明显参与言语解码的脑区 , 同样参与言语生成和言语感知 。 通过这种机器翻译算法 , 研究人员在一名受试者身上进行试验 , 结果证明通过神经活动解码为口头句子的错误率低至3% 。
此外 , 如果利用某人的神经活动和言语对循环网络进行预训练后再在另一名受试者身上进行训练 , 最终的解码结果有所改善 , 这意味着这种方法在不同人员之间或许是可转移的 。 但是 , 还需要开展进一步的研究来更加完整地调查这个系统的功能 , 将解码范围扩展到研究所限语言之外 。
脑机接口+AI合成语音
直接通过解码大脑活动信号来合成文本或语音 , 不只是一项科幻般的“读心术” , 更是一种颇有前景的治疗方案 。
控制光标进行单词拼写 , 只是离散字母的连续串联 , 而解码语言则是一种高效的通信形式 。 与基于拼写的方法相比 , 直接语音或文本合成具有诸多优点 , 除了以自然语速传递无约束词汇的能力之外 , 直接语音合成还能捕获语音的韵律元素 , 例如音调、语调等 。


推荐阅读