Loading… 比打字快5倍?科学家利用大脑电极实现将思想直接转化为语言!_TOM财经
正文
Qzone
微博
微信
比打字快5倍?科学家利用大脑电极实现将思想直接转化为语言!
2019-02-14 12:16 前瞻网   

 

像往常一样,脑外科医生一开始在病人的头皮上开了一个口子,轻轻地把它分开,露出头骨,然后,他在骨头上钻了一个3英寸的圆孔,深度直达一个被称为硬脑膜的又厚又硬的覆盖层。他把硬脑膜切开,在他做的这个小切口里,有一个闪闪发光、带着血斑点的锡灰色大脑,这颗大脑准备让脑外科医生像间谍监视外国大使馆那样接近自己:脑外科医生在大脑上安装了窃听器。

长岛范斯坦医学研究所(Feinstein Institute for Medical Research)的神经外科医生Ashesh Mehta正在为他的癫痫病人进行脑外科手术,以确定癫痫的病因。但这位病人同意做更多的事情:他愿意参与一项大胆的实验,为什么说这项实验是一项大胆的实验呢?因为这项实验的最终目标是将思想直接转化为语言。

在手术台上,Mehta小心翼翼地在病人大脑的左侧表面插入了一组扁平的微电极阵列,覆盖了大脑聆听演讲和构思演讲的区域。当一个人在听心里的声音说他想说的话时(通常速度非常之快,所以几乎是没有意识的),通过偷听他大脑灰质中的电脉冲,然后将这些信号无线传输到电脑解码,电极和系统的其余部分就将会超越“运动”和“感觉”成为第一个“大脑-计算机接口”。

如果一切顺利的话,这项实验将会征服该领域的“珠穆朗玛峰”:研究人员将可以开发一种大脑-计算机界面,使脊髓受伤、闭锁综合症、ALS或其他瘫痪状态的人能够再次说话。

这项技术不需要让这些病人有能力说出莎士比亚的独白。因此,越来越多的专家认为,得益于神经科学、工程学和机器学习方面的平行进步,一个能够解读一个人是否在默默地说“是”、“不是”、“饿了”、“痛了”或“想喝水”的系统现在已经唾手可得。

加州大学伯克利分校的布莱恩·Pasley说:“我们认为我们对编码无声语言的大脑信号已经有了足够的了解,我们很快就能做出一些实用的东西出来,即使是最微不足道的事,对病人来说也非常有意义,我相信这是可以实现的。”

在未来,Facebook和其他公司也会设想类似的技术,帮助消费者将想法直接转化为短信和电子邮件,而无需打字或使用Siri。

第一个大脑-计算机接口(brain-computer interfaces, BCI)读取运动皮层中与运动意图相对应的电信号,并使用软件将这些信号转换成操作计算机光标或机械手臂的指令。2016年,匹兹堡大学(University of Pittsburgh)的科学家们则更进一步,他们在一只由大脑控制的机械臂上增加了传感器,这样它就能产生触觉。

尽管媒体对它们进行了大肆报道,但在大脑-计算机接口最初的原型出现十多年后,它们并没有在人们日常生活中得到广泛应用,甚至对于大多数人来说还触不可及。许多项目在最初的兴奋过后都陷入了苦苦挣扎。匹兹堡大学的Jennifer Collinger曾经帮助研发了触觉机械手臂,她说,大多数这样的系统需要笨重的电缆,以及装有信号分析仪和其他电子设备的大盒子。她和她的同事最近从美国国立卫生研究院(National Institutes of Health)获得了800万美元的拨款,用于资助在匹兹堡的更多患者,并继续改进该设备。

此外,Collinger说,目前的大脑电极只能使用几年,这意味着人们需要反复进行脑部手术,而且目前的BCI系统虽然在实验室里表现还可以,但在现实生活中还不够可靠。

语言BCI面临着的障碍则还要高得多。解读一个词的意图需要阅读更多的大脑信号,而不仅仅只是运动信号,并且目前我们还不清楚大脑的哪些区域参与了这个过程。日内瓦大学(University of Geneva)的斯蒂芬妮·马丁(Stephanie Martin)于去年凭着她在语言BCI方面的研究进展赢得了一个奖项,她说,目前主要的挑战是语言编码过程,这个过程发生在一个广泛的大脑网络中,而我们目前的记录技术无法以足够高的时空分辨率来监控整个大脑。

我们大脑是非常嘈杂的,编码语言的脑电活动往往会被其他脑电信号淹没。她说:“这使得高准确度提取语音模式变得非常困难。”

马丁是一个欧洲大脑活动语音解码联盟的成员,她说,目前针对瘫痪、患有ALS或其他疾病而无法说话的病人所涉及的辅助技术“并不是非常自然和直观”。在现有的技术中,患者需要盯着屏幕上显示的字母,然后头皮电极再感知编码眼球运动和位置的脑电波,所选的字母将会拼写成单词,语音合成器再大声说出这些单词。已故宇宙学家斯蒂芬·霍金患有肌萎缩性侧索硬化症,他就是使用这样的系统。但马丁说,科学家们认为,如果“直接利用语言的神经关联”的话,他们可以做得更好。

早在2007年,波士顿大学的计算神经学家Frank Guenther就开发出了第一个语言BCI。研究人员将电极植入一名患有闭锁综合症的男子的大脑中,监听他大脑运动皮层的讲话意图。他们接收到与移动舌头、嘴唇、喉部、下颚和脸颊相对应的信号,这些信号会产生特定的音素(尽管这项研究只涉及元音)。

在Guenther的合作者,神经病学家Phil Kennedy与联邦健康监管机构发生冲突、并被禁止在更多的病人身上植入电极之后,这个项目就结束了。Kennedy对该领域的缓慢进展感到失望,2014年,伯利兹的一名神经外科医生为他的大脑植入了电极、一个功率线圈和收发器,起初他似乎遭受了脑损伤。

其他神经科学家没有被这些名誉上的挫折所吓倒,他们正与电子工程师合作开发一种囊括植入物、译码器和语音合成器的系统,这种系统可以读取病人想要表达的词语(编码在大脑信号中),这些词语随后将会被转换成听得见的语音。语言BCI有一个方面可能有一天会使得这种技术得到广泛使用,那就是,Guenther说:“这种硬件要比花费数十万美元的机器人手臂便宜得多。”

Guenther说,他在2007年的系统“以今天的标准来看已经相当古老了”,我不认为(阻碍语言BCI的)问题是无法解决的。

哥伦比亚大学(Columbia University)的电气工程师尼马·梅斯加拉尼(Nima Mesgarani)同样认为这些问题可以得到解决。Nima现在正在领导一个项目,旨在使用像Mehta植入的那些电极所接收到的信号来重新组织语言。

这种设备能够工作的原理是人类的大脑不会在幻想和现实之间做出硬性的区分。当大脑想象某件事的时候,神经元的活动在位置和模式上与它正在做某事的时候极其相似。南瓜派的大脑想象图像在视觉皮层产生的活动与你看到一个真正的南瓜派时非常相似;想象跳投会激发的神经元活动和真的跳投所产生的的神经元活动也别无二致。

Mesgarani说,无声语言也是如此:在不动嘴唇或舌头的情况下彩排你要说的话,“会产生和实际说话一样的大脑活动模式”。

在心里听你自己的无声演讲也一样。伯克利的Pasley说:“把它想成大脑的耳朵”。说长颈鹿(giraffe)这个词,然后再默念。在你的大脑中,这个单词第二个音节应该比第一个音节听起来更响亮,而且可能会提高音高。Pasley解释说,这些和单词的其他性质构成了这个单词的光谱图。

至关重要的是,与“大脑的耳朵”相对应的大脑活动发生在听觉皮层,而听觉皮层也能听到外界的声音:Pasley和他的同事在下个月的《大脑皮层》(brain cortex)杂志上发表的一篇论文中称,这种重叠“是实质性的”。

这使得“窃听设备”可以粗略地重建我们脑中无声的语言。在马丁和Pasley于伯克利大学进行的一项研究中,研究人员要求在大脑中植入了电极的参与者去想象自己正在大脑中大声说出牛仔、游泳、蟒蛇和电话等一系列单词。不幸的是,软件对“勺子”和“战场”等词的大脑信号的解释准确性仅略高于50%。但这已经是一个很大的进步了,早期的系统在识别大脑活动在秘密讲话的编码信号时,它分辨哪些是元音哪些是辅音(甚至都不是一个完整的单词)的正确率要低于40%。

伯克利分校的研究结果足以证明这一概念,但也只是仅此而已。Mesgarani 说:“(从那项研究和类似的研究中)重建的语言根本无法理解,我们正在努力克服这个可理解性障碍。”

他说,克服这个障碍最好的方法就是通过机器学习,或者训练软件来解释与无声语言相对应的大脑活动,从它自己的错误中学习,然后逐渐变得更好。

为了验证他的想法,Mesgarani和Mehta进行了合作,Mehta为这项研究招募了5名癫痫患者。在他们的手术过程中,他在病人听觉皮层的两个区域的表面放置了电极网格(这个平面阵列被称为皮质电图),这两个区域分别是颞横回和颞上回。后者包含威尔尼克语言区(该区域负责确定使用哪些词)。这两个脑回区域都涉及到处理语言的特征,包括音量、语调、频率,以及至关重要的音素——构成口语的最小的声音单位,如“sh”。

然后志愿者们听其他人说数字(一、二、三等),并听30分钟的故事,在这个过程中,声学处理软件提取了志愿者由于听语言所引起的神经活动(本质上是一组复杂的脑电信号序列)。随后,Mesgarani和他的团队开发的一个“深层神经网络”(基本上可以推断出对应神经活动的语言声音)再对这种活动进行分析,分析得到的推论又会被转换回电信号,发送到一个声音编码器(声音编码器是一个可以根据电信号的特征,如频率和其他听觉元素产生声音的合成器)。

整个过程就像把一辆法拉利的操作手册从意大利语翻译成英语,再从英语翻译成日语,然后又从日语翻译成意大利语一样:最终的版本听起来和原版经常根本不一样,这也是之前关于大脑-计算机语音接口研究所得到的结果:一串几乎听不懂的声音。Mesgarani说:“在这之前,你甚至不能很好地根据电子数据来重建语言。”

他的大脑-计算机界面所面临的测试是声音编码器发出的微小声音是否与故事的声音和参与者听到的数字有任何相似之处。科学家们在bioRxiv预印本网站上发表的一篇论文中称,这个大脑-计算机界面系统的语言正确率达到了75%,相比之下,早期语言BCI正确率只有一半多一点;这篇论文尚未经过同行评审,但作者已将其提交给一家期刊。

将某人对某一特定语言表达方式的所有神经反应(多次重复)平均起来,可以提高重建合成语言的准确性,读取阵列中128个电极的更多读数也有一样的效果。

Mesgarani说,研究的下一步是测试通过想象说话所引起的大脑信号的深层神经网络。他说,“以前的研究已经表明,”探测编码这种无声语言的信号是“可能的”;语言处理和语言合成器才是研究一直以来的瓶颈。

他说,通过改进潜在语言BCI的后端,“对于从大脑活动中产生准确、可理解的重建语言,我们有了一个很好的框架”,他称之为“迈向下一代人机交互系统的一步……为瘫痪和闭锁综合征患者服务”。

一开始为残疾人提供的技术可能会惠及到其他所有人(两者顺序可能会反过来)。在麻省理工学院(Massachusetts Institute of Technology) 2017年举行的一次神经技术会议上,Facebook公司的马克•切维莱特(Mark Chevillet)将该公司“打字的想法”BCI研究的指导思想描述为一个问题:“如果你能直接用大脑打字会怎么样?”

他指导的这个项目旨在“开发一种无声的语音界面,让你以比打字快5倍的速度生成文本,即每分钟100个单词”。该公司正在研究能否非侵入性地检测到高质量的神经信号,以准确解码成音素(因为即使是最狂热的facebook用户也不太可能为了打字快点而进行脑部手术)。如果可以的话,下一步就是将这些信号输入一个将音素序列与单词配对的数据库,然后使用特定于语言的概率数据来预测这些信号最有可能表示的单词(很像Gmail里面的自动填充)。

Chevillet 在会议上说:“这不是科幻小说。”

Connor Feng 

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com)

 

责任编辑: 3976DBC TO006

责任编辑: 3976DBC TO006
广告