-
生物通官微
陪你抓住生命科技
跳动的脉搏
将思想转为语言/文字的重要突破!
【字体: 大 中 小 】 时间:2018年11月17日 来源:生物通
编辑推荐:
在大脑中植入电极,读取大脑中思想的信号,发射给附近的接收电脑,再分析为对应的语音信号,最后合成语音:这一重要进展将有望帮助各种因疾病而失语者重新“说出”心里的话。
脑外科医生Mehta开始像往常一样,在病人头皮上做一个切口,轻轻地将它分开,露出头骨。然后,他在骨头上钻了一个3英寸的圆形开口,直到厚厚的、被称为硬脑膜的坚硬覆盖物。在那个他切开的小小的观察孔里,是白花花的,血迹斑斑的灰白色大脑,正等待着他用一种类似间谍监听外国大使馆的方式来处理:窃听。Mehta小心翼翼地在患者大脑表面的左侧放置了一排扁平的微电极,这些大脑区域涉及倾听和形成语言。当被植入微电极的人意图表达话语时,微电极窃听经过灰质的电脉冲,将这些信号以无线方式传输到负责解码它们的计算机上。
这一幕好像好莱坞大片中的某个阴谋场景,实际上是长岛Feinstein医学研究所的神经外科医生Ashesh Mehta博士正在对他的癫痫病人进行手术,以确定癫痫发作的来源。不过,患者同意了更多要求——参与一个大胆的实验,其最终目标是将思想转化为言语(在大脑中植入异物,真是勇敢。。。)。这组电极和整个系统的其他部分将有望成为第一个超越运动和感觉神经元的“大脑-计算机交互系统”。如果一切顺利,它将征服该领域的“珠穆朗玛峰”:开发一个真正的大脑 - 计算机交互系统,将有望使患有脊髓损伤,闭锁综合征,肌萎缩侧索硬化症或其他导致无法说话的病人再次谈话。
霍金:早期的辅助技术
罹患ALS的已故宇宙科学家斯蒂芬霍金使用了早期的辅助技术。自2005年起霍金连手指也不能动弹,无法再用手控制计算机,只能通过眼睛与人沟通。英特尔设计了通过眼动追踪、联想输入和语音合成器播放辅助霍金和外界沟通。霍金的眼镜上,约距右颊一英寸,安装了负责侦测肌肉活动的红外线发射器及侦测器,抽动脸部肌肉将信息传达给电脑。通过凝视显示字母的屏幕,以眼球控制红外线感应器,选定荧幕上的英文字母,造句完毕后传至合成器发声。虽然据媒体报道,霍金每分钟只讲5-6个单词,但这成功地使霍金能够完成与外界的沟通。这种方法“不是很自然和直观”,科学家们希望可以通过“直接探索与语言相关的神经”做到更好。
技术的进步
感谢神经科学,工程学和机器学习的同步进展,越来越多的专家认为:开发一个能够将人心里默念“是”或“否”,或“饥饿”或“痛”或“水”解码翻译出来的系统如今已经伸手可及了。加利福尼亚大学伯克利分校的Brian Pasley说:“我们认为我们对一些编码“默念语言”的大脑信号已经有了足够的认识,这种认识可以很快地使我们能够实现一些实际用途。。。。。。即使是一点进步,也对患者有意义。我确信这是可能的。”未来,Facebook或者其他公司将会出现应用类似技术的产品,能够将思想转化为文本信息和电子邮件,没有打字或Siri(语音输入)必要了。
第一代大脑 - 计算机交互系统
第一代大脑 - 计算机交互系统(BCI)读取对应于“移动意图”在运动皮层中产生的电信号,使用软件将信号转换成操作计算机光标或机器臂的指令。 2016年,匹兹堡大学的科学家向前迈进了一大步,为受精神控制的机器人手臂增加了传感器,使其产生触觉。
匹兹堡大学的Jennifer Collinger参与开发了有触觉的机器人手臂,她和她的同事们最近获得了美国国立卫生研究院(National Institutes of Health)提供的800万美元资金,用于在匹兹堡为更多患者提供帮助,并不断改进该设备。她认为,尽管他们获得了所有热情的媒体报道,但是,预计第一个原型出现之后的十多年内,大脑 - 计算机交互系统还无法成为常规的,或者广泛可用的工具。许多项目在最初兴奋之后一直陷入挣扎。大多数此类系统需要笨重的电缆以及装有信号分析仪和其他电子设备的大盒子。Collinger说,今时今日的脑电极只能持续几年,这意味着人们需要反复进行脑部手术,而目前的BCI系统虽然在实验室中确实OK,但对于现实世界的实际使用来说还不够可靠。
语音的大脑 - 计算机交互系统
语音BCI面临更高的障碍。解释清楚地表达一个词的意图涉及读取比运动更多的脑信号,并且还不清楚涉及哪些精确的脑区域。日内瓦大学的Stephanie Martin去年因开发语音BCI的进展而获得一个奖项,她也是欧洲大脑解码大脑活动联盟的一员。她认为主要的挑战在于:语言是在广泛的大脑网络中进行编码,目前的记录技术无法以足够高的空间和时间分辨率监控整个大脑。
“大脑内的信号也非常嘈杂,编码语音的电信号往往会被其他信号淹没。。。这使得很难以高精度提取语言模式。”
波士顿大学的计算机-神经科学家Frank Guenther早在2007年开发了第一个语言BCI方式——在一位患有闭锁综合症的男性大脑中植入电极,来窃听运动皮层的“说话计划”——他们采集要发出某个音素时所需要移动舌头,嘴唇,喉头,下颚和脸颊等动作所对应的大脑信号。可惜的是,该研究只进行到获得了发出元音相关的运动大脑信号即被叫停——该项目在Guenther的合作者,神经学家Phil Kennedy与联邦卫生监管机构发生冲突后,该项目被禁止继续以及在更多患者身上植入电极。Kennedy对于该领域的缓慢进展感到异常沮丧,2014年在Belize他让一名神经外科医生在Kennedy自己的大脑中植入了一个电极,一个电源线圈和收发器,但开始表现出似乎遭受了脑损伤(致敬,为科学献身的科学家。。。)。
其他神经科学家并未受这些挫折的影响,他们正在与电气工程师合作开发植入系统,解码器和语音合成器系统,这些系统可以读取患者大脑中编码特定词语的大脑信号,并将其转化为可听的语音。Guenther表示,语音BCI总有一天会得到广泛应用,语音BCI硬件比机器人手臂便宜得多,机器人手臂可能要花费数十万美元。Guenther表示,他的2007系统“按照今天的标准是古老的。“我不认为那些困扰BCI语音系统的问题无法解决。”哥伦比亚大学的电气工程师Nima Mesgarani也这么想。他正在领导一个项目,通过像Mehta植入的电极那样采集信号,重建语音。
又有进展
值得庆幸的一点是,人类的大脑对于幻想和现实之间并没有在做出固定明确的区分。当大脑想象某事时,神经元活动在位置和模式上与它做某事时非常相似。仅仅在心里想像一个南瓜饼的形象,在视觉皮层中产生的活动与看到一个南瓜饼时非常相似;想象跳跃投篮会引起神经元活动,就像实际执行这个动作一样。
因此,就像“隐蔽的”或无声的默念:在不移动嘴唇或舌头的情况下排练你要说的话“会产生与实际说话相同的大脑活动模式,”Mesgarani说。
在意念上倾听你的沉默发言也是如此。说giraffe(长颈鹿)这个词。然后默念一次。在你的大脑内,第二个音节听起来应该比第一个音响更大,并且可能在音高上升。这些和其他一起组成了这个词的谱图。
重要的是,与意念之耳相对应的大脑活动发生在听觉皮层,这里同样接收听到的来自外界的声音。这种“重叠非常重要”,Pasley和他的同事在下个月Cerebral Cortex即将发表的一篇论文里这样阐述。这使得窃听设备可以重建内心默念的话,哪怕远非完美。马丁在伯克利时与Pasley一起进行的一项研究中,大脑植入电极的参与者被要求想象自己大声说一系列词语。遗憾的是,软件对想象单词产生的大脑信号的“翻译”,准确性仅略高于抛硬币(50%)。。。
不过,这依然是一个很大的改进。要知道在一个早期的系统中仅仅区分大脑中想象哪一个元音或辅音时得分还低于40%,更别说在大脑中想整个单词了。伯克利的实验结果足以证实概念,但仅此而已。 “这些研究中,重建说话还谈不上“可理解”。。。我们正在努力克服可理解性的障碍。”Pasley说,最好的办法就是利用机器学习或训练软件来解释与默念相对应的大脑活动,从错误中吸取教训,逐步改善。
新突破在望:75%可读懂!
为了测试他的想法,Mesgarani与Mehta合作,Mehta招募了五名癫痫病人进行研究(文章开始一幕)。在他们的手术过程中,他在听觉皮层的颞横回和颞上回这两个区域的表面上放置了一个电极网格(脑皮层电图 electrocorticography)。颞上回包含Wernicke的区域,该区域负责找出要使用的单词。两个区域负责处理语音的特征,包括音量,语调,频率,以及至关重要的音素(组成语言发音的最小单位),例如构成口语的“sh”。然后,志愿者听工作人员说数字(“1,2,3......”)和读故事30分钟。声学处理软件提取通过听取语音引起的神经活动——基本上是一系列复杂的电信号。 Mesgarani和他的团队开发的“深度神经网络”分析神经活动信号相对应的语音,推断相应的语音,将这些推断结果被转化为电信号,发送到声码器——这是一种合成器,可以根据频率和其他听觉元素等电信号的特征产生声音。
整个过程就像将法拉利的操作手册从意大利语翻译成英语再翻译成日语并回到意大利语:最终版本听起来很可能与原版完全不同!过去关于语音的大脑-计算机交互研究得到的结果通常是这样:一串几乎无法理解的声音。 “在此之前,你无法很好地从电子数据中重建说话声音,”Mesgarani说。
对他的脑 - 计算机交互系统的测试是:来自声码器的微弱声音是否与故事的声音和参与者听到的数字有任何相似之处。研究人员在bioRxiv预印本网站上发表的一篇论文中报告说,他们的确:可懂度达到了75%!(该文章尚未经过同行评审,但作者已将其提交给期刊。)
将某个人对特定语音话语的所有神经反应(重复多次)归一化,可提高重构的合成语音的准确性。 Mesgarani说,下一步是测试由想象说话引起的大脑信号的深度神经网络。他说:“以前的研究表明,有可能“检测到”编码这种未说出口的言语的信号。瓶颈一直是声学处理和口语合成器。通过改进这个潜在语音BCI的后端,他说:“我们有一个良好的框架,可以根据大脑活动产生准确和可理解的重建语音,”他称之为“为患有瘫痪和闭锁综合症的患者,向下一代人机交互系统迈出的一步......”
展望
开始旨在帮助残疾人的技术,后来可能会扩展应用到其他所有人上 - 反之亦然。在麻省理工学院举行的2017年神经技术会议上,Facebook的Mark Chevillet描述了该公司的“从思考直接打字”BCI研究,其指导思想就是一个问题:“如果可以直接将大脑思考输出打印会怎样?”他指导的这个项目的目标是“开发一个静音默念交互系统,让你产生的文字比打字快五倍,或每分钟100个字。该公司正在研究是否无创(无损大脑)地检测到高质量的神经信号并足以准确地解码成音素。如果是这样,下一步是将信号馈送到数据库中,该数据库将音素序列与单词配对,然后使用特定语言的概率数据来预测信号最可能意味着哪个单词(很像Gmail中的自动填充)。
科幻小说《三体》中描述具有更高层次文明的外星人的思维不需要说话就能被对方理解,所以他们无法隐瞒自己的想法。这个语音BCI系统看起来是不是有点像某种雏形?把我们大脑中的想法直接发射出去让对方感知,不需解释,没有误会。。。不需要焦虑如何爱情告白。。。。。。这看起来很科幻的一幕,正在悄悄进行中。