认知科学在过去十年取得了巨大进展,几年前还被认为是天马行空的科学技术,现在已经迅速成为世界各地前沿实验室的标准方法和日常工作。这反映了现代神经科学的跨学科思维,科学家正在用跨学科方法来攻克有关人类思维和认知的深层问题。与此同时,不断涌现的革命性技术也让这一切变得可能。
每年,天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCI)和《科学》杂志(Science)都会举行一场认知科学会议,在会上各方集中讨论认知科学领域的最新突破性成果。在本次会议期间,来自中美两国的科学家们介绍了前沿研究成果,并热情回答了听众们的问题。
毛颖教授是TCCI转化中心主任、华山医院院长、中华医学会神经外科分会主任(候任),他还担任上海市抗癌协会副理事长、中华医学会神经外科分会副主任委员、中国医师协会神经外科分会副会长、上海市医学会神经外科分会主任委员等职务。毛颖教授曾经于美国密歇根大学Crosby神经外科实验室从事博士后研究,并在日本、中国和美国的多所学术机构深造。2017年,毛颖教授荣获了由上海市医学会颁发的上海医学发展杰出贡献奖。
毛颖教授介绍了机器学习(ML)在神经医疗诊断中三个方面的应用,分别是医疗图片处理、脑电仪(EEG)数据加工以及手术协助中应用到的机器学习技术。
首先,机器学习能够应用到放射组学(Radiomics)研究中的图像处理、特征提取以及分类预测等方面,大大提高数据处理效率。毛颖教授通过机器学习技术,开发了应用于脑部肿瘤诊断的人工智能系统。该系统中的核心机器学习模型,通过对 300 余个病例进行训练,最终对脑部肿瘤诊断精确性能够达到 85% 以上。
此外,在脑电仪的应用基础上,毛颖教授开发了更加精确的深脑刺激方法。传统的电极刺激方法范围较大,刺激不精确,且强度较不可控,易引发癫痫。而毛颖教授实验室开发的新型刺激方法能精确刺激各个脑区,为病人大脑制作高精度的功能图谱。毛颖教授举例他们对中央沟(central sulcus)周围脑区(主要感受皮层和主要运动皮层)的制图,并强调,该“被动功能性制图”技术在病人清醒和麻醉的情况下都可使用。
机器学习还为临床神经手术带来了一系列的变革。传统的神经开颅手术不仅耗费人力,手术时程还过长。近年来,算法、人工智能以及虚拟现实技术应用的逐渐发展为临床带来了立体定向神经外科技术,但该技术仍旧耗时费力。
毛颖教授介绍到,如今,通过结合手术机器人以及前沿人工智能技术,他们开发出了新一代的神经手术机器人,更好地解决了传统手术的短板。尽管如此,毛颖表示,新的技术无法替代神经外科医生。这项新技术的作用在于帮助医生更精准快捷地完成手术。
最后,毛颖教授总结道,机器学习技术为临床医生提供了更加有力的工具,进一步的加强了神经手术的诊断精确度以及治疗有效性。这项技术的核心,在于使手术过程变得更加简单,帮助医生做出更加正确的诊断。
然而,要想更好地发展这项技术,我们还需要更多的研究人员参与技术研发,更多的诊断病例训练模型。他相信,我们将很快揭开大脑“黑箱”的神秘面纱,证明机器学习应用于诊断技术的有效性。我们应当相信机器学习技术,也要更加相信新一代的神经外科医生。
1)关于医疗人工智能与神经外科医生。机器学习的诊断准确率是否高于神经外科医生?
毛颖教授表示,要想让人工智能达到与临床医生相同的诊断精确度,我们还需要更多的病例来训练人工智能。但无论训练进行到何种程度,医生都是无可替代的。
2)关于医疗人工智能的灵敏性及特异性。评判医疗人工智能的表现水平,存在灵敏度(sensitivity)及特异性(specificity)两项指标。目前的AI水平达到诊断要求了么?
毛颖教授认为,目前我们还没有明确的量化诊断标准,为了强化人工智能表现,还需要进一步优化人工智能结构以及采集更多的优质数据。但他同时对这项技术的发展持充足信心:目前在TCCI与复旦大学附属华山医院合作建立的脑疾病研究中心,有超出700个床位以及200余名神经外科医生。这些科学家们的帮助,能使我们尽快提升医疗人工智能的诊断表现。
*注:灵敏度=真阳性人数/(真阳性人数+假阴性人数)*100%,为正确诊断病人的机率;特异性=真阴性人数/(真阴性人数+假阳性人数))*100%,为正确诊断非病人的几率。
3)关于医疗人工智能的未来。二十年后,人工智能在医疗领域的应用会是什么样的?
毛颖教授认为,首先,随着医疗机器人的发展,大脑手术的创口将越来越小。如今我们正在着力使手术的开颅尺寸减小、深入大脑的路径变小,我们或将最终实现脑部无创医疗。另外,毛颖教授还表示,随着人工智能的普及,我们将进一步解决城乡医疗资源分配不均问题。如今,毛颖教授所在的医学中心正与乡村合作,通过医疗机器人结合5G技术,指导乡村医生进行脑部手术。未来,我们或许还能够进一步帮助欠发展国家、地区,提高他们的医疗水平。
Edward Chang是加州大学旧金山分校神经外科学教授,神经外科系主任。他专长于通过高级脑功能定位手术保留大脑语言功能区。他还是加州大学伯克利分校和加州大学旧金山分校神经工程与假肢中心联合主任,该中心由加州大学旧金山分校和伯克利分校共同设立。他的研究主要关注人类行为(例如语言和情绪)背后的大脑机制。举例来说,通过研究与说话时的身体运动相关的大脑活动,他的团队成功的使用计算机解码这些大脑信号并将其转换为人工合成的语音。这项技术最终有可能为丧失了说话能力的瘫痪人群提供语言假肢。他曾获Blavatnik 全国生命科学桂冠和美国国立卫生院院长创新奖。他同时还是美国霍华德休斯医学研究所(HHMI)学者成员。
Edward Chang教授希望探究人类听觉皮质中出现的高水平的知觉调控,譬如人们是如何将听觉信号转化为音素表征的。他在演讲中分享了听觉和语言系统衔接中起到关键作用的一些因素。
在近十年来,Edward Chang实验室在探究语音信息的神经加工时,侧重于以下几个方面:我们在进行语音信息处理时关注的三个因素分别为,这场对话的内容是什么,这时加工的信息包括加工语音信息中的元音、辅音等;其次是,这句话是如何说出来的,例如在一个句子中,由音调高低着重强调的重点信息,最后是,这句话是由谁说出来的。这对理解语义有重要作用,譬如,知道一句话是由男性还是女性说出口,便于我们理解音调信息。
在列举近期的研究发现时,Edward Chang教授提到了此前与华山医院之间的合作经历。为了探究音调信息的神经加工,他希望能与中国研究者合作。这是因为与英文语言系统不同,对于诸如中文在内的有声调语言而言,音调信息非常重要:在这类语言中,音调信息决定了文字的语义信息。
Edward Chang教授表示,他非常荣幸能够在毛颖教授之后进行发言,这是因为此前他曾与华山医院的中国团队合作,一同探究了在有声调及无声调语言使用者中,人类皮质对音调信息的编码有何不同。研究对比了中美两国的被试,发现在单个电极记录条件下,两组被试对音调加工没有显著差异,而在神经元群水平上,他们仅在中文使用者中发现了具有音调特殊性的编码活动。
1)人类是通过同一组神经元加工不同的口音吗?
Edward Chang教授表示,这是一个很好的问题。首先,口音是不同文化对同一个词语的不同发音,而同音异位(allophonic)词是同一文化中对同一个音素的不同发音。因此,我们能在跨文化和文化内部两种条件下分别探究这两种情况;这能告诉我们语言及言语在多大程度上是由我们习得的知识决定的。最简单的答案是,能分辨口音的地方人口通过大脑颞上回(STG)语音信息处理器来分辨不同的语音集群;而当我们研究的样本增多,我们能够提取出的就是基本的语音类别信息,如元音及辅音表征等。
2)语音封包(speech envelope)中的情绪效应会对言语的解读和解码带来什么问题?
Edward Chang教授认为,除了传递语义信息,英语的重音规律与我们的情绪感受息息相关。研究证明抑郁症人口在言语表达中的重音使用更少,语调更加平缓。而倾听他人的发言有时也能使我们感受到情绪,这可能是因为大脑听觉加工区域与负责情绪加工的边缘区域(limbic area)相联。我们的后续研究也许会着眼于这些话题。
3)如今能否通过高精度的核磁功能成像技术,从(STG)部位的活动解码言语表征?
Edward Chang教授认为这当然是可能的。但fMRI的问题在于,虽然它的空间精度很高,但时间精度太低。我相信结合更先进的计算技术,这个领域能得到很快的发展,但本质上的局限,即较低的时间精度,是难以规避的。与此同时,我们可以利用其他的技术来进行解码,例如EEG等。
4)在时间上,针对言语特征的神经元反应是稳定的么?此外,在听觉皮层的表征是否稳定,这又如何影响我们对于言语特征的解码呢?
这些特征的表征是十分稳定的。尽管如此,在我们几个月前发表 于PNAS的研究中,我们训练了住院病人学习汉语音调。这项研究显示听觉皮层具有一定的可塑性,但从长时程的角度来看,言语表征还是十分稳定的。此外,我们还从信号-噪声的角度研究了这个问题。非常有意思的特点是,如果在播放言语的同时加入噪声,听觉皮层只会加工言语信息,而不是背景噪声。此前我们还进行过另外一项研究,即在双耳实验中,被试佩戴的两只耳机如果同时播放不同的言语饮品,颞上回只会加工被试注意到的那只耳机中播放的言语。
5)您是否有关注双语/多语使用者的语言表征?人们学习新语言的年龄会带来什么影响?
Edward Chang教授表示,目前我们研究项目的重点就是这个领域。我认为这个问题非常重要,因为过往研究中大部分的精力都聚焦在英语语言的神经表征上。全世界有超出 7000 种语言,它们都享有一定的共性,但也有许多不同。在未来的 5-10 年中,我们将与华盛顿医院以及来自全球的研究所进行合作,寻找普遍语音编码。我认为这会是一个非常重要的研究。
6)用来解码言语的神经元,是否能够同时解码音乐?
Edward Chang教授回答说,在目前正在进行的一项研究中,我们探讨了言语跟音乐的神经元表征。我们发现一组神经元同时负责英语以及音乐的处理。我们正在尝试用fMRI进行信号处理,但这或许远达不到侵入式成像技术的精确度。
Evelina Fedorenko:
人工神经网络作为人类大脑语言理解的模型
Fedorenko博士是一位研究语言系统的认知神经科学家。她于2002年获得了哈佛大学的学士学位,并于2007年从麻省理工学院获得博士学位。随后,她获得了美国国立卫生研究院国家儿童健康与人类发展研究所颁发的 K99R00 职业发展奖。2014 年,她成为了哈佛医学院/马萨诸塞州波士顿总院的教职员工。她于 2019 年回到麻省理工学院,目前在大脑认知科学系和麦戈文脑科学研究所担任副教授。Fedorenko博士使用fMRI、EEG / ERP、MEG,颅内记录和刺激以及计算模型等技术来研究成人和儿童,研究对象中包括患有发育性和后天性脑部疾病的患者。
Evelina Fedorenko教授的研究关注人类思维以及大脑中与语言相关的计算及表征,她的报告主题是通过人工神经网络理解人类语言的表征及其背后的神经元活动。
语言功能问题一直困扰着科学家们。针对这个问题,从哲学层面一般存在两种假设:其一是,语言的功能在于交流思想,另一种是,在演化进程中,语言让我们具有了更深邃的思维。她认为哲学无法解决这两种假设,我们应当从实证的角度为这个问题找到答案。
在这次报告中,她通过两支实证研究反对了语言的功能是为了承载更复杂思想:1)语言与复杂思想、推理能力之间的关系;2)语言用于交流的实用特征。
在第一支研究中,Fedorenko教授列举了一系列来自功能性成像技术及针对大脑损伤患者的研究。这些研究显示,高级语言能力不与认知执行功能(如注意、工作记忆等)共享认知资源。与之相对的是,语言与社会认知功能存在极大的关联性。
在第二支研究中,Fedorenko教授列举了自然语言的形态一般便于高效传递信息;随后,她报告了通过人工智能网络进行的语言预测研究。此前的语言模型存在的问题是,我们没有能从语言中提取语义的算法。但近年来,随着人工智能算力的提升,出现了如生成预训练转化器(GPT)这样的语言预测算法。这证明从语言中提取语义是可能的。我们这样的语义生成算法与人脑进行对比研究,探讨了人脑是如何处理语言的。研究发现,语言预测能力更强的网络也能够更好地预测人类神经活动。
1)您认为语言不是产生复杂思维的基石,那么您有什么其他的假设吗?
Evelina Fedorenko教授表示,这是一个非常有趣的大问题,目前针对人类为何有如此高级的智能,也存在着许多不同的解释。对此我唯一想要表达的是,人们总是低估大脑的智能,依次来表达我们演化出了一个新的大脑区域,因此能进行新的计算。我觉得我们应当以一种更为宏观的视角看待大脑同路,从视觉到语言等认知功能都是紧密相连的,而我们的整体认知远比目前认为的要更为精密。
2)人类大脑是如何表征不同语言的呢?
Evelina Fedorenko教授表示,首先对于多语种使用者而言,表征不同语言的系统虽然有一些细化的差别,但总体上是相同的。当然我们也发现,多语种使用者的语言网络表征要比单语种使用者的网络表征更加高效。当然,未来我们也想要多语种使用者在表征语法差异较大的语言时有什么不同的表现。
3)您提到了语言不能支持其他的认知能力,那么从另一方面来看,什么认知能力支持了语言呢?
Evelina Fedorenko教授认为,这取决于提问者想要探究什么方面。举个例子,当我们在阅读的时候,语言肯定需要视觉系统的支持;另外两种较为热门的假设分别是社会推理能力以及认知执行功能。但我认为从计算的角度来看,语言系统更像是一种“自给自足”的认知功能,它可能与其他的认知功能存在着交互关系。
4)语言网络占据了大脑中很大一部分,这部分脑区纯粹仅用于语言加工么?
Evelina Fedorenko教授表示,首先我们不清楚语言加工脑区的具体边界,它们中的一部分可能与其他的认知功能相关。我认为语言脑区的体积较大,可能与我们对语言的依赖相关,譬如知识主要通过语言存储。目前我们仍在从解剖学联结以及功能性联结两方面来探讨语言系统内的信息流动,或许未来能为这个问题给出答案。
5)这个问题是关于语言生成的。为什么新语言的生成(如社区手势语言)更多的是由儿童及未成年人一同发展出来的呢?
Evelina Fedorenko教授认为提问者想要针对的问题与乔姆斯基提出的语言生成论相关,这可能也设计了人类早期大脑具有更强的可塑性。但我认为语言不是自动形成的,除非你把语言用在交流的场合。来自爱丁堡大学的Simon M. Kirby 曾在一项研究中将成年人放在交流环境里,并让他们开发出了一种能用于交流的微型语言(mini-language),这部分证明了成人并非无法开发新语言。尽管如此,随着人类年龄增大,人们的认知灵活性显然是随之下降的,这可能也导致了成年人进行这项任务不像儿童那样轻松。