天桥脑科学研究院

医疗数据共享大势所趋:医疗数据开放和安全使用专家研讨会报道

“数据是人工智能的石油与原动力”,这一观点在AI技术一日千里的当下,愈发凸显其重要意义。然而,在医疗领域,数据孤岛、标准化不足与共享困境始终制约着AI技术的突破和AI临床服务的落地。

为破解以上困局,2025年3月30日,国家精神疾病医学中心/上海市精神卫生中心与天桥脑科学研究院(中国)联合举办了医疗数据开放和安全使用专家研讨会。该会议围绕医疗数据分级、数据安全技术、数据共享机制等多个议题展开深度探讨,会议形成的专家建议和共识将推动和催化数据要素和新一代AI技术在精神健康领域的创新应用。

研讨会汇聚了来自于国家心理健康和精神卫生防治中心、上海市精神卫生中心、上海人工智能实验室、清华大学、复旦大学、上海交通大学、天桥脑科学研究院等多家单位的二十余位专家学者。专家们共同梳理和探讨医疗领域(以精神健康为例)数据开放共享的难点和解决方案,为推动医疗领域数据有效使用和 AI 赋能医疗献计献策。

一、高质量数据集和新一代AI技术推动精神卫生服务革新

上海市精神卫生中心院长赵敏做开场致辞,以国家将2025-2027年定为“儿科与精神卫生服务年”切入,强调当前正处于精神健康服务需求激增与供给严重不足的关键时期。着重强调了人工智能在优化精神科服务体系中的重要作用,尤其提及上海市精神卫生中心联合天桥脑科学研究院共建的“灵溪”。该项目收集了5000例抑郁、焦虑障碍患者的临床诊疗数据。在技术前景展望中,赵院长以“数据是AI的粮食”为喻,指出,在数据质量、标准化和伦理规范性等问题逐渐解决的过程中,数据要素和AI技术将极大的赋能精神科诊疗。

▷赵敏院长致辞

随后,国家精神疾病医学中心脑健康研究院办公室主任张青,代项目负责人上海市精神卫生中心医务部主任陈剑华,做题为“抑郁、焦虑诊疗数据库建设”的报告。在报告中,张青主任阐述了抑郁焦虑诊疗数据库(“灵溪”)的建设进展。数据库建设历时三年,搭建了5000例初诊抑郁焦虑症患者的诊疗数据库。该数据库整合了问诊中的语音和语义、电子病历及量表评估等多维数据。

▷张青主任报告“抑郁、焦虑诊疗数据库建设”

在AI技术应用层面,研究团队采用最新大语言模型,对千万级文本和语音进行深度解析。通过特征提取建立症状图谱,运用自然语音处理技术破解AI诊断黑箱,定位关键语义特征构建疾病诊断模型。算法也进一步考虑了关键生活事件对疾病发生发展的重要影响,为开发基于AI的认知行为疗法奠定基础。研究团队基于真实医生问诊的流程,创新性地使用数字医生与数字患者模拟对话的方式,训练两个AI模型进行模拟问诊。通过模型对抗生成问诊对话数据,通过对生成数据的评估,进一步验证问诊流程的标准化程度和逻辑性。针对于真实数据和合成数据,研究团队还开发了完整的专家标注和模型标注体系(experts in the loop,EITLs)。未来,研究团队希望能整合视频、可穿戴设备数据,包括更多生物学特征,实现从精准评估到精准干预的闭环。

张青主任强调,人工智能正在重塑精神疾病诊疗范式,其突破关键在于构建”数据-算法-场景”三位一体的闭环体系。标准化数据库建设需突破三大关卡——首先实现多模态数据融合,其次建立动态标注机制,通过experts in the loop(EITLs)的方式来不断优化AI模型,最后打通临床验证通路。数字疗法从实验室走向临床的转折点,在于形成可解释、可复制、可溯源的智能诊疗范式,这既需要技术迭代更需要医工交叉的制度创新,本次研讨会就是一个很好的创新体现。

二、保障安全的医疗数据共享至关重要

天桥脑科学研究院人工智能与精神健康前沿实验室科学家耿海洋博士做题为“医疗数据开放和安全使用的现状、展望与技术方案:以精神健康领域为例”的报告。他介绍了数据开放的意义,相关规范,医疗数据的特点,开放的现状,展望和技术方案等多个方面,尤其强调了医疗数据共享和形成共识的重要性。

基于我国精神健康领域现存的巨大诊疗需求和专业医师的极度缺乏的现状,该报告提出“数据分层、梯度开放、立体防护、多方协作”的解决路径。首先,建立五级数据开放体系,从最基础的结构字段到全脱敏数据API调用逐级深入,其中“安全沙箱”允许研究团队在封闭安全环境分析数据,保留分析日志,不接触原始信息。其次,构建四维防护机制,针对语音数据采用声纹剥离技术,视频数据采用面部模糊处理,生理信号限定72小时存储周期,疗效数据实行实时动态脱敏。

报告中重点提及合成数据技术,该技术已经取得重要进展,通过大模型生成的虚拟对话和病历在保持真实数据分布特征的同时,消除隐私泄露风险。技术,如经颅交流电刺激(tACS),因其在治疗多种神经精神疾病和神经性疾病方面的潜力而备受关注。然而,其在不同脑区的颅内反应机制尚不明确,这限制了该技术的进一步优化和临床应用。

▷耿海洋博士报告“医疗数据开放和安全使用的现状、展望与技术方案:以精神健康领域为例”

耿海洋博士提出,医疗数据开放需遵循“安全阀”与“催化剂”双重属性,既要以技术手段筑牢隐私防火墙,更需通过制度机制创新释放数据潜能。精神健康领域应率先通过隐私计算实现原始医疗数据保护,通过区块链存证实现全流程可追溯。未来医疗AI发展将呈现“数字双生”新形态,真实数据训练与虚拟数据生成的双螺旋结构,既能破解伦理困局又可加速技术迭代。

三、医疗数据开放与治理:从价值出发,跨领域共议标准化、伦理挑战及国际范例

在接下来的圆桌讨论中,与会专家针对医疗数据开放和安全使用的痛点、难点与方案设计以及抑郁、焦虑等诊疗数据库建设的机遇与挑战两个话题,从政策和价值导向、科研转化等多个角度展开了热烈讨论。讨论中,专家们高度认同医疗数据库建设和医疗数据共享的必要性。

多位专家指出,数据开放的核心目标是激发数据要素价值,助力数字疗法、医疗效率提升及基层赋能。需明确数据共享的底线,分类分级管理数据风险。安全、有效、可及的数据治理策略未来需“聚焦临床需求,价值为核心驱动力”。

Dlab首席运营官韩云芸表示Dlab高度重视数据在医疗AI发展中的价值,并提出,当前医疗数据存在碎片化、标准化不足的问题,需投入大量资源解决。Dlab(由天桥脑科学研究院Scientific Data Foundry孵化而来),以数据和人工智能作为双核驱动,以高质量的领域专家和自动化的作业工具,提供专业化数据采集、标注和合成的全链条专业化服务;致力于帮助合作伙伴提高科研效率和实现模型算法的持续升级;进而推动科学、医疗和人工智能等相关领域的学术发展以及产业进程,促进人类智能和人工智能的深度交互。

▷韩云芸女士发言

随后,关于数据价值的议题,专家们进行了积极而深入的讨论。其中上海交通大学医学院临床研究中心副研究员张维拓认为,搞清楚用数据做什么非常关键,比如用于企业模型训练的数据和用于监管验证的数据就不能混用。用于监管和验证就是发挥数据价值的重要方向。信通院华东分院人工智能与大数据事业部主任陈俊琰认为,数据能够打破信息孤岛,支持精准诊疗、分级诊疗,同时应鼓励探索医疗数据潜在商业价值。从应用角度出发,有专家提出,数据在药物研究、监管、心理健康风险监测等方面能发挥重要作用。与会者一致认为,从价值出发,才能更好地探索数据用途,最大化其价值。

▷张维拓副教授发言

▷张俊琰主任发言

另外,针对耿海洋博士报告中提到的合成数据,也有多位与会专家谈到自己看法。张维拓副研究员认为,将合成数据用于模型验证,可以用来确保数据集在监管机构的可信度;陈俊琰主任也提到用算法生成数据,或可提升数据集的完整性和实用性。

四、以国际数据库建设和共享作为参考

讨论环节中,上海市精神卫生中心副院长王振、复旦大学公共卫生学院党委书记罗力、上海交通大学计算机科学与工程系副教授吴梦玥、清华大学电子工程系助理教授张超等与会专家,通过已有可参考案例给医疗数据库开放共享提供了很多启发。比如UK Biobank作为政府主导的数据库,其数据向全球研究者开放,使用时需通过申请并说明研究用途;欧盟健康数据空间(European Health Data Space, EHDS)则整合欧盟27国包括挪威、冰岛等关联国家的健康数据,通过制定统一的数据分类、安全标准及传输规则,确保成员中心互认,推动了跨中心数据共享,其患者拥有数据控制权,可选择是否授权数据使用,并随时行使“被遗忘权”(数据删除权)。这些都是医疗数据库建设和共享可以参考的范例。

▷王振副院长发言

▷罗力书记发言

五、医疗数据共享大势所趋

最后,国家精神疾病医学中心脑健康研究院院长徐一峰总结道:

医疗数据共享是大势所趋,不仅是AI技术赋能精神卫生服务的核心驱动力,更是实现国家“精神卫生服务年”战略目标的关键技术支撑。然而,现在仍存在数据碎片化、伦理安全风险及标准化滞后等挑战。与会专家的集思广益,为解决以上挑战提供了重要思路:其一,以“价值导向”指导医疗数据共享治理框架的制定,通过分类分级机制明确数据应用场景,确保合规与伦理底线;其二,加速多模态数据标准化,建立统一采集与标注规范,避免偏差;其三,探索“共建共享”模式,参考上海数据交易所“重大疾病行业创新中心”经验,以成本共担、权益共享激发多方参与动力。

▷徐一峰院长总结