领潮新品类·

您现在的位置:首页 >领潮新品类·

中文医疗健康知识图谱在电子病历中不可或缺

原创 2018-07-18 10:38:00 来源:开放知识图谱

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。

以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。

然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。

在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。

一、知识图谱用于医疗文本的结构化与规范化

在临床中,大量的医疗文书是以文本形式存在。电子病历的文本包含了病人病史、家族史、症状,以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。

为使得文本更好的结构化,需要用到实体识别、关系抽取技术,根据技术的不同,也会用到一些基础的文本分词或是词法分析等技术,在这个过程中,可以手工标注语料,用各种监督学习方法,传统的有 CRF,新的方法可以基于 RNN 网络;也可以基于字典方法,利用症状、检查、药品与疾病名称的知识库。为了免除语料标注的麻烦,笔者基于症状知识库以及症状语法结构做了远程标注,再进行 CRF 建模,取得了比较好的效果。

然而,仅仅是结构化也是不够的,因为医疗术语存在大量的同义词或上下位词,比如说,同一症状具有多种多样的文本表达形式,如“期前收缩”、“过早搏动”与“早搏”是同义词。再比如说,一个症状常常被不同的词语修饰以表达略有不同的语义含义,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位词。

再以疾病为例,目前医学诊断大量采用了 ICD 编码,但 ICD 编码结构并不包含完整的上下位关系。以中文 ICD 编码[1] 中的“特指急性风湿性心脏病”为例,它的上位词有“特指风湿性心脏病”和“急性风湿性心脏病”,这两种疾病拥有共同的上位词“风湿性心脏病”,“风湿性心脏病”又有上位词“心脏病”。而这几种疾病之间的关系和层次结构并没有在 ICD 10 中通过编码结构表示出来,只是通过编码的首字母“I”将它们划分到了循环系统类疾病中。如过我们需要希望找到某一类患者,无法通过一个ICD编码获得,而是需要人工的选择多个 ICD 编码。从另一个角度而言,对于同一个疾病,医生在编写 ICD 编码时,可粗可细,也会给病历的自动处理带来困难。

为解决上述问题,首先需要现有的编码系统有对应的图谱方式描述,至少具有上下位和同义词关系,进一步的,也可以通过电子病历中的文本诊断,利用图谱,对电子病历数据进行自动编码。

二、图谱表示用于关联知识与数据

电子病历中存储着大量的数据,但仅在病历数据内部做挖掘及分析是有局限性的,难以发现数据中蕴含的深层次的价值。将病历数据以 RDF 格式发布,形成病历图谱,并与开放知识库(如中文症状知识库)相关联,将对疾病预测、用药推荐和相似病人发现等打下良好的基础。

比如说,在电子病历用药时,写的会是药品名称,但是,在分析的时候,通常医生会用大类名称,如 ACEI 类药物,或是 ARB 类药物等等。这时候,病历图谱需要和药品图谱关联,就可以更为方便地做各种临床分析,再比如说,Topfed 项目将 TCGA 项目中发布的癌症病人的基因数据进行 RDF 化,并与其它开放数据集关联,进而做了一些有趣的分析,获得了 ISWC2013 的 Semantic Web Challenge 大奖。例如输入一个病人的特征,找到库中与他类似的病人群,根据相似性找到相应的药物方案,如果病人对此药物有抗药性,可以寻找药品库的同类药物。

三、总结

虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。针对上述问题,OMAHA联合中文开放知识图谱(Open KG),系统性的梳理和汇集知识图谱相关的技术和工具,并向整个社区开放相关的技术资源,一起促进医学知识图谱数据的开放与互联。

更多资料欢迎大家移步OMAHA联盟官网知识服务平台查看。

如果你也对促进医疗数据开放、医学信息标准化、行业研究和生态建立感兴趣,欢迎进入OMAHA基金会官网了解更多。

OMAHA联盟官网链接:http://www.omaha.org.cn/portal.php

OMAHA基金会官网链接:http://foundation.omaha.org.cn

参考资料:

[1]疾病和有关健康问题的国际统计分类第十次修订本(ICD-10)[M].人民卫生出版社.1996.

[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47

原标题:中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨

      中国网是国务院新闻办公室领导,中国外文出版发行事业局管理的国家重点新闻网站。本网通过10个语种11个文版,24小时对外发布信息,是中国进行国际传播、信息交流的重要窗口。

      凡本网注明“来源:中国网”的所有作品,均为中国互联网新闻中心合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。

电话:0086-10-88828000

传真:0086-10-88828231

媒体合作:0086-10-88828175

品牌活动合作:0086-10-88828063

广告合作:0086-10-88825964