一种从中文电子病历构建医疗知识图谱的半监督学习方法技术

技术编号:27774415 阅读:23 留言:0更新日期:2021-03-23 13:05
本发明专利技术涉及中文电子病历处理技术领域,公开了一种从中文电子病历构建医学知识图谱的半监督学习方法。该方法是一种端到端的方法,首先获取中文电子病历原始语料,进行数据预处理、知识描述体系设计和人工标记实体关系等操作,整理相关医学术语构建中文医学分词词典;然后结合机器学习算法和深度神经网络完成知识提取工作,同时结合半监督学习方法逐步扩展中文电子病历标记数据集,将抽取出的所有知识三元组存入Neo4j数据库,构建出医疗知识图谱。本发明专利技术提供的方法提供了一种中文电子病历标注语料,并可以准确的识别出病历中的医疗知识。

【技术实现步骤摘要】
一种从中文电子病历构建医疗知识图谱的半监督学习方法
本专利技术涉及中文电子病历处理
,尤其涉及一种从中文电子病历构建医学知识图谱的半监督学习方法。
技术介绍
知识图谱(KnowledgeGraph)的本质上是一种语文网络,其结点代表实体(entity),连线代表实体之间的各种语义关系(relation),能够将零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledgeGraph),百度“知心”等。医疗领域的知识图谱构建是目前的一大研究热点。电子病历(ElectronicMedicalRecords,EMRs)是指医务人员在医疗活动期间使用电子医疗系统生成的数字化信息。相比于国外英文电子病历领域的大量研究,国内对于中文电子病历的研究工作仍处于起步阶段。中文电子病历是一种宝贵的中文医学资源,包含大量有价值的医疗知识和患者健康信息,但同时中文电子病历也是一种非结构化信息,这为在其之上的医学研究制造了障碍。医疗知识图谱将病历中的医学知识以结构化的方式进行存储、管理、传输和重现,可以帮助建立临床辅助决策系统、个性化健康模型和智能医疗问答等,对于推动智慧医疗的发展具有重要意义。目前,国内中文电子病历的医学知识图谱主要存在以下难题:1、由于包含患者敏感信息,且医疗实体和实体关系的标注依赖领域知识,目前国内缺少高质量、大规模的中文电子病历标注语料。2、中文电子病历包含大量专业医学词汇和特殊字符,且中文的词与词之间没有明显界限,导致句子特征非常复杂、难以提取,现有的技术无法准确地识别出病历中的医疗知识。
技术实现思路
本专利技术所要解决的技术问题是:针对上述存在的问题,提供了一种从中文电子病历构建医疗知识图谱的方法,本方法通过数据预处理、知识提取和知识存储三个阶段,将医疗知识从中文电子病历中提取出来并存储,构建成医疗知识图谱。本专利技术采用的技术方案如下:一种从中文电子病历构建医疗知识图谱的半监督学习方法,包括:步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。其中,步骤S1具体包括:步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的电子病历按一定的比例划分为训练集、测试集和开发集。所述步骤S3具体包括:步骤S31:从扩展后的中文电子病历标记语料库中提取出所有的医疗知识,并进行去重处理,之后以三元组的形式将其保存为csv文件;步骤S32:将结构化的csv导入Neo4j数据库,生成最终的医疗知识图谱。通过上述S1、S2、S3三个大步骤以及各个详细的小步骤,即可构建出医疗知识图谱。进一步的,所述步骤S14包括:步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是使用哈工大LTP工具得到的依存句法特征向量;进一步的,所述步骤S2中,知识提取模型的训练包括医疗实体识别和医疗关系抽取两个过程;其中,在医疗实体识别过程中,先采用深度神经网络对中文电子病历的文本特征进行自动提取,并结合机器学习算法完成句子标签的自动标注,再使用爬虫代码从医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库和国际疾病分类编码,整理出中文常见医学术语词典,自动纠正识别错误的实体;在医疗关系抽取过程中,采用深度神经网络以及机器学习算法自动学习文本特征,然后通过激活函数完成关系类别的预测,实现对医疗实体对之间的关系分类。进一步的,所述步骤S2中,结合半监督学习算法优化知识提取模型的过程包括:首先利用已经进行人工实体标记的标注集作为种子数据集,训练出一个初始的知识提取模型,通过初始的知识提取模型从未进行人工标记的未标注集中选择得分最高的示例,将示例与种子数据集合并得到新的标注集;然后利用新的标注集再次训练知识提取模型,不断迭代,在知识提取模型得到优化的同时,不断更新标注集,从而扩展中文电子病历标记语料库的规模;训练过程结束后,得到一个最终的知识提取模型和扩展后的中文电子病历标记语料库;最后使用优化后的模型自动地从扩展后的中文电子病历标记语料库中提取出所有的医疗知识。进一步的,所述医疗知识描述体系包括实体的类型、概念和示例;以及包括实体关系的类型、概念和示例。进一步的,所述深度神经网络包括长短期记忆网络、门控循环单元神经网络、图神经网络、卷积神经网络和注意力机制神经网络。进一步的,所述激活函数包括softmax函数和sigmoid函数。进一步的,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。与现有技术相比,采用上述技术方案的有益效果为:第一,对于获取到的原始电子病历数据集进行了一系列的数据预处理操作,使得构建出医疗知识图谱具有高精度和高质量,且不包含任何患者敏感信息,具有更广的适用范围。第二,在知识提取阶段结合使用深度神经网络和机器学习算法,与以往的技术相比,避免了繁杂的模板设计和特征工程,同时加入了中文常见医学术语词典,能有效减少医疗知识提取的错误。第三,采用了bootstrapping半监督学习算法扩展中文电子病历标记语料库的规模,同时结合了有监督方法和无监督方法的优势,节约了人工标记的成本。附图说明图1是本专利技术实施例提供的一种从中文电子病历构建医本文档来自技高网
...

【技术保护点】
1.一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,包括:/n步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;/n步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;/n步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。/n

【技术特征摘要】
1.一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,包括:
步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;
步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。


2.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S1包括:
步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;
步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;
步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;
步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例细分为训练集、测试集和开发集;其中,标注集表示进行了人工标记的中文电子病历标记语料库,未标注集表示未进行标注的中文电子病历数据集。


3.根据权利要求2所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。


4.根据权利要求3所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S14包括:
步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;
步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是依存句法特征向量;
步骤S143:将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例划分为训练集、测试集...

【专利技术属性】
技术研发人员:杨春明郭鑫张晖李波赵旭剑
申请(专利权)人:西南科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1