一种从中文电子病历构建医疗知识图谱的半监督学习方法技术

技术编号：27774415 阅读：23 留言：0更新日期：2021-03-23 13:05

本发明专利技术涉及中文电子病历处理技术领域，公开了一种从中文电子病历构建医学知识图谱的半监督学习方法。该方法是一种端到端的方法，首先获取中文电子病历原始语料，进行数据预处理、知识描述体系设计和人工标记实体关系等操作，整理相关医学术语构建中文医学分词词典；然后结合机器学习算法和深度神经网络完成知识提取工作，同时结合半监督学习方法逐步扩展中文电子病历标记数据集，将抽取出的所有知识三元组存入Neo4j数据库，构建出医疗知识图谱。本发明专利技术提供的方法提供了一种中文电子病历标注语料，并可以准确的识别出病历中的医疗知识。

全部详细技术资料下载

【技术实现步骤摘要】
一种从中文电子病历构建医疗知识图谱的半监督学习方法
本专利技术涉及中文电子病历处理
，尤其涉及一种从中文电子病历构建医学知识图谱的半监督学习方法。
技术介绍
知识图谱(KnowledgeGraph)的本质上是一种语文网络，其结点代表实体(entity)，连线代表实体之间的各种语义关系(relation)，能够将零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量，如Google知识图谱(GoogleKnowledgeGraph)，百度“知心”等。医疗领域的知识图谱构建是目前的一大研究热点。电子病历(ElectronicMedicalRecords,EMRs)是指医务人员在医疗活动期间使用电子医疗系统生成的数字化信息。相比于国外英文电子病历领域的大量研究，国内对于中文电子病历的研究工作仍处于起步阶段。中文电子病历是一种宝贵的中文医学资源，包含大量有价值的医疗知识和患者健康信息，但同时中文电子病历也是一种非结构化信息，这为在其之上的医学研究制造了障碍。医疗知识图谱将病历中的医学知识以结构化的方式进行存储、管理、传输和重现，可以帮助建立临床辅助决策系统、个性化健康模型和智能医疗问答等，对于推动智慧医疗的发展具有重要意义。目前，国内中文电子病历的医学知识图谱主要存在以下难题：1、由于包含患者敏感信息，且医疗实体和实体关系的标注依赖领域知识，目前国内缺少高质量...

【技术保护点】
1.一种从中文电子病历构建医疗知识图谱的半监督学习方法，其特征在于，包括：/n步骤S1：获取中文电子病历的原始数据集，根据原始数据集中的中文电子病历设计出医疗知识描述体系，并人工标记医疗实体关系，初步构建中文电子病历标记语料库；/n步骤S2：根据医疗知识描述体系，结合深度神经网络和机器学习算法，使用中文电子病历标记语料库训练知识提取模型，在训练过程中，结合半监督学习算法优化知识提取模型，同时逐步扩展中文电子病历标记语料库，最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识；/n步骤S3：将提取出的医疗知识以三元组的格式存入Neo4j数据库，构建出医疗知识图谱。/n

【技术特征摘要】
1.一种从中文电子病历构建医疗知识图谱的半监督学习方法，其特征在于，包括：
步骤S1：获取中文电子病历的原始数据集，根据原始数据集中的中文电子病历设计出医疗知识描述体系，并人工标记医疗实体关系，初步构建中文电子病历标记语料库；
步骤S2：根据医疗知识描述体系，结合深度神经网络和机器学习算法，使用中文电子病历标记语料库训练知识提取模型，在训练过程中，结合半监督学习算法优化知识提取模型，同时逐步扩展中文电子病历标记语料库，最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识；
步骤S3：将提取出的医疗知识以三元组的格式存入Neo4j数据库，构建出医疗知识图谱。

2.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法，其特征在于，所述步骤S1包括：
步骤S11：从专业医学会议所发布的关于中文电子病历的测评任务中，获取中文电子病历的原始数据集；
步骤S12：通过对获取到的中文电子病历的文本特点进行分析，并参考已有的电子病历规范和知识图谱构建的相关权威文献，设计出医疗知识描述体系；
步骤S13：在专业医务人员的指导下，对不同来源的病历进行医疗实体标记的融合，并人工标记部分医疗实体关系，初步构建中文电子病历标记语料库；
步骤S14：对中文电子病历文本进行规范化和向量化处理，将规范化和向量化后的中文电子病历划分为标注集和未标注集，并将标注集按一定的比例细分为训练集、测试集和开发集；其中，标注集表示进行了人工标记的中文电子病历标记语料库，未标注集表示未进行标注的中文电子病历数据集。

3.根据权利要求2所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法，其特征在于，所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。

4.根据权利要求3所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法，其特征在于，所述步骤S14包括：
步骤S141：对中文电子病历的文本进行规范化处理，包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一；
步骤S142：将病历文本转化为计算机能够识别的数值向量表示形式，原始输入句子设为S＝{c1，c2，…，ci，…}，其中ci表示句子中的第i个字，句子中每一个字都被映射为低维的向量vi＝[vchar，vpos，vdep]；其中，vchar是使用Gensim工具包训练得到的字向量，vpos是使用THULAC中文分词工具得到的词性特征向量，vdep是依存句法特征向量；
步骤S143：将规范化和向量化后的中文电子病历划分为标注集和未标注集，并将标注集按一定的比例划分为训练集、测试集...

【专利技术属性】
技术研发人员：杨春明，郭鑫，张晖，李波，赵旭剑，
申请(专利权)人：西南科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人