基于机器学习的中文医疗实体识别方法及系统技术方案

技术编号:23099679 阅读:17 留言:0更新日期:2020-01-14 20:42
本公开公开了基于机器学习的中文医疗实体识别方法及系统,获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。

Chinese medical entity recognition method and system based on machine learning

【技术实现步骤摘要】
基于机器学习的中文医疗实体识别方法及系统
本公开涉及中文医疗实体识别
,特别是涉及基于机器学习的中文医疗实体识别方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。医疗实体识别是文本处理中的关键技术,它在信息检索、机器翻译、问答系统等自然语言处理技术中,发挥着重要的作用,医疗实体识别的任务是对文本中出现的具有特定意义的词或短语进行识别。在医学临床领域的医疗实体识别中,其目的是从电子病历中挖掘出专家感兴趣的专业术语,例如,药物:替吉奥胶囊、奥沙利铂等;手术:直肠根治术、根治性远端胃大部切除术等;疾病和诊断:食管癌、慢性萎缩性胃炎等;解剖部位:腹部、胃底部等。准确识别出此类的医学实体,从而研究实体之间的关系,对医学研究来说是重要的一步。因此医学医疗实体识别的研究具有非常重要的意义。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:中文的医疗实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的医疗实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语医疗实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难;汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,医疗实体识别的第一步就是确定词的边界,即分词。综上所述,对于中文医疗实体识别精准和快速的识别方法,尚缺乏有效的解决方案。
技术实现思路
<br>为了解决现有技术的不足,本公开提供了基于机器学习的中文医疗实体识别方法及系统;第一方面,本公开提供了基于机器学习的中文医疗实体识别方法;基于机器学习的中文医疗实体识别方法,包括:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。第二方面,本公开还提供了基于机器学习的中文医疗实体识别系统;基于机器学习的中文医疗实体识别系统,包括:字典和词典构建模块,其被配置为:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;数据标记模块,其被配置为:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;字向量和词向量嵌入模块,其被配置为:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;机器学习模型构建模块,其被配置为:将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;训练模块,其被配置为:将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;识别模块,其被配置为:获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:在训练阶段,通过患者的电子病历构建字典和词典,而不是使用业内普遍使用的字典和词典,而且将新构建的字典和词典嵌入到LSTM模型和CNN模型中,可以提升中文医疗实体识别的准确度,避免新登录词不能被准确识别;利用LSTM模型,将字符信息和词与词之间的信息相融合,在确保准确的同时,又利用词的上下文信息,可增强标记的准确性。利用LSTM模型和CNN模型的结合使用,可以初步对待识别病历进行中文医疗实体的初次识别;利用条件随机场CRF对LSTM模型和CNN模型的输出值进行二次识别,提升了中文医疗实体识别的准确度。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的方法流程图;图2为第一个实施例的使用BIOES标记示意图;图3为第一个实施例的基于字符的LSTM结构图图4为第一个实施例的基于词的LSTM结构图;图5为第一个实施例的基于词的信息流传播图;图6为第一个实施例的latticeLSTM结构图;图7为第一个实施例的准确率图;图8为第二个实施例的系统功能模块图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本实施例提供了基于机器学习的中文医疗实体识别方法;如图1所示,基于机器学习的中文医疗实体识别方法,包括:S1:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;S2:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;S3:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;将训练本文档来自技高网
...

【技术保护点】
1.基于机器学习的中文医疗实体识别方法,其特征是,包括:/n获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;/n对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;/n将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;/n将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;/n将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;/n将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;/n获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。/n

【技术特征摘要】
1.基于机器学习的中文医疗实体识别方法,其特征是,包括:
获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。


2.如权利要求1所述的方法,其特征是,所述构建训练用的电子病历的字典的具体步骤包括:
对训练用的电子病历,采用one-hot编码进行处理,得到若干个汉字和每一个汉字对应的编码;将所述若干个汉字和每一个汉字对应的编码,视为字典。


3.如权利要求1所述的方法,其特征是,所述构建训练用的电子病历的词典的具体步骤包括:
对训练用的电子病历,采用word2vec模型进行处理,得到若干个词和每一个词对应的词向量;将所述若干个词和每一个词对应的词向量,视为词典。


4.如权利要求1所述的方法,其特征是,对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;具体步骤包括:
使用BIOES标记规则对训练用的待识别电子病历进行数据标记,得到每一个字和每一个字对应的标记符号。


5.如权利要求1所述的方法,其特征是,所述将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;具体步骤包括:
将数据转换得到的每一个字,输入到机器学习模型的长短期记忆网络LSTM的输入端,长短期记忆网络LSTM的输出端输出第一识别结果;
将数据转换得...

【专利技术属性】
技术研发人员:王红王彩雨王峰赵丽丽虞凤萍庄鲁贺李威胡斌张伟
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1