一种医疗命名实体识别的方法、装置及存储介质制造方法及图纸

技术编号:30058472 阅读:19 留言:0更新日期:2021-09-15 11:03
本申请公开了一种医疗命名实体识别的方法、装置及存储介质,包括:利用基于字典的标注方法进行标注,作为第一标注结果;利用基于人工的标注方法进行标注,作为第二标注结果;利用NER机器学习模型的标注方法进行标注,作为第三标注结果;将第一标注结果、第二标注结果和第三标注结果进行融合,作为第四标注结果;根据第四标注结果更新NER机器学习模型的参数,并进行迭代,获得训练后的NER机器学习模型;将待识别的医疗文本输入训练后的NER机器学习模型获得输出的医疗命名实体。应用本申请方案,由于采用三种标注方法,将三种标注结果进行融合,使得训练后的NER机器学习模型提高了对医疗文本命名实体识别的准确率。了对医疗文本命名实体识别的准确率。了对医疗文本命名实体识别的准确率。

【技术实现步骤摘要】
一种医疗命名实体识别的方法、装置及存储介质


[0001]本申请涉及计算机应用
,尤其涉及一种医疗命名实体识别的方法,一种医疗命名实体识别的装置,一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]在计算机技术和互联网技术的发展下,医疗文档逐步实现了电子化,而疾病诊断、查阅病历、健康咨询、医疗教学等都需要对电子文档中识别出与医疗相关的命名实体。命名实体识别(NER,Named Entity Recognition)就是一种从文本中识别出与指定信息相关的命名实体的技术。其中,与医疗相关的命名实体可以是疾病名称、治疗手段、药品名称等等。现有的医疗命名实体识别的技术由于手段单一,其识别的准确率有待提高。

技术实现思路

[0003]针对上述现有技术,本专利技术实施例公开一种医疗命名实体识别的方法,可以克服医疗命名实体识别技术手段单一,识别的准确率低的缺陷,达到提高识别准确率的目的。
[0004]鉴于此,本申请实施例提出一种医疗命名实体识别的方法,该方法包括:利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第二标注结果;利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果;将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果;根据所述第四标注结果更新所述NER机器学习模型的参数,并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代,直到迭代生成的所述第四标注结果符合预设阈值,获得训练后的NER机器学习模型;将待识别的医疗文本输入所述训练后的NER机器学习模型,获得输出的医疗命名实体。
[0005]进一步地,所述将第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果的步骤包括:将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示,1表示对应字符属于所述医疗命名实体,0表示对应字符不属于所述医疗命令实体;将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算,将连续为1的字符段作为待定标注结果;根据待定标注结果判断标注是否唯一,如果唯一,则将所述待定标注结果作为所
述第四标注结果;如果不唯一,则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果。
[0006]进一步地,所述根据词频统计结果和事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果的步骤包括:针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计,获得每一个分项标注结果对应的词频统计结果,所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率;如果每一个分项标注结果的词频统计结果相同,则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率,将取值概率最大的分项标注结果作为所述第四标注结果;如果每一个分项标注结果的词频统计结果不是都相同,则将词频统计结果最大的分项标注结果作为所述第四标注结果。
[0007]进一步地,所述利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果的步骤包括:将所述参与训练的医疗文本和BIO标注作为输入,输入到所述NER机器学习模型,所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的;所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理,实现对所述参与训练的医疗文本进行医疗命名实体的标注,并将标注结果作为第三标注结果。
[0008]本申请实施例还公开一种医疗命名实体识别的装置,可以克服医疗命名实体识别技术手段单一,识别的准确率低的缺陷,达到提高识别准确率的目的。
[0009]该装置包括:第一标注处理模块、第二标注处理模块、第三标注处理模块、融合模块、迭代模块、识别模块;所述第一标注处理模块,利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;所述第二标注处理模块,利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第二标注结果;所述第三标注处理模块,利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果;所述融合模块,用于将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果;所述迭代模块,用于根据所述第四标注结果更新所述NER机器学习模型的参数,并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代,直到迭代生成的所述第四标注结果符合预设阈值,获得训练后的NER机器学习模型;所述识别模块,用于将待识别的医疗文本输入所述训练后的NER机器学习模型,获得输出的医疗命名实体。
[0010]进一步地,所述融合模块包括:二进制表示模块、或运算模块、第一判断模块;所述二进制表示模块,将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示,1表示对应字符属于所述医疗命名实体,0表示对应字符不属于所述医疗命令实体;或运算模块,用于将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算,将连续为1的字符段作为待定标注结果;第一判断模块,用于根据待定标注结果判断标注是否唯一,如果唯一,则将所述待定标注结果作为所述第四标注结果;如果不唯一,则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果。
[0011]进一步地,所述第一判断模块执行根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果的步骤时,用于:针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计,获得每一个分项标注结果对应的词频统计结果,所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率;如果每一个分项标注结果的词频统计结果相同,则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率,将取值概率最大的分项标注结果作为所述第四标注结果;如果每一个分项标注结果的词频统计结果不是都相同,则将词频统计结果最大的分项标注结果作为所述第四标注结果。
[0012]进一步的,所述第三标注处理模块包括NER机器学习处理模块;所述NER机器学习处理模块,将所述参与训练的医疗文本和所述BIO标注作为输入,输入到所述NER机器学习模型,所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的;所述NER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗命名实体识别的方法,其特征在于,该方法包括:利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第二标注结果;利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果;将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果;根据所述第四标注结果更新所述NER机器学习模型的参数,并返回到所述利用NER机器学习模型对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代,直到迭代生成的所述第四标注结果符合预设阈值,获得训练后的NER机器学习模型;将待识别的医疗文本输入所述训练后的NER机器学习模型,获得输出的医疗命名实体。2.根据权利要求1所述的方法,其特征在于,所述将第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果的步骤包括:将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示,1表示对应字符属于所述医疗命名实体,0表示对应字符不属于所述医疗命令实体;将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算,将连续为1的字符段作为待定标注结果;根据待定标注结果判断标注是否唯一,如果唯一,则将所述待定标注结果作为所述第四标注结果;如果不唯一,则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果。3.根据权利要求2所述的方法,其特征在于,所述根据词频统计结果和事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果的步骤包括:针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计,获得每一个分项标注结果对应的词频统计结果,所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率;如果每一个分项标注结果的词频统计结果相同,则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率,将取值概率最大的分项标注结果作为所述第四标注结果;如果每一个分项标注结果的词频统计结果不是都相同,则将词频统计结果最大的分项标注结果作为所述第四标注结果。4.根据权利要求1~3任一项所述的方法,其特征在于,所述利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果的步骤包括:将所述参与训练的医疗文本和BIO标注作为输入,输入到所述NER机器学习模型,所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的;所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标
注处理,实现对所述参与训练的医疗文本进行医疗命名实体的标注,并将标注结果作为第三标注结果。5.一种医疗命名实体识别的装置,其特征在于, 该装置包括:第一标注处理模块、第二标注处理模块、第三标注处理模块、融合模块、迭代模块、识别模块;所述第一标注处理模块,利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;所述第二标注处理...

【专利技术属性】
技术研发人员:赵韡袁靖刁晓林廉晓丹张飞
申请(专利权)人:中国医学科学院阜外医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1