一种基于神经网络的智能医疗命名实体识别方法和装置制造方法及图纸

技术编号:24498779 阅读:66 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开了一种基于神经网络的智能医疗命名实体识别方法和装置,属于人工智能、自然语言处理技术领域,本发明专利技术要解决的技术问题为如何在有限的标注语料库上,设计出更为理想的机器学习模型,以便更深入地挖掘医疗命名实体的标注特征和规律,从而提高医疗命名实体标注的准确率,采用的技术方案为:该方法是利用三个卷积神经网络构建并行卷积神经网络,对医疗文本进行编码;再利用两个长短时记忆神经网络构建堆叠循环神经网络,对医疗文本进行编码;再分别将并行卷积神经网络输出的编码与堆叠循环神经网络输出的编码进行联接,得到优化后最终的文本编码向量;最后结合条件随机场模型,高效准确地识别医疗命名实体。

An intelligent medical named entity recognition method and device based on Neural Network

【技术实现步骤摘要】
一种基于神经网络的智能医疗命名实体识别方法和装置
本专利技术涉及人工智能、自然语言处理
,具体地说是一种基于神经网络的智能医疗命名实体识别方法和装置。
技术介绍
医疗命名实体识别是指识别医疗文本中具有特定意义的实体。命名实体识别是自然语言处理领域中一项非常重要的任务,它是信息抽取、问答系统、机器翻译等众多自然语言处理任务的基础工作。基于统计的命名实体识别方法是目前唯一能够真正应用于大规模医疗命名实体识别任务的方法。其效果主要受到三个因素的影响,具体如下:一是对语料库的依赖比较大:到目前为止,可以用来建设和评估医疗命名实体识别系统的大规模通用语料库少之又少;二是对特征选取的要求较高:此方法需要从文本中选择对该项任务有效的各种特征,并将这些特征加入到特征向量中;需要依据特定命名实体识别方法所面临的主要困难和特性,筛选出能有效反映该类实体特性的特征集合;对于医疗方向的文本来说,由于存在大量生僻字词,导致其比传统命名实体识别任务更加困难;三是训练时间复杂性非常高:此方法有时会导致训练代价高得难以承受;目前,条件随机本文档来自技高网...

【技术保护点】
1.一种基于神经网络的智能医疗命名实体识别方法,其特征在于,该方法是利用三个卷积神经网络构建并行卷积神经网络,对医疗文本进行编码;再利用两个长短时记忆神经网络构建堆叠循环神经网络,对医疗文本进行编码;再分别将并行卷积神经网络输出的编码与堆叠循环神经网络输出的编码进行联接,得到优化后最终的文本编码向量;最后结合条件随机场模型,高效准确地识别医疗命名实体;具体如下:/nS1、构建医疗文本数据集;/nS2、构建医疗命名实体识别的训练数据集;/nS3、构建医疗命名实体识别模型;/nS4、训练医疗命名实体识别模型:在步骤S2所得训练数据集上对步骤S3构建的医疗命名实体识别模型进行训练。/n

【技术特征摘要】
1.一种基于神经网络的智能医疗命名实体识别方法,其特征在于,该方法是利用三个卷积神经网络构建并行卷积神经网络,对医疗文本进行编码;再利用两个长短时记忆神经网络构建堆叠循环神经网络,对医疗文本进行编码;再分别将并行卷积神经网络输出的编码与堆叠循环神经网络输出的编码进行联接,得到优化后最终的文本编码向量;最后结合条件随机场模型,高效准确地识别医疗命名实体;具体如下:
S1、构建医疗文本数据集;
S2、构建医疗命名实体识别的训练数据集;
S3、构建医疗命名实体识别模型;
S4、训练医疗命名实体识别模型:在步骤S2所得训练数据集上对步骤S3构建的医疗命名实体识别模型进行训练。


2.根据权利要求1所述的基于神经网络的智能医疗命名实体识别方法,其特征在于,所述步骤S1中的构建医疗文本数据集具体如下:
S101、获取原始病历数据集,具体如下:
S10101、自行整理标注数据集或者使用医疗命名实体识别评测竞赛的数据集,作为原始病历数据集;
S10102、原始病历数据集对每一条病历均进行人工标注,标出各个医疗命名实体的开始位置、结束位置和命名实体类型标签;
S102、对原始病历数据集进行预处理得到医疗病历文本预处理数据集:根据步骤S101中的人工标注信息,对原始病历数据集进行预处理,为命名实体插入标签,具体为:身份部位名称标为body,疾病名称标为dise,症状名称标为symp,治疗方案名称标为chec,药物名称标为cure;在命名实体与非命名实体之间以及非命名实体字符之间插入空格;
S103、对医疗病历文本预处理数据集进行细化处理,得到医疗病历文本细化处理数据集,具体为:对步骤S102所得的医疗病历文本预处理数据集的每一条记录中的每个字的标签进一步细化标注,标注规则是IOB,即命名实体的首字标为B、中间字标为I、剩余不属于任何命名实体的字标为O;根据命名实体的类型和IOB标注规则,具体为:表示身体部位的两种字分别标为body-B和body-I;表示疾病名称的两种字分别标为dise-B和dise-I;表示独立症状名称的两种字分别标为symp-B和symp-I;表示治疗方案名称的两种字分别标为chec-B和chec-I,表示药物名称的两种字分别标为cure-B和cure-I;
S104、获取医疗病历文本数据集:对于步骤S103所得的医疗病历文本细化处理数据集中的每一条记录,将每个字与其对应的标签进行组合,字和标签之间用空格分隔,每个字彼此之间以换行标记分隔,得到医疗病历文本数据集。


3.根据权利要求1所述的基于神经网络的智能医疗命名实体识别方法,其特征在于,所述步骤S2中的构建医疗命名实体识别的训练数据集具体如下:
S201、对于步骤S1所得的医疗病历文本数据集中的每一条记录,分别采集其字序列和标签序列;
S202、对于长度为n的记录,其字序列以x'=[x'1…x'i…x'n]表示,标签序列以y'=[y'1…y'i…y'n]表示;
S203、将每一条字序列与其对应的标签序列组合在一起,即为一条训练样本,记为(x',y');
S204、所有的训练样本共同构成训练数据集(X',Y')。


4.根据权利要求1所述的基于神经网络的智能医疗命名实体识别方法,其特征在于,所述步骤S3中的构建医疗命名实体识别模型具体如下:
S301、构建字转换层:自行训练字向量数据或者使用预训练的字向量数据将病历文本的字序列转换为相应的字编号序列;
S302、构建标签转换层:自行定义标签转换表,将命名实体的类别标签O、B-body、I-body、B-chec、I-chec、B-cure、I-cure、B-dise、I-dise、B-symp、I-symp分别映射为0至10之间的11个数字编号;将病历文本的标签序列转换为相应的标签编号序列;
S303、构建输入层:当对医疗命名实体识别模型进行训练时,输入层中包括两个输入,即:对于每一条数据,对其字序列和标签序列分别使用步骤S301字映射转换层和步骤S302标签转换层处理后,得到字编号序列x=[x1…xi…xn]和标签编号序列y=[y1…yi…yn],可形式化为(x,y);
当使用医疗命名实体识别模型针对字序列进行标签预测时,输入只包含字编号序列;
S304、构建字向量嵌入层:根据步骤S301得到的预训练字向量数据,针对输入的字编号序列数据x=[x1…xi…xn],得到其向量表示x=(x1…xi…xn),其中,xi代表第i个字的字向量;
S305、构建多层联接的神经网络层,具体如下:
S30501、利用并行卷积神经网络对字向量序列进行处理;
S30502、利用堆叠循环神经网络对字向量序列进行处理;
S30503、将步骤S30501的并行卷积神经网络的编码输出与步骤S30502的堆叠循环网络的编码输出进行联接,得到多层联接编码初始表示;
S30504、将在步骤S30503得到的多层联接编码初始表示,送入TimeDistributed包装器和Dense全连接层进行转换,得到最终的多层联接编码表示;
S306、构建预测层:将步骤S305所获得的多层联接编码表示送入条件随机场层,以预测各个字的标签,即
条件随机场层根据接收的多层联接编码表示,利用维特比算法自行解码,选择合理的概率转移路径,预测输出标签序列,即


5.根据权利要求4所述的基于神经网络的智能医疗命名实体识别方法,其特征在于,所述步骤S30501中的利用并行卷积神经网络对字向量序列进行处理,具体如下:
S3050101、将字向量序列(x1…xi…xn)作为并行卷积神经网络的输入;设置三个卷积神经网络,其维度为32,卷积核大小分别为3、4、5,分别表示为CNN3、CNN4、CNN5;三个卷积网络并行对字向量序列进行编码的过程描述如下:
C1=CNN3(x1…xi…xn);
C2=CNN4(x1…xi…xn);
C3=CNN5(x1…xi…xn);
S3050102、将三个卷积网络并行处理后的输出结果进行联接操作,描述为:C4=concatenate(C1,C2,C3);其中,concatenate表示将各字对应的编码输出进行联接处理;
S3050103、再次使用卷积操作对上述联接操作的输出进行维度调整,描述为:C=CNN(C4);其中,CNN表示维度为128、卷积核大小为5的卷积网络,C表示并行卷积神经网络最终输出的编码向量;
所述步骤S30502中利用堆叠循环神经网络对字向量序列进行处理,具体如下:
S3050201、对字向量序列(x1…xi…xn)使用维度为128的双向长短时记忆网络BiLSTM进行处理,描述为:L1=BiLSTM(x1…xi…xn);
S3050202、将步骤S3050201中维度为128的双向长短时记忆网络BiLSTM的输出结果送入维度为64的双向长短时记忆网络BiLSTM进行进一步地处理,从而得到堆叠循环神经网络最终输出的编码向量,描述为:L=BiLSTM(L1);
S3050203、步骤S3050201中的维度为128的双向长短时记忆网络BiLSTM和步骤...

【专利技术属性】
技术研发人员:鹿文鹏张若雨于瑞禹继国贾瑞祥成金勇
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1