This application proposes a part of speech tagging method, model training method and related devices for electronic medical records, which relates to the field of natural language processing technology. After learning and training the semantic information of the segmentation sequence by using the cyclic neural network to get the output sequence of the cyclic network, the output sequence of the cyclic network is processed by using the semantic connection network, so as to learn the training segmentation sequence multiple times The method of processing is to learn the deep semantic information of the training segmentation sequence, and then take the semantic annotation sequence as the input of the part of speech prediction network in the part of speech tagging model, so as to obtain the predicted part of speech tagging results corresponding to the training part of speech sequence, and then update the words based on the loss function calculated from the predicted part of speech tagging results and the training part of speech tagging results corresponding to the training segmentation sequence Compared with the existing technology, the part of speech tagging model can fully learn the deep semantic information and long-distance feature information of the sample sequence, and can improve the accuracy of part of speech tagging.
【技术实现步骤摘要】
电子病历词性标注方法、模型训练方法及相关装置
本申请涉及自然语言处理
,具体而言,涉及一种电子病历词性标注方法、模型训练方法及相关装置。
技术介绍
序列标注任务是机器学习常见的一类任务,比如分词任务、实体识别任务、时间序列分析、词性标注任务等等。常见的一些解决序列标注任务的算法包括隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场(conditionalrandomfield,CRF)等等。随着电子化医疗系统的迅速普及,大量医疗相关的信息以电子病历(ElectronicMedicalRecords,EMR)的形式被保存下来;利用机器学习技术,通过对电子病历进行分析和挖掘,比如对电子病历进行分词、词性标注、命名实体识别、实体关系抽取等等,可以从电子病历中获取大量的医疗知识,并被用于例如医学词典中,以辅助医生进行诊断等。但目前对于词性标注的方法中,由于需要手工的寻找特征,并添加部分外部特征,导致词性标注的准确度较低。
技术实现思路
本申请的目的在于提供一种电子病历词性标注方法、模型训练方法及相关装置,能够提升词性标注的准确度。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种词性标注模型训练方法,所述方法包括:获得训练分词序列及所述训练分词序列对应的训练词性标注结果;利用循环神经网络对所述训练分词序列进行处理,得到循环网络输出序列;利用语义连接网络对所述循环网络输出序列进行处理,得到语义标注序列, ...
【技术保护点】
1.一种词性标注模型训练方法,其特征在于,所述方法包括:/n获得训练分词序列及所述训练分词序列对应的训练词性标注结果;利用循环神经网络对所述训练分词序列进行处理,得到循环网络输出序列;/n利用语义连接网络对所述循环网络输出序列进行处理,得到语义标注序列,其中,所述语义标注序列表征对所述训练分词序列进行多次学习处理后得到的语义结果;/n将所述语义标注序列作为所述词性标注模型中词性预测网络的输入,得到所述训练分词序列对应的预测词性标注结果;/n基于所述预测词性标注结果及所述训练词性标注结果计算得到的损失函数,更新所述词性标注模型的模型参数。/n
【技术特征摘要】
1.一种词性标注模型训练方法,其特征在于,所述方法包括:
获得训练分词序列及所述训练分词序列对应的训练词性标注结果;利用循环神经网络对所述训练分词序列进行处理,得到循环网络输出序列;
利用语义连接网络对所述循环网络输出序列进行处理,得到语义标注序列,其中,所述语义标注序列表征对所述训练分词序列进行多次学习处理后得到的语义结果;
将所述语义标注序列作为所述词性标注模型中词性预测网络的输入,得到所述训练分词序列对应的预测词性标注结果;
基于所述预测词性标注结果及所述训练词性标注结果计算得到的损失函数,更新所述词性标注模型的模型参数。
2.如权利要求1所述的方法,其特征在于,所述语义连接网络包括M个依次串联的自匹配注意力层;
根据语义连接网络对所述循环网络输出序列进行处理,得到语义标注序列的步骤,包括:
将第N个自匹配注意力层之前的N-1个自匹配注意力层各自的自匹配注意力输出序列进行合并后得到的集合,作为所述第N个自匹配注意力层的自匹配注意力输入序列并进行处理,得到所述第N个自匹配注意力层的自匹配注意力输出序列;
其中,N小于或等于M,M和N均为大于1的整数,且所述M个依次串联的自匹配注意力层中,第一个自匹配注意力层的自匹配注意力输入序列为所述循环网络输出序列;所有自匹配注意力层各自的自匹配注意力输出序列合并后得到的集合为所述语义标注序列。
3.如权利要求2所述的方法,其特征在于,所述自匹配注意力层包括注意力Attention层和双向长短期记忆网络BiLSTM层;
所述Attention层用于对所述自匹配注意力输入序列进行处理,得到注意力输出序列;
所述BiLSTM层用于对所述注意力输出序列与所述自匹配注意力输入序列合并后得到的集合进行处理,得到所述自匹配注意力输出序列。
4.如权利要求1所述的方法,其特征在于,所述词性预测网络包含前馈神经网络层和概率转移矩阵,所述概率转移矩阵中的数值表征将第一标注标签转移至第二标注标签的概率;
所述预测词性标注结果包括多个预测词性标注序列,以及与每一预测词性标注序列对应的词性标注序列得分;
将所述语义标注序列作为所述词性标注模型中词性预测网络的输入,得到所述训练分词序列对应的预测词性标注结果的步骤,包括:
将所述语义标注序列作为所述前馈神经网络层的输入,得到所述多个预测词性标注序列,以及与每一预测词性标注序列对应的初始序列得分,其中,所述初始序列得分为每一所述预测词性标注序列中所有的预测标注标签对应的概率之和;
根据所述概率转移矩阵对每一所述初始序列得分进行更新,得到每一所述预测词性标注序列对应的所述词性标注序列得分。
5.如权利要求4所述的方法,其特征在于,所述概率转移矩阵为二阶概率转移矩阵,所述二阶概率转移矩阵中的数值表征将两个标注标签的组合转移至其他标注标签的概率;
根据所述概率转移矩阵对每一所述初始序列得分进行更新,得到每一所述预测词性标注序列对应的所述词性标注序列得分的步骤,包括:
根据目标预测词性标注序列中每一预测标注标签以及与每一所述预测标注标签相邻的两个预测标注标签,在所述二阶概率转移矩阵中获得每一所述预测标注标签...
【专利技术属性】
技术研发人员:王李鹏,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。