【技术实现步骤摘要】
一种医学命名实体识别方法、装置、电子设备及存储介质
[0001]本申请涉及自然语言处理
,具体而言,涉及一种医学命名实体识别方法、装置、电子设备及存储介质。
技术介绍
[0002]随着互联网的飞速发展,网络上的信息越发丰富,这意味着在海量数据中快速精准地找到有效信息越来越困难。我们把网络中的文本称为自然语言,由于中文文本的组成结构,致使理解文本的前提是提取文本中的词的特征,即从非结构化文本中提取到有用的结构化数据的特征,而命名实体识别是从海量的自然语言文本中抽取如人名、地名、机构名等专有名词的任务,因此,对它的研究具有重要的研究意义和价值。目前,在进行命名实体识别时,需要对条件随机场(Conditional Random Field,CRF)层进行解码,采用的解码方式是遍历计算每一条路径的分数或者概率,然后选取分数或者概率最大的那一条路径作为预测路径。
[0003]然而,采用上述命名实体识别方法时,如果类别标签有N个,解码的句子长度是L,则需要进行次运算,造成识别时间长以及识别效率低的问题。
专利技术内 ...
【技术保护点】
【技术特征摘要】
1.一种医学命名实体识别方法,其特征在于,包括:将待预测中文序列输入至预设模型获取字符转移矩阵以及标签转移矩阵,所述字符转移矩阵用于表征所述待预测中文序列中字符被标注为每个命名实体标签的概率,所述标签转移矩阵用于表征命名实体标签之间相互转移的概率;从人工标注的命名实体识别数据中确定多个有效标签;对所述字符转移矩阵中的字符分数以及所述标签转移矩阵中多个有效标签对应的转移分数进行运算,获得前向分数矩阵以及回溯记录矩阵;将所述前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值,基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值,从后向前依次确定路径向量中每个元素的取值;按照所述路径向量中所述命名实体标签对应的序号对所述待预测中文序列进行标注,确定所述待预测中文序列的命名实体结果。2.根据权利要求1所述的方法,其特征在于,所述对所述字符转移矩阵中的字符分数以及所述标签转移矩阵中多个有效标签对应的转移分数进行运算,获得前向分数矩阵以及回溯记录矩阵,包括:设置初始行号为1;将所述初始行号作为第一目标行号;确定所述前向分数矩阵中第一目标行号对应的多个元素的取值以及所述回溯记录矩阵中第一目标行号对应的多个元素的取值;将所述第一目标行号加1后得到的数值作为更新后的初始行号,确定更新后的初始行号是否小于目标长度,所述目标长度为比所述待预测中文序列的字符数多2的数值;若小于目标长度,则返回执行将初始行号作为第一目标行号的步骤。3.根据权利要求2所述的方法,其特征在于,所述确定所述前向分数矩阵中第一目标行号对应的多个元素的取值以及所述回溯记录矩阵中第一目标行号对应的多个元素的取值,包括:设置初始列号为1;将初始列号作为第一目标列号;将所述前向分数矩阵中所述第一目标行号前一行中多个有效标签所在列对应的取值分别与标签转移矩阵中小于或者等于所述第一目标列号的每一列中多个有效标签所在行对应的取值之和,确定为多个候选衍生转移分数;从所述多个候选衍生转移分数中选取数值最大的候选衍生转移分数作为目标衍生转移分数;将所述目标衍生转移分数与所述字符转移矩阵中目标元素的取值之和作为前向分数矩阵中目标元素的取值,所述目标元素是所述第一目标行号及所述第一目标列号对应的元素;将所述目标衍生转移分数对应的有效标签对应的序号作为回溯记录矩阵中目标元素的取值;将所述第一目标列号加1后得到的数值作为更新后的初始列号,确定更新后的初始列号是否小于目标标签数,所述目标标签数是比设定命名实体标签的数量多2的数值;
若小于目标标签数,则返回执行所述将初始列号作为第一目标列号的步骤。4.根据权利要求1所述的方法,其特征在于,所述将所述前向分数矩阵最后一列中数值最大的前向分数对应的列号作为路径向量最后一个元素的取值,基于路径向量最后一个元素的取值以及回溯记录矩阵中目标元素的取值,从后向前依次确定路径向量中每个元素的取值,包括:将比所述待...
【专利技术属性】
技术研发人员:张卓仁,王实,张奇,
申请(专利权)人:北京惠每云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。