命名实体识别方法及系统、电子设备和存储介质技术方案

技术编号:29157414 阅读:78 留言:0更新日期:2021-07-06 22:57
本发明专利技术提供一种命名实体识别方法及系统、电子设备和存储介质,其中,命名实体识别方法,包括:将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控‑条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。能够有效的提高文本中存在实体比邻出现情况时的命名实体识别准确度。

【技术实现步骤摘要】
命名实体识别方法及系统、电子设备和存储介质
本专利技术涉及深度学习
,尤其涉及一种命名实体识别方法及系统、电子设备和存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER)任务是要识别出文本中具有特定意义的实体,属于序列标注问题的范畴。目前为止,大部分NER任务中都使用了条件随机场(conditionalrandomfield,简称CRF)作为模型的最后一步。CRF是基于发射分数和转移分数使用维特比算法解码出概率最高的预测标签序列,其中的转移分数约束使得最终的预测标签更加平滑,标签过渡更加自然合理。在大部分场景下,CRF都能很好的识别出文本中“孤立”的实体,但当实体之间比邻出现时,实体的识别准确度却大幅降低,这其中一部分的原因是实体之间比邻时会存在错误传播问题,即前一个实体识别有误时,大概率会影响相邻实体的识别,从而导致识别准确度大幅降低。因此,如何提供一种命名实体识别方法及系统、电子设备和存储介质,提高文本中存在实体比邻出现情况时的命名实体识别准确度,成为亟待解决的问题。...

【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;/n其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;/n所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;/n所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果;
其中,所述命名实体识别模型由样本文本信息及对应的标签序列训练得到;所述文本信息包括:文本词向量序列;
所述命名实体识别模型用于确定所述待识别文本信息对应的待识别文本特征序列和发射分数,基于门控-条件随机场确定门控系数;基于所述发射分数、所述门控系数和转移分数,确定实体识别结果;
所述门控系数为待识别文本特征序列中上一个时间步与当前时间步的相对预测置信度。


2.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体识别模型包括:特征提取层、特征处理层、门控处理层和概率预测层;
所述特征提取层用于确定所述待识别文本词向量序列中各时间步的上下文特征,基于所述各时间步的上下文特征确定所述待识别文本特征序列;
所述特征处理层用于根据所述待识别文本特征序列确定各时间步对应的发射分数;
所述门控处理层用于根据所述待识别文本特征序列确定各个时间步的预测置信度,基于所述各个时间步的预测置信度确定所述门控系数;
所述概率预测层用于根据所述发射分数、所述转移分数和所述门控系数确定所述待识别文本对应的实体标签序列以及对应的概率,作为所述实体识别结果。


3.根据权利要求2所述的命名实体识别方法,其特征在于,所述将待识别文本信息输入命名实体识别模型中,得到所述命名实体识别模型输出的实体识别结果,具体包括:
将所述待识别文本词向量序列输入至所述特征提取层中,得到所述特征提取层输出的所述待识别文本特征序列;
将所述待识别文本特征序列输入至所述特征处理层中,得到所述特征处理层输出的所述各时间步对应的发射分数;
将所述待识别文本特征序列输入至所述门控处理层中,得到所述门控处理层输出的所述各个时间步的门控系数;
将所述发射分数、所述转移分数和所述门控系数输入至所述概率预测层中,得到所述概率预测层输出的实体识别结果。


4.根据权利要求2所述的命名实体识别方法,其特征在于,所述门控处理层包括:线性处理层和系数计算层;
所述线性处理层用于将所述待识别文本特征序列中当前时间步和上一时间步的待识别文本特征变换到维度1,并通过Si...

【专利技术属性】
技术研发人员:李建强刘雅琦白骏
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1