基于序列转换的命名实体识别方法及系统技术方案

技术编号:43094597 阅读:33 留言:0更新日期:2024-10-26 09:40
本发明专利技术公开一种基于序列转化的命名实体识别方法及系统,属于信息抽取领域。所述方法包括:利用双向长短记忆神经网络解码自然文本,得到第t个时间步的隐藏向量h<subgt;t</subgt;;利用单向长短记忆网络对所述隐藏向量h<subgt;t</subgt;进行解码,得到第j个时间步的解码结果s<subgt;j</subgt;;基于第j‑1个时间步的解码结果s<subgt;j‑1</subgt;生成第j个时间步的标签概率分布矩阵P<subgt;j</subgt;;获取条件随机场生成的标签转移概率矩阵A<subgt;j</subgt;;基于所有时间步j上的标签概率分布矩阵P<subgt;j</subgt;和标签转移概率矩阵A<subgt;j</subgt;,得到自然文本对应的命名实体识别结果。本发明专利技术可以利用过去和未来的标签来高精度地预测当前标签。

【技术实现步骤摘要】

本专利技术属于信息抽取领域,涉及具体为一种基于序列转化的命名实体识别方法及系统。


技术介绍

1、实体识别(named entity recognition,ner)是一项重要的自然语言处理任务,旨在从文本中识别并分类特定类型的命名实体,如人名、地名、组织机构等。ner的发展历程可以追溯到上世纪九十年代,当时主要依靠基于规则和手工特征的传统方法。随着机器学习和深度学习技术的发展,ner技术迎来了新的突破和进展。

2、在传统的方法中,研究者通常采用基于规则的方法或者基于统计的方法进行实体识别。基于规则的方法依赖于手工编写的规则和模式,这在处理复杂语言结构和多样化的文本时存在一定的局限性。而基于统计的方法则利用机器学习算法,如隐马尔可夫模型(hidden markov model,hmm)和条件随机场(conditional random fields,crf),通过标注好的训练数据学习文本中实体的特征和上下文信息,从而实现实体识别。然而,这些方法在处理复杂语言结构和大规模语料库时效果有限,需要大量的手工特征工程。

3、随着深度学习技术的本文档来自技高网...

【技术保护点】

1.一种基于序列转化的命名实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于单向长短记忆网络对所述隐藏向量ht进行解码,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述隐藏向量ht的注意力机制计算,得到时间步j上的上下文向量Cj,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于第j-1个时间步的解码结果sj-1生成第j个时间步的标签概率分布矩阵Pj,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵Aj,得到自然文本对...

【技术特征摘要】

1.一种基于序列转化的命名实体识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于单向长短记忆网络对所述隐藏向量ht进行解码,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述隐藏向量ht的注意力机制计算,得到时间步j上的上下文向量cj,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于第j-1个时间步的解码结果sj-1生成第j个时间步的标签概率分布矩阵pj,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所有时间步j上的标签概率分布矩阵pj和标签转移概率矩阵aj,得到自然文本对应的命名实体识别结果,包括:

【专利技术属性】
技术研发人员:赵淳璐潘进王元杰柳毅杨博李紫微辛永辉骆奕霖孙明杰
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1