【技术实现步骤摘要】
本专利技术属于信息抽取领域,涉及具体为一种基于序列转化的命名实体识别方法及系统。
技术介绍
1、实体识别(named entity recognition,ner)是一项重要的自然语言处理任务,旨在从文本中识别并分类特定类型的命名实体,如人名、地名、组织机构等。ner的发展历程可以追溯到上世纪九十年代,当时主要依靠基于规则和手工特征的传统方法。随着机器学习和深度学习技术的发展,ner技术迎来了新的突破和进展。
2、在传统的方法中,研究者通常采用基于规则的方法或者基于统计的方法进行实体识别。基于规则的方法依赖于手工编写的规则和模式,这在处理复杂语言结构和多样化的文本时存在一定的局限性。而基于统计的方法则利用机器学习算法,如隐马尔可夫模型(hidden markov model,hmm)和条件随机场(conditional random fields,crf),通过标注好的训练数据学习文本中实体的特征和上下文信息,从而实现实体识别。然而,这些方法在处理复杂语言结构和大规模语料库时效果有限,需要大量的手工特征工程。
3
...【技术保护点】
1.一种基于序列转化的命名实体识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于单向长短记忆网络对所述隐藏向量ht进行解码,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述隐藏向量ht的注意力机制计算,得到时间步j上的上下文向量Cj,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于第j-1个时间步的解码结果sj-1生成第j个时间步的标签概率分布矩阵Pj,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所有时间步j上的标签概率分布矩阵Pj和标签转移概率矩阵
...【技术特征摘要】
1.一种基于序列转化的命名实体识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于单向长短记忆网络对所述隐藏向量ht进行解码,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述隐藏向量ht的注意力机制计算,得到时间步j上的上下文向量cj,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于第j-1个时间步的解码结果sj-1生成第j个时间步的标签概率分布矩阵pj,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所有时间步j上的标签概率分布矩阵pj和标签转移概率矩阵aj,得到自然文本对应的命名实体识别结果,包括:
【专利技术属性】
技术研发人员:赵淳璐,潘进,王元杰,柳毅,杨博,李紫微,辛永辉,骆奕霖,孙明杰,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。