一种词向量和类别向量融合下的命名实体识别方法及装置制造方法及图纸

技术编号:41535513 阅读:26 留言:0更新日期:2024-06-03 23:13
本发明专利技术公开了一种词向量和类别向量融合下的命名实体识别方法及装置,属于命名实体识别领域,包括:融合向量生成模块和命名实体识别模块两部分;融合向量生成模块采用BERT词向量表征文本语言信息,引入类别向量表征文本所属实体类型,通过BERT‑BiLSTM‑Softmax结构学习词向量和类别向量的对应关系,并将两者拼接生成文本的融合向量。命名实体识别模块采用BiLSTM‑CRF结构实现融合向量上下文特征的提取及标签序列预测结果的优化,得到融合向量到分类标签的映射知识,以此进行命名实体识别。本发明专利技术可以提升命名实体识别的性能。

【技术实现步骤摘要】

本专利技术涉及命名实体识别领域,更为具体的,涉及一种词向量和类别向量融合下的命名实体识别方法及装置


技术介绍

1、随着人工智能技术的发展,命名实体识别技术已从最初的基于规则的方式、基于统计的方式向基于机器学习的方式演变,尤其是结合深度学习进行命名实体识别已成为主要发展趋势。

2、基于深度学习的命名实体识别方式需要考虑数据集构建、文本向量化表示和深度学习模型建立等问题。由深度学习模式下命名实体识别实现原理可知,命名实体识别离不开文本特征的选取和处理,这些特征可通过一定技术手段表征在文本词向量中。当前,命名实体识别中的词向量大多是对文本语义、语法、词性、结构等特征的表征,本身不包含是否为实体或者属于哪类实体的表征信息。为此,本专利技术引入类别向量这一概念,利用类别向量来表征文本所属实体类型,并将其与词向量拼接后生成融合向量,得到更加丰富的文本表征信息。再以融合向量的构建和基于融合向量的命名实体识别为目标,结合目前命名实体识别领域性能突出的bert、bilstm、crf等技术来生成融合向量及命名实体识别知识,以此实现词向量和类别向量融合下的命名实体本文档来自技高网...

【技术保护点】

1.一种词向量和类别向量融合下的命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,所述采用词向量表征文本语言信息,引入类别向量表征文本所属实体类型,学习词向量和类别向量的对应关系,并将两者拼接生成文本的融合向量,具体包括子步骤:

3.根据权利要求2所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤S13中,所述分类器包括Softmax分类器。

4.根据权利要求2所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤S13中,所述全连接层采用线性神经网络...

【技术特征摘要】

1.一种词向量和类别向量融合下的命名实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,所述采用词向量表征文本语言信息,引入类别向量表征文本所属实体类型,学习词向量和类别向量的对应关系,并将两者拼接生成文本的融合向量,具体包括子步骤:

3.根据权利要求2所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤s13中,所述分类器包括softmax分类器。

4.根据权利要求2所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤s13中,所述全连接层采用线性神经网络,线性神经网络输入维度等于h(t)的维度,输出维度为设定的类别种数。

5.根据权利要求3所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤s14中,所述分类器为softmax分类器。

6.根据权利要求2所述的词向量和类别向量融合下的命名实体识别方法,其特征在于,在步骤s15中,所述多个类别向量组成类别向量矩阵之后,还包括子步骤:将类别向量矩阵大小定义为“类别种数×单个类别向量维度”;所述“类别种数×单个类别向量维度”包括:设定类别有非实体、实体i、实体ii和实体iii共4种,设定单个类别向量维度为50时,类别向量矩阵大小为4×50。

7.根据权利要求1...

【专利技术属性】
技术研发人员:周阳曾浩洋张位刘佳诚
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1