命名实体识别方法及其装置、设备、介质、产品制造方法及图纸

技术编号:32974215 阅读:20 留言:0更新日期:2022-04-09 11:47
本申请公开一种命名实体识别方法及其装置、设备、介质、产品,所述方法包括:根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息;以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;根据所述文本特征向量从待识别文本中识别出其中的命名实体。本申请通过改进编码方式,使待识别文本的文本特征向量参考了词元之时的相对位置信息,从而提升命名实体识别的准确度,具有基础和宽广的应用前景。前景。前景。

【技术实现步骤摘要】
命名实体识别方法及其装置、设备、介质、产品


[0001]本申请涉及自然语言处理
,尤其涉及一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]命名实体识别在电商领域的搜索、推荐和用户画像分析等都起着重要作用,例如用户搜索时,搜索框对用户搜索的词汇联想,可以引导用户搜索想要搜索的商品词,提高搜索效率,而词汇联想中的联想词需要基于商品库中的商品,命名实体识别方法就可以识别出商品词。根据用户的搜索,识别出搜索关键词的标签,例如商品词、品牌等,可以用户的权重提高搜索精排的效果。同时用户的搜索商品、点击商品、加购、下单商品等行为,可以使用命名实体识别方法识别出用户这些行为的偏好,用于用户画像分析,诸如此类。
[0003]采用Bert模型进行命名实体识别是近几年来比较流行的一种方法,该方法对Bert模型实施两阶段训练,先经第一阶段实施预训练后,以预训练模型作为基座,进行下游任务所需的命名实体识别相对应的微调训练,一般能取得相应的效果。
[0004]美中不足的是,Bert模型不同于其所采用的基础架构,即Transformer模型,Transformer模型利用三角函数位置编码对待识别文本的相对位置信息进行编码,但是Bert模型在对待识别文本进行词嵌入时,虽同时给出令牌嵌入(Token Embedding)、段嵌入(Segment Embedding)以及位置嵌入(Position Embedding),但其中的位置嵌入只是各个词元的绝对位置信息,因此,在Bert模型的表示学习过程中,Bert模型未能获得词元之间的相对位置关系的感知能力,而将Transformer模型的三角函数编码方法生硬地套用到Bert模型中,也无法有效发挥作用。
[0005]但是,文本中的相对位置信息是非常重要的,举例而言,英文“Wang founded Leadners IP Firm in 2019”,这一语句中,介词“in”之后的词比它之前的词更有可能是地点和时间,而“Firm”之前的词更有可能是地点和时间,可见,词元所处的位置对于上下文的理解有重要作用。对此,中文也同理,例如,“王某在2019年建立了利能事务所”,同理,“在”之后一般紧跟时间或地点。由此可见,模型如能有效感知文本中的词元之间的距离,获得相对位置信息,对于命名实体识别等任务来说,是有助益的。
[0006]本申请人所从事的电商领域,长期需要处理大量的文本信息,较为倚重准确的命名实体识别结果,故此,在实践过程中探索改进上述不足的方案,提出本申请。

技术实现思路

[0007]本申请的首要目的在于解决上述问题至少之一而提供一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0008]为满足本申请的各个目的,本申请采用如下技术方案:
[0009]根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;
[0010]根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征
信息;
[0011]以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;
[0012]根据所述文本特征向量从待识别文本中识别出其中的命名实体。
[0013]具体化的实施例中,根据待识别文本分词获得的多个词元编码生成相应的嵌入向量,包括如下步骤:
[0014]获取待识别文本,所述待识别文本为用于描述商品信息的标题文本;
[0015]采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇;
[0016]分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。
[0017]具体化的实施例中,根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息,包括如下步骤:
[0018]根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵;
[0019]将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵;
[0020]对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息。
[0021]深化的实施例中,根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵,包括如下步骤:
[0022]针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵;
[0023]针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵;
[0024]针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;
[0025]针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为第四编码矩阵。
[0026]具体化的实施例中,以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,包括如下由首个编码网络执行的步骤:
[0027]采用当前编码网络中的自注意力层为各个词元的嵌入向量构造其相对应的查询向量、键向量及值向量;
[0028]由该自注意力层将所有词元相对应的值向量进行加权求和,各值向量相应的权重为其相对应的键向量与其他嵌入向量相对应的查询向量的点积的归一化分值;
[0029]由该自注意力层将加权求和结果乘以转换权重矩阵与所述相对位置特征信息的加和结果,获得中间信息矩阵,使所述相对位置特征信息构成所述中间信息矩阵的关联权重;
[0030]经前馈神经层对所述中间信息矩阵进行特征提取,获得文本特征向量,作为下一
个编码网络的自注意力层所需的输入。
[0031]具体化的实施例中,根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
[0032]采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;
[0033]根据词性将各个命名实体输出至与词性相应的存储位置,以构成商品信息中词性相应的属性数据。
[0034]具体化的实施例中,根据所述文本特征向量从待识别文本中识别出其中的命名实体,包括如下步骤:
[0035]采用条件随机场模型对所述命名实体进行词性标注以确定各个命名实体的词性;
[0036]根据词性提取出其中的目标词性相对应的命名实体,将该命名实体与预设的实体词典精准匹配,将实现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括如下步骤:根据待识别文本分词获得的多个词元编码生成相应的嵌入向量;根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息;以各词元的嵌入向量为输入,经至少一个包含自注意力层的编码网络进行特征交互,生成文本特征向量,其中,所述相对位置特征信息作为生成所述文本特征向量的关联权重;根据所述文本特征向量从待识别文本中识别出其中的命名实体。2.根据权利要求1所述的命名实体识别方法,其特征在于,根据待识别文本分词获得的多个词元编码生成相应的嵌入向量,包括如下步骤:获取待识别文本,所述待识别文本为用于描述商品信息的标题文本;采用预训练的分词模型对所述待识别文本进行分词,获得相对应的多个词元,所述词元为由英文单词或中文汉字为单字构成的词汇;分别编码各个词元的嵌入向量,每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。3.根据权利要求1所述的命名实体识别方法,其特征在于,根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息,包括如下步骤:根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵;将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵;对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出,获得相对位置特征信息。4.根据权利要求3所述的命名实体识别方法,其特征在于,根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码,获得每个相对距离尺度相对应的编码矩阵,包括如下步骤:针对每个词元,计算其与任意一个词元之间前者首字与后者首字之间的相对距离,获得每个词元相对应的第一向量,将所有词元的第一向量拼接为第一编码矩阵;针对每个词元,计算其与任意一个词元之间前者首字与后者末字之间的相对距离,获得每个词元相对应的第二向量,将所有词元的第二向量拼接为第二编码矩阵;针对每个词元,计算其与任意一个词元之间前者末字与后者首字之间的相对距离,获得每个词元相对应的第三向量,将所有词元的第三向量拼接为第三编码矩阵;针对每个词元,计算其与任意一个词元之间前者末字与后者末字之间的相对距离,获得每个词元相对应的第四向量,将所有词元的第四向量拼接为...

【专利技术属性】
技术研发人员:郭东波
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1