命名实体识别方法及其装置、设备、介质、产品制造方法及图纸

技术编号：32974215 阅读：20 留言：0更新日期：2022-04-09 11:47

本申请公开一种命名实体识别方法及其装置、设备、介质、产品，所述方法包括：根据待识别文本分词获得的多个词元编码生成相应的嵌入向量；根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息；以各词元的嵌入向量为输入，经至少一个包含自注意力层的编码网络进行特征交互，生成文本特征向量，其中，所述相对位置特征信息作为生成所述文本特征向量的关联权重；根据所述文本特征向量从待识别文本中识别出其中的命名实体。本申请通过改进编码方式，使待识别文本的文本特征向量参考了词元之时的相对位置信息，从而提升命名实体识别的准确度，具有基础和宽广的应用前景。前景。前景。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别方法及其装置、设备、介质、产品

[0001]本申请涉及自然语言处理
，尤其涉及一种命名实体识别方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

技术介绍

[0002]命名实体识别在电商领域的搜索、推荐和用户画像分析等都起着重要作用，例如用户搜索时，搜索框对用户搜索的词汇联想，可以引导用户搜索想要搜索的商品词，提高搜索效率，而词汇联想中的联想词需要基于商品库中的商品，命名实体识别方法就可以识别出商品词。根据用户的搜索，识别出搜索关键词的标签，例如商品词、品牌等，可以用户的权重提高搜索精排的效果。同时用户的搜索商品、点击商品、加购、下单商品等行为，可以使用命名实体识别方法识别出用户这些行为的偏好，用于用户画像分析，诸如此类。
[0003]采用Bert模型进行命名实体识别是近几年来比较流行的一种方法，该方法对Bert模型实施两阶段训练，先经第一阶段实施预训练后，以预训练模型作为基座，进行下游任务所需的命名实体识别相对应的微调训练，一般能取得相应的效果。
[0004]美中不足的是，Bert模型不同于其所采用的基础架构，即Transformer模型，Transformer模型利用三角函数位置编码对待识别文本的相对位置信息进行编码，但是Bert模型在对待识别文本进行词嵌入时，虽同时给出令牌嵌入(Token Embedding)、段嵌入(Segment Embedding)以及位置嵌入(Position Embedding)，但其中的位置嵌入只是各个词元的绝对位置信息，因此...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，包括如下步骤：根据待识别文本分词获得的多个词元编码生成相应的嵌入向量；根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息；以各词元的嵌入向量为输入，经至少一个包含自注意力层的编码网络进行特征交互，生成文本特征向量，其中，所述相对位置特征信息作为生成所述文本特征向量的关联权重；根据所述文本特征向量从待识别文本中识别出其中的命名实体。2.根据权利要求1所述的命名实体识别方法，其特征在于，根据待识别文本分词获得的多个词元编码生成相应的嵌入向量，包括如下步骤：获取待识别文本，所述待识别文本为用于描述商品信息的标题文本；采用预训练的分词模型对所述待识别文本进行分词，获得相对应的多个词元，所述词元为由英文单词或中文汉字为单字构成的词汇；分别编码各个词元的嵌入向量，每个词元的嵌入向量包括该词元的令牌嵌入、位置嵌入以及段嵌入。3.根据权利要求1所述的命名实体识别方法，其特征在于，根据所述多个词元中两两词元之间的多个相对距离尺度编码生成相对位置特征信息，包括如下步骤：根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码，获得每个相对距离尺度相对应的编码矩阵；将各个相对距离尺度相对应的编码矩阵拼接为多通道编码矩阵；对所述多通道编码矩阵匹配可学习权重进行非线性变换以激活输出，获得相对位置特征信息。4.根据权利要求3所述的命名实体识别方法，其特征在于，根据不同的相对距离尺度对所述各个词元中两两词元之间的相对距离信息进行编码，获得每个相对距离尺度相对应的编码矩阵，包括如下步骤：针对每个词元，计算其与任意一个词元之间前者首字与后者首字之间的相对距离，获得每个词元相对应的第一向量，将所有词元的第一向量拼接为第一编码矩阵；针对每个词元，计算其与任意一个词元之间前者首字与后者末字之间的相对距离，获得每个词元相对应的第二向量，将所有词元的第二向量拼接为第二编码矩阵；针对每个词元，计算其与任意一个词元之间前者末字与后者首字之间的相对距离，获得每个词元相对应的第三向量，将所有词元的第三向量拼接为第三编码矩阵；针对每个词元，计算其与任意一个词元之间前者末字与后者末字之间的相对距离，获得每个词元相对应的第四向量，将所有词元的第四向量拼接为...

【专利技术属性】
技术研发人员：郭东波，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人