多类目识别方法技术

技术编号:39578621 阅读:9 留言:0更新日期:2023-12-03 19:29
本公开关于一种多类目识别方法

【技术实现步骤摘要】
多类目识别方法、装置、电子设备及储存介质


[0001]本公开涉及自然语言处理
,尤其涉及一种多类目识别方法

装置

电子设备及储存介质


技术介绍

[0002]在当今电子商务搜索中,商品种类繁多且数量庞大

简单的关键词匹配已经无法满足全量和多样化的查询需求以及与商品之间的映射关系

类目识别技术作为商城搜索中的重要技术之一,能够准确识别用户在搜索场景下的真实意图

这项技术不仅可以缩小搜索系统中召回模块的召回范围,还能为排序模块提供类目特征,将用户更关心的商品展示在最前面,使用户更容易找到所需商品,从而提升购物体验和满意度

因此,准确实现对用户搜索文本进行类目识别是迫切需要解决的问题


技术实现思路

[0003]本公开提供一种多类目识别方法

装置

电子设备及储存介质,以至少解决对用户搜索文本进行类目识别不准确的问题

本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种多类目识别方法,包括:获取用户输入的实时请求文本;将实时请求文本输入目标多类目识别模型,获取目标多类目识别模型输出的每个候选类目对应的类目预测概率,其中,目标多类目识别模型中预设的有候选类目集合,候选类目集合中包含多个候选类目;将所有类目预测概率按照从大到小的顺序进行排序,获取排序后生成的类目预测概率序列;获取类目预测概率序列中的前
N
个类目预测概率对应的
N
个候选类目,并将
N
个候选类目作为实时请求文本对应的目标类目

[0005]在一些实施例中,目标多类目识别模型的训练方法,包括:获取样本数据集,其中,样本数据集中的每个样本数据包含一个请求文本以及与请求文本相关联的一个或多个类目标签;获取预设的候选类目集合,候选类目集合中包含多个候选类目;基于样本数据集和候选类目集合对初始多类目识别模型进行训练,获取初始多类目识别模型输出的每个请求文本对应的每个候选类目的类目预测概率;基于每个请求文本对应的每个候选类目的类目预测概率,结合该请求文本相关联的一个或多个类目标签,对初始多类目识别模型进行迭代训练,获取训练完成后生成的目标多类目识别模型

[0006]在一些实施例中,初始多类目识别模型由文本编码器

类目编码器

语义聚合层和输出层组成,基于样本数据集和候选类目集合对初始多类目识别模型进行训练,获取初始多类目识别模型输出的每个请求文本对应的每个候选类目的类目预测概率,包括:将样本数据集的请求文本输入文本编码器,获取文本编码器输出的文本特征向量;将候选类目集合输入类目编码器,获取类目编码器输出的类目向量;基于语义聚合层对类目向量与文本特征向量进行聚合,获取聚合后生成的聚合特征向量;基于聚合特征向量,经输出层处理后输出每个请求文本对应的每个候选类目的类目预测概率

[0007]在一些实施例中,文本编码器由位置编码器

预训练句子编码器和堆叠编码器组
成,将样本数据集的请求文本输入文本编码器,获取文本编码器输出的文本特征向量,包括:将样本数据集中的请求文本输入位置编码器,获取位置编码器输出的位置嵌入向量;将样本数据集中的请求文本输入预训练句子编码器,获取预训练句子编码器输出的语义特征向量,位置嵌入向量与语义特征向量的维度相同;将位置嵌入向量与语义特征向量相加,获取相加后获得的语义位置融合向量;将语义位置融合向量输入堆叠编码器,获取经堆叠编码器进行特征提取后输出的文本特征向量

[0008]在一些实施例中,基于语义聚合层对类目向量与文本特征向量进行聚合,获取聚合后生成的聚合特征向量,包括:基于注意力机制获取文本特征向量中每个
token
向量的权重;基于每个
token
向量的权重结合类目向量进行加权,获得聚合特征向量

[0009]在一些实施例中,基于聚合特征向量,经输出层处理后输出每个请求文本对应的每个候选类目的类目预测概率,包括:对聚合特征向量进行线性变换和函数激活,以获取每个请求文本对应的每个候选类目的类目预测概率

[0010]在一些实施例中,对初始多类目识别模型进行迭代训练,获取训练完成后生成的目标多类目识别模型,包括:对初始多类目识别模型进行迭代训练,直至初始多类目识别模型的损失函数收敛,结束训练,获取训练完成后生成的目标多类目识别模型;或者,对初始多类目识别模型进行迭代训练,直至初始多类目识别模型的训练次数达到预设次数,结束训练,获取训练完成后生成的目标多类目识别模型

[0011]在一些实施例中,获取样本数据集,包括:基于样本用户的搜索浏览日志,获取每个样本用户所输入的请求文本,请求文本由一种或者多种语言组成;获取每个样本用户在输入请求文本之后,该样本用户所浏览的每个商品对应的用户浏览时长;针对任一请求文本,获取在输入该请求文本后用户浏览时长超过预设时长阈值的商品以及该商品对应的类目,将该商品对应的类目作为该请求文本的关联类目;针对任一请求文本,基于该请求文本与该请求文本对应的一个或多个关联类目,生成一个初始样本数据;对每条初始样本数据进行处理,以获取处理后的样本数据,并基于多条样本数据,生成样本数据集

[0012]在一些实施例中,对每条初始样本数据进行处理,以获取处理后的样本数据,包括:对每条初始样本数据进行数据格式化,获得数据格式化之后生成的多条格式化样本数据;对每条格式化样本数据进行数据增强,获得数据增强之后生成的多条数据增强样本数据;对每条数据增强样本数据进行数据清洗,获得数据清洗之后生成的多条样本数据

[0013]根据本公开实施例的第二方面,提供一种多类目识别装置,包括:文本获取模块,用于获取用户输入的实时请求文本;模型输出模块,用于将实时请求文本输入目标多类目识别模型,获取目标多类目识别模型输出的每个候选类目对应的类目预测概率,其中,目标多类目识别模型中预设的有候选类目集合,候选类目集合中包含多个候选类目;概率排序模块,用于将所有类目预测概率按照从大到小的顺序进行排序,获取排序后生成的类目预测概率序列;类目确定模块,用于获取类目预测概率序列中的前
N
个类目预测概率对应的
N
个候选类目,并将
N
个候选类目作为实时请求文本对应的目标类目

[0014]在一些实施例中,多类目识别装置还包括模型训练模块,模型训练模块,用于:获取样本数据集,其中,样本数据集中的每个样本数据包含一个请求文本以及与请求文本相关联的一个或多个类目标签;获取预设的候选类目集合,候选类目集合中包含多个候选类目;基于样本数据集和候选类目集合对初始多类目识别模型进行训练,获取初始多类目识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多类目识别方法,其特征在于,包括:获取用户输入的实时请求文本;将所述实时请求文本输入目标多类目识别模型,获取所述目标多类目识别模型输出的每个候选类目对应的类目预测概率,其中,所述目标多类目识别模型中预设的有候选类目集合,所述候选类目集合中包含多个候选类目;将所有所述类目预测概率按照从大到小的顺序进行排序,获取排序后生成的类目预测概率序列;获取所述类目预测概率序列中的前
N
个类目预测概率对应的
N
个候选类目,并将所述
N
个候选类目作为所述实时请求文本对应的目标类目
。2.
根据权利要求1所述的方法,其特征在于,所述目标多类目识别模型的训练方法,包括:获取样本数据集,其中,所述样本数据集中的每个样本数据包含一个请求文本以及与所述请求文本相关联的一个或多个类目标签;获取预设的候选类目集合,所述候选类目集合中包含多个候选类目;基于所述样本数据集和所述候选类目集合对初始多类目识别模型进行训练,获取所述初始多类目识别模型输出的每个请求文本对应的每个所述候选类目的类目预测概率;基于所述每个请求文本对应的每个所述候选类目的类目预测概率,结合该请求文本相关联的一个或多个类目标签,对所述初始多类目识别模型进行迭代训练,获取训练完成后生成的所述目标多类目识别模型
。3.
根据权利要求2所述的方法,其特征在于,所述初始多类目识别模型由文本编码器

类目编码器

语义聚合层和输出层组成,所述基于所述样本数据集和所述候选类目集合对初始多类目识别模型进行训练,获取所述初始多类目识别模型输出的每个请求文本对应的每个所述候选类目的类目预测概率,包括:将所述样本数据集的请求文本输入所述文本编码器,获取所述文本编码器输出的文本特征向量;将所述候选类目集合输入所述类目编码器,获取所述类目编码器输出的类目向量;基于所述语义聚合层对所述类目向量与所述文本特征向量进行聚合,获取聚合后生成的聚合特征向量;基于所述聚合特征向量,经所述输出层处理后输出每个请求文本对应的每个所述候选类目的类目预测概率
。4.
根据权利要求3所述的方法,其特征在于,所述文本编码器由位置编码器

预训练句子编码器和堆叠编码器组成,所述将所述样本数据集的请求文本输入所述文本编码器,获取所述文本编码器输出的文本特征向量,包括:将所述样本数据集中的请求文本输入所述位置编码器,获取所述位置编码器输出的位置嵌入向量;将所述样本数据集中的请求文本输入所述预训练句子编码器,获取所述预训练句子编码器输出的语义特征向量,所述位置嵌入向量与所述语义特征向量的维度相同;将所述位置嵌入向量与所述语义特征向量相加,获取相加后获得的语义位置融合向量;
将所述语义位置融合向量输入所述堆叠编码器,获取经所述堆叠编码器进行特征提取后输出的所述文本特征向量
。5.
根据权利要求3所述的方法,其特征在于,所述基于所述语义聚合层对所述类目向量与所述文本特征向量进行聚合,获取聚合后生成的聚合特征向量,包括:基于注意力机制获取所述文本特征向量中每个
token
向量的权重;基于所述每个
token
向量的权重结合所述类目向量进行加权,获得所述聚合特征向量
。6.
根据权利要求3所述的方法,其特征在于,所述基于所述聚合特征向量,经所述输出层处理后输出每个请求文本对应的每个所述候选类目的类目预测概率,包括:对所述聚合特征向量进行线性变换和函数激活,以获取每个请求文本对应的每个所述候选类目的类目预测概率
。7.
根据权利要求2‑6中任一项所述的方法,其特征在于,所述对所述初始多类目识别模型进行迭代训练,获取训练完成后生成的所述目标多类目识别模型,包括:对所述初始多类目识别模型进行迭代训练,直至所述初始多类目识别模型的损失函数收敛,结束训练,获取训练完成后生成的所述目标多类目识别模型;或者,对所述初始多类目识别模型进行迭代训练,直至所述初始多类目识别模型的训练次数达到预设次数,结束训练,获取训练完成后生成的所述目标多类目识别模型
。8.
根据权利要求7所述的方法,其特征在于,所述获取样本数据集,包括:基于样本用户的搜索浏览日志,获取每个样本用户所输入的请求文本,所述请求文本由一种或者多种语言组成;获取每个所述样本用户在输入所述请求文本之后,该样本用户所浏览的每个商品对应的用户浏览时长;针对任一所述请求文本,获取在输入该请求文本后用户浏览时长超过预设时长阈值的商品以及该商品对应的类目,将该商品对应的类目作为该请求文本的关联类目;针对任一所述请求文本,基于该请求文本与该请求文本对应的一个或多个关联类目,生成一个初始样本数据;对每条所述初始样本数据进行处理,以获取处理后的样本数据,并基于多条所述样本数据,生成所述样本数据集
。9.
根据权利要求8所述的方法,其特征在于,所述对每条所述初始样本数据进行处理,以获取处理后的样本数据,包括:对每条所述初始样本数据进行数据格式化,获得数据格式化之后生成的多条格式化样本数据;对每条所述格式化样本数据进行数据增强,获得数据增强之后生成的多条数据增强样本数据;对每条所述数据增强样本数据进行数据清洗,获得数据清洗之后生成的多条所述样本数据
。10.
一种多类目识别装置,其特征在于,包括:文本获取模块,用于获取用户输入的实时请求文本;模型输出模块,用于将所述实时请求文本输入目标多类目识别模型,获取所述目标多类目识别模型输出的每个候选类目对应的类目预测概率,其中,所述目标多类目识别模...

【专利技术属性】
技术研发人员:祝大伟
申请(专利权)人:北京小米移动软件有限公司北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1