一种商品关键词的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32590014 阅读:66 留言:0更新日期:2022-03-09 17:24
本公开提供了一种商品关键词的识别方法、装置、电子设备及存储介质,包括确定目标关键词映射的样本商品;获取样本商品对应的多种文本数据,获取每种文本数据的多个初始词向量;根据多个初始词向量,确定每种文本数据的第一词向量;根据目标关键词的词向量和每种文本数据的初始词向量,确定每种文本数据的第二词向量;构建样本商品对应的样本数据,样本数据包括目标关键词的词向量、每种文本数据的第一词向量和第二词向量和样本商品的属性特征;根据目标关键词映射的所有样本商品对应的样本数据,训练目标关键词对应的二分类模型;构建目标商品对应的目标数据,通过二分类模型对目标数据进行计算,识别目标关键词是否为目标商品的关键词。的关键词。的关键词。

【技术实现步骤摘要】
一种商品关键词的识别方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,尤其涉及一种商品关键词的识别方法、装置、电子设备及存储介质。

技术介绍

[0002]电商行业内,用户进行购买行为的时候,通常更加关心商品的属性信息,通过属性信息来搜索相关商品,如购买护肤品时,可搜索补水、保湿或清洁等属性信息作为护肤品的查询字段,购买药品时,可搜索创伤、消炎或镇痛等属性信息作为药品的查询字段。这类属性信息是商品的关键词,以商品的功效属性或者适用类型等标识形式与商品进行关联,因此若这类关键词若标注错误,会降低用户体验感,失去用户的信任。
[0003]由于商家的编辑失误或者有意诱导,这类关键词与商品不匹配的现象不可避免,现有的解决方案中,通常使用人工的方式对这类错误校正,即在审核过程中发现进行修改,或者在接收到用户的负面反馈后进行弥补,因此人工校正的效率较低,同时还存在已经失去用户信任的问题。其次,还存在通过模型对商品库中的商品的关键词进行识别和修改的方式,但现有的模型通常采取训练其多分类能力的形式,用于对商品进行关键词的分类,这类模型的要求较高,识别精度不高。

技术实现思路

[0004]本公开提供一种商品关键词的识别方法及装置,以至少解决现有技术中存在的以上技术问题。
[0005]本公开一方面提供一种商品关键词的识别方法,包括:确定目标关键词映射的所有样本商品;获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;获取每种所述文本数据的多个初始词向量;根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;
通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。
[0006]在一可实施方式中,所述文本数据为标题文本数据或标签文本数据时,获取所述文本数据的多个初始词向量,包括:获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。
[0007]在一可实施方式中,所述根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量,包括:根据所述标题文本数据对应的所有初始词向量和每个初始词向量的权重,得到所述标题文本数据对应的一个第一词向量;根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,根据所述中间词向量和中间词向量的权重,得到所述标签文本数据对应的一个第一词向量;计算每条所述评论文本数据对应的权重,根据所述权重和所述评论文本数据对应的初始词向量,得到所有评论文本数据对应的一个第一词向量。
[0008]在一可实施方式中,所述根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,包括:获取每个标签对应的所有初始词向量;对每个标签对应的所有初始词向量进行求和,再除以每个标签对应的所有初始词向量的个数,得到所述标签文本数据中每个标签对应的中间词向量。
[0009]在一可实施方式中,所述根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量,包括:所述文本数据为标题文本数据或评论文本数据时,计算所述目标关键词的词向量和所述文本数据的每个初始词向量的相似度,按照相似度从大到小选取设定数量的初始词向量,根据选取的多个初始词向量,确定所述文本数据的一个第二词向量;所述文本数据为标签文本数据时,计算所述目标关键词的词向量和所述文本数据的每个中间词向量的相似度,按照相似度从大到小选取设定数量的中间词向量,根据选取的多个中间词向量,确定所述文本数据的一个第二词向量。
[0010]在一可实施方式中,所述确定目标关键词映射的所有样本商品,包括:根据样本商品的属性特征对样本商品进行聚类处理,得到多个簇,将同一个簇中的多个样本商品映射到同一所述目标关键词。
[0011]本公开另一方面提供一种商品关键词的识别装置,包括:获取模块,用于确定目标关键词映射的所有样本商品;获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;
还用于获取每种所述文本数据的多个初始词向量;处理模块,用于根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;还用于构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;训练模块,用于根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;计算模块,用于构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;还用于通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。
[0012]在一可实施方式中,所述获取模块还用于获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。
[0013]本公开再一方面提供一种电子设备,包括:存储器和处理器,所述存储器存储由所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述商品关键词的识别方法。
[0014]本公开还一方面提供一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述商品关键词的识别方法。
[0015]基于上述方案,本公开提供一种商品关键词的识别方法,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种商品关键词的识别方法,其特征在于,包括:确定目标关键词映射的所有样本商品;获取所述样本商品对应的多种文本数据,所述文本数据包括:标题文本数据、标签文本数据和评论文本数据;获取每种所述文本数据的多个初始词向量;根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量;根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量;构建所述样本商品对应的样本数据,所述样本数据包括:所述目标关键词的词向量、每种所述文本数据的第一词向量和第二词向量和所述样本商品的属性特征;根据所述目标关键词映射的所有样本商品对应的样本数据,训练所述目标关键词对应的二分类模型;构建目标商品对应的目标数据,所述目标数据包括:所述目标关键词的词向量、所述目标商品对应的每种所述文本数据的第一词向量和第二词向量和所述目标商品的属性特征;通过所述二分类模型对所述目标数据进行计算,确定所述目标关键词是否为所述目标商品的关键词。2.根据权利要求1所述的商品关键词的识别方法,其特征在于,所述文本数据为标题文本数据或标签文本数据时,获取所述文本数据的多个初始词向量,包括:获取样本商品对应的所有初始关键词,所述初始关键词包括所述目标关键词;对于每个所述初始关键词:从所述文本数据中去除该初始关键词,并构建对应的滑动窗口,通过该滑动窗口对去除了该初始关键词的文本数据进行采集,得到该初始关键词对应的训练样本,根据所述训练样本得到该初始关键词对应的初始词向量集合,所述初始词向量集合包括至少一个初始词向量:所有初始关键词对应的初始词向量集合组成了所述文本数据的多个初始词向量。3.根据权利要求1或2所述的商品关键词的识别方法,其特征在于,所述根据每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第一词向量,包括:根据所述标题文本数据对应的所有初始词向量和每个初始词向量的权重,得到所述标题文本数据对应的一个第一词向量;根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,根据所述中间词向量和中间词向量的权重,得到所述标签文本数据对应的一个第一词向量;计算每条所述评论文本数据对应的权重,根据所述权重和所述评论文本数据对应的初始词向量,得到所有评论文本数据对应的一个第一词向量。4.根据权利要求3所述的商品关键词的识别方法,其特征在于,所述根据所述标签文本数据对应的所有初始词向量,得到所述标签文本数据中每个标签对应的中间词向量,包括:获取每个标签对应的所有初始词向量;对每个标签对应的所有初始词向量进行求和,再除以每个标签对应的所有初始词向量的个数,得到所述标签文本数据中每个标签对应的中间词向量。
5.根据权利要求1或2所述的商品关键词的识别方法,其特征在于,所述根据所述目标关键词的词向量和每种所述文本数据的多个初始词向量,确定每种所述文本数据的一个第二词向量,包括:所述文本数据为...

【专利技术属性】
技术研发人员:邵爽
申请(专利权)人:北京泰迪熊移动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1