本申请涉及一种商品类目的预测方法、装置、计算机设备和存储介质。方法包括:获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;选取频率特征、覆盖特征和点击特征,构建商品组索引;接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。本发明专利技术基于多组特征构建,结合文本信息特征、用户行为特征、商品组本身特征,实现类目预测,进而提高搜索结果的准确性。高搜索结果的准确性。高搜索结果的准确性。
【技术实现步骤摘要】
一种商品类目的预测方法、装置、计算机设备和存储介质
[0001]本申请涉及搜索预测的
,特别是涉及一种商品类目的预测方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着电子商务的发展及商品数量的增长,搜索引擎已成为人们购物的主要入口之一。每个用户在发起一次搜索后,将会经历多个阶段。首先是QR阶段(query rewrite),后进行文本粗排序、精排序,最终呈现给用户一次搜索的结果。在电商搜索中,用户输入文本后,首先要预测的就是文本与商品类目的关系,预测的结果将作用在后续多个模块,对整个搜索带来很大的影响。
[0003]现有常用的类目预测方案如下:
[0004]一、利用电商商品中的纯文本信息建立索引,后结合文本匹配度打分,实现类目预测。但是,该方法对商品文本内容纯度要求很高,并且忽略了用户行为对结果的影响。
[0005]二、使用多维度数据使用机器学习方法进行类目预测。该方法的弊端在于,无法利用搜索技术中纯文本匹配的优势,另外一个弊端是预测速度往往达不到线上要求。
[0006]经典BM25算法如下公式1所示,通常可以用BM25算法来做搜索排序打分。对搜索信息Q进行语素解析,生成语素qi;然后,对于每个搜索结果文档d,计算每个语素qi与文档d的相关性得分,最后,将语素qi相对于文档d的相关性得分进行加权求和,从而得到搜索信息Q与搜索结果D的相关性得分。
[0007][0008]其中wi是判断一个词与一个文档的相关性的权重,方法有多种,较常用的是IDF,IDF前文已经说明。语素qi与文档d的相关性得分R(qi,d)如下公式2,K的值如下公式3。
[0009][0010]其中,qi表示搜索词,qfi表示搜索信息Query中搜索词词频,k1,k2为权值因子。
[0011][0012]其中,k1、b是权值因子,dl是文档长度,avgdl是平均文档长度。
[0013]因此,经典的BM25算法仅考虑词频、逆文档频率,并没有考虑覆盖商品数目特征、点击次数特征;商品组商品数量很大,统计词频、点击次数特征值都很大,按照经典BM25算法计算R(qi,d),大部分商品组文档计算出来的R值将会十分接近一个常数值。假设qfi为1,dl和avgdl相当,k1取2,那么R(qi,d)可以简化为3fi/(fi+2),fi表示在商品组下词出现的频率,前文已说明商品组下商品数量往往上百万,这就使fi往往会很大,fi很大的情况下R(qi,d)就会趋向于整数3,fi越大最终的值越趋近于3。
技术实现思路
[0014]为了解决上述问题,本专利技术提出了:
[0015]一种商品类目的预测方法,该方法包括:
[0016]获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;
[0017]根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;
[0018]选取频率特征、覆盖特征和点击特征,构建商品组索引;
[0019]接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0020]在一个实施例中,对预处理后的商品信息数据进行分词处理,统计每个词的词频特征,并根据词频特征,获取该词的逆文档频率特征,频率特征包括词频特征和逆文档频率特征。
[0021]在一个实施例中,根据分词处理的结果,统计每个词覆盖的商品数以及覆盖的商品组总数,分别提取词覆盖商品数特征和词覆盖商品组总数特征,覆盖特征包括词覆盖商品数特征和词覆盖商品组总数特征。
[0022]在一个实施例中,根据预设时间段,在预处理后的用户行为数据中提取具有点击纪录的商品信息数据,并对上述商品信息数据进行分词处理,根据每个商品所在的商品组,获取每个词的总点击数和在每个商品组下的每个词点击数,形成词点击总数特征和商品组下词点击数特征,点击特征包括词点击总数特征和商品组下词点击数特征。
[0023]在一个实施例中,对搜索信息进行分词处理并分析词性,根据每个词的词性设定对应的相关性权值,加权计算每个词的相关性,输出类目候选集。
[0024]在一个实施例中,每个词的相关性为:
[0025][0026]其中,qi为搜索信息的词,d为搜索结果,Kt是词频对应的K值,kg是商品组对应的K值,kg和Kt的取值相同,nij是qi在商品组j上的词频,∑
k nkj是qi在所有商品组的总词频,gij是qi在商品组j上覆盖的商品数目,∑
k gkj是qi在所有商品组下的总覆盖商品数,cl是qi的点击数,clall是qi的总点击数。
[0027]在一个实施例中,商品特征还包括类目性别特征,分析搜索信息的类目性别特征,在类目候选集中,过滤与搜索信息性别冲突的类目。
[0028]一种商品类目的预测装置,该装置包括:
[0029]预处理模块,用于获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;
[0030]特征提取模块,用于根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;
[0031]索引模块,用于选取频率特征、覆盖特征和点击特征,构建商品组索引;
[0032]预测模块,用于接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0033]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的
计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0034]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0035]本专利技术的商品类目的预测方法、装置、计算机设备和存储介质,基于多组特征构建,结合文本信息特征、用户行为特征、商品组本身特征,实现类目预测,进而提高搜索结果的准确性。
附图说明
[0036]图1为一个实施例中一种商品类目的预测方法的步骤示意图;
[0037]图2为一个实施例中一种商品类目的预测方法的流程示意图;
[0038]图3为一个实施例中一种商品类目的预测装置的结构框图;
[0039]图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0040]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0041]本申请提供的一种商品类目的预测方法,结合了Elasticsearch默认BM25算法,加入商品组下多组特征,重新设计打分算法,优化类目预测结果。
[0042]先是对商品组下商品信息数据、用户行为信息进行数据预处理,后根据需求进行特征提取,对提取特征进行索引构建,后进行自定义打分,对打分结果进行排序,并做规则化处理,实现类目预测。在一个实施例中,如图1本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种商品类目的预测方法,其特征在于,所述方法包括:获取所有商品组下的商品信息数据和用户行为数据,预处理所述商品信息数据和用户行为数据,统计多个商品指标;根据所述多个商品指标,提取多组商品特征,所述多组商品特征至少包括频率特征、覆盖特征和点击特征;选取所述频率特征、覆盖特征和点击特征,构建商品组索引;接收并分析搜索信息,根据所述商品组索引,输出所述搜索信息对应的类目候选集。2.根据权利要求1所述的方法,其特征在于,对预处理后的商品信息数据进行分词处理,统计每个词的词频特征,并根据所述词频特征,获取该词的所述逆文档频率特征,所述频率特征包括词频特征和逆文档频率特征。3.根据权利要求2所述的方法,其特征在于,根据所述分词处理的结果,统计每个词覆盖的商品数以及覆盖的商品组总数,分别提取词覆盖商品数特征和词覆盖商品组总数特征,所述覆盖特征包括词覆盖商品数特征和词覆盖商品组总数特征。4.根据权利要求3所述的方法,其特征在于,根据预设时间段,在预处理后的用户行为数据中提取具有点击纪录的商品信息数据,并对上述商品信息数据进行分词处理,根据每个商品所在的商品组,获取每个词的总点击数和在每个商品组下的每个词点击数,形成词点击总数特征和商品组下词点击数特征,所述点击特征包括词点击总数特征和商品组下词点击数特征。5.根据权利要求1所述的方法,其特征在于,对所述搜索信息进行分词处理并分析词性,根据每个词的词性设定对应的相关性权值,加权计算每个词的相关性,输出所述类目候选集。6.根据权利要求5所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:王国锋,孙鹏飞,
申请(专利权)人:苏宁云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。