商品搜索方法、装置、系统及电子设备制造方法及图纸

技术编号:23343687 阅读:21 留言:0更新日期:2020-02-15 03:59
本申请公开了商品搜索系统,商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。其中,商品搜索系统中的搜索服务器接收客户端发送的针对用户指定搜索词的商品搜索请求,若搜索词是零少结果词,则通过中心词提取模型,提取搜索词的中心词,确定与中心词匹配的商品对象,向客户端回送商品对象,其中所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的模型。采用这种处理方式,使得通过中心词提取模型自动提取搜索词的中心词,进而根据该中心词进行商品搜索;因此,可以有效提升中心词提取效率及准确率,提升搜索结果的召全率和召准率,从而带来用户转化和企业效益提升。

Commodity search methods, devices, systems and electronic equipment

【技术实现步骤摘要】
商品搜索方法、装置、系统及电子设备
本申请涉及搜索
,具体涉及一种商品搜索系统,商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。
技术介绍
生鲜电商随着电子商务的发展大趋势而发展。在生鲜类商品搜索场景中,由于搜索词的选取、及生鲜类商品的业务特性等原因,经常出现无法搜索到商品或只能搜索到很少数量商品的问题,即搜索零少结果。为了避免出现搜索零少结果,需要对搜索词进行语义处理,确定其中心词,并根据中心词进行商品搜索,以提升搜索结果的召全率。一种典型的搜索词的中心词确定方法是,通过人工走查或者日志排查的方式确定零少结果的搜索词(简称零少结果词),并由人工确定零少结果词的中心词。其中,人工走查方式,是指工作人员将搜索词提交至商品搜索引擎,通过搜索结果数量,人工确定零少结果词。例如,当工作人员输入搜索词“新鲜桔子”时,搜索结果数量小于3时,则人工确定该词是零少结果词,并由人工将该词的中心词标注为“桔子”。人工日志排查方式,是指基于搜索日志记录的历史搜索数据,确定零少结果词。然而,在实现本专利技术过程中,专利技术人发现现有技术至少存在如下问题:1)由于通过人工方式确定搜索词的中心词,因此,导致处理效率较为低下,且不同工作人员因为所处环境不同或对语言的理解不同,导致人工提取的中心词存在偏差,不具备广泛适用性;2)由于根据人工确定的搜索词与中心词对应关系,确定零少结果搜索词的中心词,因此当该对应关系不包括用户输入的零少结果搜索词时,将无法确定中心词,进而无法提升搜索结果的召全率。综上所述,现有技术存在中心词提取效率低,中心词准确率低,搜索结果召全率低的问题。
技术实现思路
本申请提供商品搜索系统,以解决现有技术存在的中心词提取效率低、中心词准确率低、搜索结果召全率低的问题。本申请另外搜索提供商品搜索方法和装置,中心词提取模型构建方法和装置,以及电子设备。本申请提供一种商品搜索系统,包括:至少一个商品搜索服务器,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象;所述客户端,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象;模型构建装置,用于获取商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得所述中心词提取模型。可选的,所述模型构建装置,具体用于获取所述商品标题、所述中心词标注数据与商品类目之间的对应记录集,作为所述模型训练数据集。可选的,还包括:大数据处理装置,用于接收多个商品搜索服务器发送的历史搜索记录,根据获得的多个商品搜索服务器的历史搜索记录,生成历史搜索词、搜索次数与时间分区之间的历史搜索词统计数据集;获取所述时间分区在第一最近时间范围内的、搜索次数大于第一搜索次数阈值和/或搜索次数排在高位的、分词数量满足分词数量规则的历史搜索词,作为第一历史搜索词;获取与所述第一历史搜索词对应的商品标题,作为更新的商品标题;将所述第一历史搜索词作为所述更新的商品标题中被用户点击的商品标题的中心词标注数据;根据所述更新的商品标题和所述更新的商品标题的中心词标注数据,生成更新的模型训练数据集,将所述更新的模型训练数据集发送至所述模型构建装置;所述模型构建装置,还用于若所述中心词提取模型的质量得分小于质量得分阈值,则基于所述中心词提取模型,从所述更新的模型训练数据集中学习获得更新的中心词提取模型;所述商品搜索服务器,还用于将所述历史搜索记录发送至所述大数据处理装置。可选的,所述大数据处理装置,还用于根据所述历史搜索记录,生成所述历史搜索词与商品召回数量之间的对应记录集;以及,将商品召回数量小于商品数量阈值的历史搜索词,作为第二历史搜索词,并获取通过所述中心词提取模型提取的所述第二历史搜索词的中心词、和中心词质量得分,生成所述第二历史搜索词、所述第二历史搜索词的中心词与所述中心词质量得分之间的对应记录集,作为模型评测数据集,将所述模型评测数据集发送至模型评测装置;所述系统还包括:所述模型评测装置,用于根据所述模型评测数据集,确定所述中心词提取模型的所述质量得分。可选的,还包括:所述大数据处理装置,具体用于将所述商品召回数量小于所述商品数量阈值、且所述搜索次数大于第二搜索次数阈值、且所述时间分区在第二最近时间范围内的历史搜索词,作为所述第二历史搜索词。可选的,所述大数据处理装置,还用于获取多个商品搜索服务器记录的历史搜索词与通过所述中心词提取模型提取的中心词之间的对应记录集,作为搜索词与中心词之间的对应关系集;以及,将所述搜索词与中心词之间的对应关系集回送至所述商品搜索服务器;所述商品搜索服务器,具体用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则从所述搜索词与中心词之间的对应关系集中获取所述中心词,若未获取到所述中心词,则通过中心词提取模型,提取所述搜索词的中心词;以及,持久化存储所述搜索词与中心词之间的对应关系集。可选的,所述商品搜索服务器,还用于将所述搜索词与中心词之间的对应关系集存储至高速分布式缓存设备中。可选的,所述商品搜索服务器,还用于确定与所述搜索词匹配的商品对象。可选的,所述商品搜索服务器,还用于生成所述搜索词、所述中心词、与所述搜索词匹配的商品对象、及与所述中心词匹配的商品对象之间的对应记录集,作为埋点日志;以及,将所述埋点日志发送至所述大数据处理装置;所述大数据处理装置,还用于获取所述埋点日志,根据所述埋点日志生成搜索报表。本申请还提供一种商品搜索方法,包括:接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象。可选的,还包括:通过机器学习算法,根据商品标题、中心词标注数据和商品类目之间的对应记录集,生成所述中心词提取模型。可选的,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。可选的,还包括:根据历史搜索记录,确定历史搜索词的搜索次数;选取与所述搜索次数排在高位的历史搜索词匹配的商品标题,作为所述对应记录的所述商品标题。可选的,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。可选的,还包括:根据用户行为数据,确定与所述历史搜索词对应的用户点击的商本文档来自技高网
...

【技术保护点】
1.一种商品搜索系统,其特征在于,包括:/n至少一个商品搜索服务器,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象;/n所述客户端,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象;/n模型构建装置,用于获取商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得所述中心词提取模型。/n

【技术特征摘要】
1.一种商品搜索系统,其特征在于,包括:
至少一个商品搜索服务器,用于接收客户端发送的针对用户指定搜索词的商品搜索请求;若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;确定与所述中心词匹配的商品对象;向所述客户端回送所述商品对象;
所述客户端,用于向所述服务器发送所述商品搜索请求;接收并展示所述服务器回送的所述商品对象;
模型构建装置,用于获取商品标题与中心词标注数据之间的对应记录集,作为模型训练数据集,并通过机器学习算法,从所述模型训练数据集中学习获得所述中心词提取模型。


2.根据权利要求1所述的系统,其特征在于,
所述模型构建装置,具体用于获取所述商品标题、所述中心词标注数据与商品类目之间的对应记录集,作为所述模型训练数据集。


3.根据权利要求1所述的系统,其特征在于,还包括:
大数据处理装置,用于接收多个商品搜索服务器发送的历史搜索记录,根据获得的多个商品搜索服务器的历史搜索记录,生成历史搜索词、搜索次数与时间分区之间的历史搜索词统计数据集;获取所述时间分区在第一最近时间范围内的、搜索次数大于第一搜索次数阈值和/或搜索次数排在高位的、分词数量满足分词数量规则的历史搜索词,作为第一历史搜索词;获取与所述第一历史搜索词对应的商品标题,作为更新的商品标题;将所述第一历史搜索词作为所述更新的商品标题中被用户点击的商品标题的中心词标注数据;根据所述更新的商品标题和所述更新的商品标题的中心词标注数据,生成更新的模型训练数据集,将所述更新的模型训练数据集发送至所述模型构建装置;
所述模型构建装置,还用于若所述中心词提取模型的质量得分小于质量得分阈值,则基于所述中心词提取模型,从所述更新的模型训练数据集中学习获得更新的中心词提取模型;
所述商品搜索服务器,还用于将所述历史搜索记录发送至所述大数据处理装置。


4.根据权利要求3所述的系统,其特征在于,
所述大数据处理装置,还用于根据所述历史搜索记录,生成所述历史搜索词与商品召回数量之间的对应记录集;以及,将商品召回数量小于商品数量阈值的历史搜索词,作为第二历史搜索词,并获取通过所述中心词提取模型提取的所述第二历史搜索词的中心词、和中心词质量得分,生成所述第二历史搜索词、所述第二历史搜索词的中心词与所述中心词质量得分之间的对应记录集,作为模型评测数据集,将所述模型评测数据集发送至模型评测装置;
所述系统还包括:
所述模型评测装置,用于根据所述模型评测数据集,确定所述中心词提取模型的所述质量得分。


5.根据权利要求4所述的系统,其特征在于,还包括:
所述大数据处理装置,具体用于将所述商品召回数量小于所述商品数量阈值、且所述搜索次数大于第二搜索次数阈值、且所述时间分区在第二最近时间范围内的历史搜索词,作为所述第二历史搜索词。


6.根据权利要求3所述的系统,其特征在于,
所述大数据处理装置,还用于获取多个商品搜索服务器记录的历史搜索词与通过所述中心词提取模型提取的中心词之间的对应记录集,作为搜索词与中心词之间的对应关系集;以及,将所述搜索词与中心词之间的对应关系集回送至所述商品搜索服务器;
所述商品搜索服务器,具体用于若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则从所述搜索词与中心词之间的对应关系集中获取所述中心词,若未获取到所述中心词,则通过中心词提取模型,提取所述搜索词的中心词;以及,持久化存储所述搜索词与中心词之间的对应关系集。


7.根据权利要求6所述的系统,其特征在于,
所述商品搜索服务器,还用于将所述搜索词与中心词之间的对应关系集存储至高速分布式缓存设备中。


8.根据权利要求1所述的系统,其特征在于,
所述商品搜索服务器,还用于确定与所述搜索词匹配的商品对象。


9.根据权利要求1所述的系统,其特征在于,
所述商品搜索服务器,还用于生成所述搜索词、所述中心词、与所述搜索词匹配的商品对象、及与所述中心词匹配的商品对象之间的对应记录集,作为埋点日志;以及,将所述埋点日志发送至所述大数据处理装置;
所述大数据处理装置,还用于获取所述埋点日志,根据所述埋点日志生成搜索报表。


10.一种商品搜索方法,其特征在于,包括:
接收客户端发送的针对用户指定搜索词的商品搜索请求;
若与所述搜索词匹配的商品对象的数量小于商品数量阈值,则通过中心词提取模型,提取所述搜索词的中心词;所述中心词提取模型,是通过机器学习算法从商品标题与中心词标注数据之间的对应记录集中学习获得的深度语义匹配模型;
确定与所述中心词匹配的商品对象;
向所述客户端回送所述商品对象。


11.根据权利要求10所述的方法,其特征在于,还包括:
通过机器学习算法,根据商品标题、中心词标注数据和商品类目之间的对应记录集,生成所述中心词提取模型。


12.根据权利要求11所述的方法,其特征在于,所述机器学习算法包括:深度语义匹配模型DSSM,包括卷积层的深度语义匹配模型CNN-DSSM,基于长短期记忆网络的深度语义匹配模型LSTM-DSS。


13.根据权利要求11所述的方法,其特征在于,还包括:
根据历史搜索记录,确定历史搜索词的搜索次数;
选取与所述搜索次数排在高位的历史搜索词匹配的商品标题,作为所述对应记录的所述商品标题。


14.根据权利要求13所述的方法,其特征在于,所述根据历史搜索记录,确定历史搜索词的搜索次数,包括:
根据所述历史搜索记录,确定所述历史搜索词在最近时间范围内的搜索次数。


15.根据权利要求13或14所述的方法,其特征在于,还包括:
根据用户行为数据,确定与所述历史搜索词对应的用户点击的商品标题;
将所述历史搜索词作为与所述用户点击的商品标题对应的所述中心词标注数据。


16.根据权利要求13所述的方法,其特征在于,还包括:
根据中心词标注规则,确定所述商品标题对应的所述中心词标注数据。


17.根据权利要求13所述的方法,其特征在于,还包括:
通过大数据处理平台,从搜索前端服务集群搜集搜索日志,形成所述历史搜索记录。


18.根据权利要求11所述的方法,其特征在于,还包括:
确定模型评测数据集;所述模型评测数据包括:商品召回数量小于商品数量阈值的历史搜索词、通过所述模型提取的中心词、中心词质量得分;
根据所述模型评测数据集,确定所述模型的质量得分。


19.根据权利要求18所述的方法,其特征在于,
所述商品召回数量小于商品数量阈值的历史搜索词包括:搜索次数超过搜索次数阈值、且所述商品召回数量小于商品数量阈值的历史搜索词;
所述方法还包括:
根据历史搜索记录,确定所述商品召回数量小于商品数量阈值的历史...

【专利技术属性】
技术研发人员:王浩王涛
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1