获取搜索词高相关分类的方法和装置制造方法及图纸

技术编号:17655107 阅读:40 留言:0更新日期:2018-04-08 08:25
本发明专利技术公开了一种获取搜索词高相关分类的方法和装置,涉及互联网技术领域。该方法的一具体实施方式包括:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作;根据所述点击操作提取点击特征,并计算所述点击特征的点击特征值;根据所述点击特征值获取所述搜索词的高相关分类。该实施方式能够根据搜索会话数据中的对召回结果进行的点击操作数据,获取用户在搜索过程中的行为特征,进而对搜索词进行高相关分类挖掘,解决了通过文本的特征很难对搜索词进行分类的问题,提高了搜索词的高相关分类的准确性。

【技术实现步骤摘要】
获取搜索词高相关分类的方法和装置
本专利技术涉及互联网
,尤其涉及一种获取搜索词高相关分类的方法和装置。
技术介绍
随着科技的发展,互联网搜索已经成为大部分用户的选择。搜索词高相关分类用于定位搜索词的分类,实现搜索结果的精准召回。在从海量的搜索召回结果中快速定位到用户心仪结果的过程中,挖掘搜索词的高相关分类对于理解用户需求是非常重要的;它可以为本次搜索提供可靠依据,也能为召回结果的排序模型、相关性模型和理解搜索词意图提供基础的数据支撑。除此之外,在电商领域中搜索词的高相关分类还能反应用户的购物类目倾向。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、现有技术是根据文本特征通过分析大量的网页信息,使用机器学习算法对搜索词进行分类,对于网页包含的信息不太丰富的情况,只通过文本的特征很难对搜索词进行分类,容易造成分类结果不准确;2、一些热门搜索词通过人工编辑分类,但是其覆盖率远远不满足用户的需求,且人工编辑不能及时发现并更新分类数据。
技术实现思路
有鉴于此,本专利技术实施例提供一种获取搜索词高相关分类的方法,能够根据搜索会话数据中的搜索一个搜索词之后对召回结果进行本文档来自技高网...
获取搜索词高相关分类的方法和装置

【技术保护点】
一种获取搜索词高相关分类的方法,其特征在于,包括:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;根据所述点击特征值获取所述搜索词的高相关分类。

【技术特征摘要】
1.一种获取搜索词高相关分类的方法,其特征在于,包括:获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;根据所述点击操作数据提取点击特征,并计算所述点击特征的点击特征值;根据所述点击特征值获取所述搜索词的高相关分类。2.根据权利要求1所述的方法,其特征在于,所述根据所述点击特征值获取所述搜索词的高相关分类,包括:根据所述点击特征值,确定所述搜索词的类目信息;所述类目信息包括:所述搜索词的类目及其权值;将根据各个点击特征值确定的类目信息进行加权求和,得到所述搜索词的综合类目信息;根据所述综合类目信息获取所述搜索词的高相关分类。3.根据权利要求1或2所述的方法,其特征在于,所述点击特征包括以下至少之一:所述搜索词在类目i下的点击率占比、所述搜索词在类目i下的点击次数占比、在类目i下所述搜索词作为品牌字段出现的次数;其中,4.根据权利要求1所述的方法,其特征在于,在所述根据所述点击操作提取点击特征之前,还包括:将所述搜索词的每个召回结果按照其被点击次数由高到低排序,对前总点击次数m%次的点击操作进行时间衰减处理:clickcount表示经时间衰减处理后的t天内召回结果被点击次数,dt代表距离当前日期前x天的日期,x代表dt距离当前日期的天数,clickdt指dt对应的召回结果的被点击次数。5.根据权利要求1所述的方法,其特征在于,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;将所述改写词的高相关分类补充至所述搜索词的高相关分类中。6.根据权利要求1所述的方法,其特征在于,所述搜索会话数据包括:再搜索词语、改写词条件;所述再搜索词语为在搜索会话中搜索的不同于所述搜索词的词语;所述改写词条件包括:所述再搜索词语包括所述搜索词;所述方法还包括:将满足所述改写词条件的所述再搜索词语作为所述搜索词的改写词;按照搜索会话数据中所述改写词出现的次数,从高到低对所述改写词排序,选出前M个改写词;将所述前M个改写词的高相关分类补充至所述搜索词的高相关分类中,M为正整数。7.根据权利要求5或6所述的方法,其特征在于,所述搜索会话数据包括:再搜索词语的搜索时刻、搜索词的搜索时刻、搜索会话的持续时间;所述方法还包括:将搜索会话切割成N个时间窗口,每个时间窗口的持续时间不超过预设时间,N为正整数;针对每个时间窗口内的所述再搜索词语、所述搜索词,所述改写词条件包括:所述再搜索词语的搜索时刻晚于搜索词第一时刻;其中,所述搜索词第一时刻为所述时间窗口内搜索时刻最早的所述搜索词的搜索时刻。8.一种获取搜索词高相关分类的装置,其特征在于,包括:数据获取模块、特征提取模块、高相关分类获取模块;其中,所述数据获取模块,用于获取搜索会话数据,所述搜索会话数据包括搜索一个搜索词之后对召回结果进行的点击操作数据;所述特征提取...

【专利技术属性】
技术研发人员:王颖
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1