一种确定推荐词的方法及设备技术

技术编号:7786432 阅读:179 留言:0更新日期:2012-09-21 07:30
本申请公开了一种确定推荐词的方法及设备,从词特征的相关度、类目特征的相关度来综合考虑候选词与查询词的相关度以及候选词与用户感兴趣的领域的相关度,进而选择与查询词和用户兴趣所在的领域相关度都相对较高的候选词作为推荐词,使得最终得到的推荐词从词义以及词的类目都与查询词以及用户的兴趣高度相关,在针对不同用户的相同查询词来确定推荐词时,可以有效地区分用户的兴趣所在,为用户确定最能反映用户搜索需求的推荐词;同时,由于在确定推荐词时还考虑到了词类目的相关度,因此,即使查询词有不同领域的多种含义,也能够根据用户感兴趣的领域准确地确定推荐词;本申请还可以有效降低推荐词确定过程的工作量,提高确定推荐词的效率。

【技术实现步骤摘要】
一种确定推荐词的方法及设备
本申请涉及计算机
,尤其涉及一种确定推荐词的方法及设备。
技术介绍
信息搜索过程是指搜索引擎根据用户输入的查询词,从特定的搜索信息库中搜索出与所述查询词相关的搜索信息,并将得到的搜索信息向用户展示的过程。在信息搜索过程中,用户需要将待搜索的物品转换为查询词来进行搜索,若用户使用的查询词不准确,则可能导致最终得到的搜索信息不是用户实际希望获得的搜索信息。为了提高搜索结果的准确性,在信息搜索过程中引入相关搜索的方案。相关搜索是指搜索引擎根据用户输入的查询词,向用户推送与该查询词相关性较高的推荐词(即搜索引擎向用户推荐的查询词),用户可以根据所述推荐词进行信息搜索,使最终得到的搜索信息能够满足用户的搜索需求。具体做法是:搜索引擎对用户输入的查询词进行完善或扩展、改写,得到与查询词相关性较高的推荐词,并在对用户输入的查询词进行搜索得到搜索结果后,将推荐词在搜索结果的页面上方或下方向用户显示。若用户在搜索结果中没有找到满意的搜索信息(即搜索结果中的搜索信息不准确),则用户可以再将推荐词作为新的查询词继续进行搜索,直至查询出需要的搜索信息。比如,用户输入的查询词为“A品牌手机”,搜索引擎可以对“A品牌手机”进行完善,向用户推送“B品牌手机”、“A品牌电脑”等与“A品牌手机”相关性较高的推荐词。再比如:用户输入的查询词为“a公司”名称,搜索引擎可以对“a公司”进行扩展,向用户推送“a公司创始人”、“a公司产品”等推荐词。在上述相关搜索的方案中,搜索引擎是预先将所有用户使用过的查询词作为候选推荐词集合,并将候选推荐词集合存储在数据库中。当搜索引擎接收到某一用户发送的包含查询词的搜索请求后,根据候选推荐词集合中各候选推荐词的热门程度以及各候选推荐词与当前接收到的查询词的相关性高低,从候选推荐词结合中选择出向用户推送的推荐词。由于搜索引擎是将所有用户使用的查询词作为候选推荐词集合,在每次为用户发送的搜索请求进行相关搜索时,都要从包含大量查询词的候选推荐词集合进行搜索,使搜索引擎确定推荐词的运算工作量极大,导致搜索引擎的工作时延较大,降低相关搜索的效率;另外,由于推荐词的产生只与候选推荐词的热门程度以及与当前的查询词相关性有关,而不考虑当前发起搜索请求的用户的个性化需求,因此,当多个用户使用相同查询词进行搜索请求时,每个用户得到的推荐词相同,而用户的需求差异化将会导致部分用户得到的推荐词不能正确地反映该用户的搜索需求,使得最终得到的搜索结果准确性较低;进一步地,在用户使用的查询词具有多种含义,且每种含义所属的领域差别较大时,产生的推荐词反映用户搜索需求的能力将会更差。比如:用户输入的查询词为“apple”,搜索引擎对之前所有的用户使用过的查询词进行搜索,而没有任何针对性,确定候选推荐词的时延较长;另外,在确定推荐词时,有的用户希望得到的推荐词是水果类的推荐词,而有的用户希望得到的推荐词是apple品牌的电子产品类的推荐词。再比如:用户输入的查询词为java”,从事计算机技术的用户希望得到关于java语言的推荐词,而喜欢旅游的用户希望得到的是关于爪哇岛的推荐词。在目前推荐词的产生过程中,有不同需求的用户得到的推荐词相同,每个用户只能得到热门程度高以及与查询词相关性高的推荐词,不能为用户个性化地产生推荐词,无法满足不同用户的搜索需求。
技术实现思路
本申请目的在于:提供一种确定推荐词的方法及设备,用以解决现有技术中存在的确定推荐词的运算量极大,且不能为用户个性化地产生推荐词的问题。一种确定推荐词的方法,包括:接收用户发送的包含查询词的搜索请求;根据预先存储的多个用户使用的词集合,将包含所述查询词的词集合作为候选词集合;针对候选词集合中的多个候选词,确定候选词与查询词的相关度,以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度;将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词,作为向发送搜索请求的用户提供的推荐词。一种确定推荐词的设备,包括:接收模块,用于接收用户发送的包含查询词的搜索请求;候选集合确定模块,用于根据预先存储的多个用户使用的词集合,将包含查询词的词集合作为候选词集合;相关度确定模块,用于针对候选词集合中的多个候选词,确定候选词与查询词的相关度,以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度;推荐模块,用于将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词,作为向发送搜索请求的用户提供的推荐词。本申请有益效果如下:本申请实施例不从所有用户使用过的所有查询词中确定推荐词,而是从部分用户使用的词集合组成的候选词集合中确定推荐词,可以有效降低推荐词确定过程的工作量,提高确定推荐词的效率;同时,本申请实施例从词特征的相关度、类目特征的相关度来综合考虑候选词与查询词的相关度以及候选词与用户感兴趣的领域的相关度,进而选择与查询词和用户兴趣所在的领域相关度都相对较高的候选词作为推荐词,使得最终得到的推荐词从词义以及词的类目都与查询词以及用户的兴趣高度相关,在针对不同用户的相同查询词来确定推荐词时,可以有效地区分用户的兴趣所在,为用户确定最能反映用户搜索需求的推荐词;同时,由于在确定推荐词时还考虑到了词类目的相关度,因此,即使查询词有不同领域的多种含义,也能够根据用户感兴趣的领域准确地确定推荐词。附图说明图1为本申请实施例一确定推荐词的方法示意图;图2为类目特征模型和词特征模型的建模示意图;图3为本申请实施例三确定推荐词的设备结构示意图;图4为本申请的系统架构示意图。具体实施方式为了实现本申请目的,本申请实施例提出一种新的确定推荐词的方案,预先分析确定各用户感兴趣的词集合,当需要为某一用户确定推荐词时,根据该用户感兴趣的词集合以及与该用户有相同兴趣的其他用户的词集合,为用户确定与搜索请求中的查询词相关的推荐词,使得产生的推荐词能够正确地反映搜索用户的搜索需求,即使是在查询词有多种含义的情况下,仍然能够根据搜索用户的兴趣确定合适词义的推荐词。且本申请实施例从部分用户使用的词集合组成的候选词集合中确定推荐词,可以有效降低推荐词确定过程的工作量,提高确定推荐词的效率。本申请各实施例中涉及的查询词是指信息搜索过程中,软硬件设备能够识别的、表示用户待搜索的物品标识;推荐词是指相关搜索中,软硬件设备根据搜索过程中使用的查询词,确定的与该查询词相关性较高的推荐词,并展示给用户,当用户使用推荐词继续进行信息搜索过程时,继续进行信息搜索过程中的推荐词将成为查询词。上述软硬件设备是本申请实施例中涉及的确定推荐词的设备,该设备可以是集成在搜索引擎中的逻辑部件,也可以是独立于搜索引擎的包含软硬件的设备。下面结合说明书附图对本申请实施例进行详细描述。实施例一本申请实施例一提供了一种确定推荐词的方法,如图1所示,该方法包括以下步骤:步骤101:接收用户发送的包含查询词的搜索请求。在本步骤中,当有用户希望进行信息搜索过程时,主动发起包含查询词的搜索请求。本步骤中涉及的查询词可以是用户将待搜索的物品转换得到的查询词,也可以是用户主动选择之前已展示的推荐词作为新的查询词。若确定推荐词的设备(后续简称确定推荐词的设备)是集成在本文档来自技高网
...
一种确定推荐词的方法及设备

【技术保护点】

【技术特征摘要】
1.一种确定推荐词的方法,其特征在于,包括:接收用户发送的包含查询词的搜索请求;根据预先存储的多个用户使用的词集合,将包含所述查询词的词集合作为候选词集合;针对候选词集合中的多个候选词,确定候选词与查询词的相关度,以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度;将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词,作为向发送搜索请求的用户提供的推荐词;所述候选词与查询词的相关度包括:候选词与查询词的词特征相关度和候选词与查询词的类目特征相关度。2.如权利要求1所述的方法,其特征在于,用户使用的词集合通过以下方式确定:采集设定时间段内一用户使用的查询词,并将采集的查询词作为该用户使用的词集合;或采集设定时间段内一用户浏览的文档,并确定各文档的主题词,将确定的主题词作为该用户使用的词集合;或采集设定时间段内一用户使用的查询词以及该用户浏览的文档,将采集的查询词和各文档的主题词作为该用户使用的词集合。3.如权利要求1所述的方法,其特征在于,确定候选词与查询词的词特征相关度,具体包括:根据用户使用的词集合中各词的权重,确定候选词集合中,每个候选词的权重;根据候选词的权重以及与该候选词在同一词集合中的查询词的权重,确定该候选词与查询词的词特征相关度。4.如权利要求3所述的方法,其特征在于,通过以下公式确定一个候选词与查询词的词特征相关度:其中:sim1(termi,termj)表示候选词termi与查询词termj的词特征相关度;U是使用的词集合中同时有查询词termj和候选词termi的用户集合;wui表示U中一个用户对候选词termi的权重;wuj表示U中一个用户对查询词termj的权重;表示U中一个用户对使用的词集合中各词权重的平均值。5.如权利要求1所述的方法,其特征在于,确定候选词与查询词的类目特征相关度,具体包括:确定候选词在预设的各类目中出现的概率值,以及查询词在预设的各类目中出现的概率值;根据候选词在各类目中出现的概率值和查询词在各类目中出现的概率值,确定候选词与查询词的类目特征相关度。6.如权利要求5所述的方法,其特征在于,通过以下公式确定一个候选词与查询词的类目特征相关度:其中:sim2(termi,termj)表示候选词termi与查询词termj的类目特征相关度;表示查询词termj在预设的各类目中出现的概率值的向量形式;表示候选词termi在预设的各类目中出现的概率值的向量形式;表示向量和向量之间的夹角余弦函数。7.如权利要求1所述的方法,其特征在于,候选词与发送搜索请求的用户使用的词集合中各词的相关度包括:候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度和候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。8.如权利要求7所述的方法,其特征在于,确定候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度,具体包括:根据用户使用的词集合中各词的权重,确定候选词集合中,每个候...

【专利技术属性】
技术研发人员:廖剑林锋黎耀炳冯炯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1