词项加权函数确定及基于该函数进行搜索的方法及装置制造方法及图纸

技术编号:7682510 阅读:209 留言:0更新日期:2012-08-16 05:51
本申请公开了一种词项加权函数确定及基于确定的函数进行搜索的方法及装置,解决词项加权函数的确定不准确扩展不灵活问题。该方法服务器根据数据库中保存的查询点击日志信息,确定查询关键词中相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数样本数据,在特征表示的基础上,采用排序学习方法对预设的词项加权函数进行学习。本申请中采用排序学习方法确定最优的词项加权函数,可以保证确定的词项加权函数的准确性,并且排序学习所依赖的样本数据完全自动生成,其可扩展性比较高。

【技术实现步骤摘要】

本申请涉及数据处理
,尤其涉及一种词项加权函数确定及基于该函数进行搜索的方法及装置
技术介绍
在电子商务领域中,词项加权技术在智能搜索中具有广泛的应用,当搜索引擎接收到用户输入的查询关键词后,根据该查询关键词可以匹配非常多的产品描述信息,按照每个产品描述信息与用户输入的查询关键词的相关性,对每个产品描述信息进行排序是影响搜索引擎质量的核心因素。用户输入的查询关键词以及每个产品描述信息是由多个词项构成的,因此可以表征为词项的集合,用户输入的查询关键词以及每个产品描述信息的相关性程度,可以通过产品描述信息中每个词项与用户输入的查询关键词中每个词项的匹配重要程度来确定,因此一个精确的词项加权模型是提高用户搜索产品质量的基础及关键。对于一个给定的语言文本语句或语段,词项加权模型可以评测每个词项在表示该语言文本语句或语段内容上的重要性。词项加权模型可以广泛应用于电子商务搜索各种相关应用中,例如,搜索结果排序、查询改写、相关查询推荐和搜索广告匹配等。目前一般通过某一词项在每个产品描述信息中出现的频率进行词项分析,确定搜索结果,但是由于电子商务
中产品描述信息一般较短,即其包含的词项一般较少,单单根据每个词项出现的频率很难准确的确定搜索结果。或者,在现有技术中也可以根据每个词项出现的频率,及人工对每个词项进行加权处理实现词项分析,但是该方法需要人工根据每个词项的重要性进行加权处理,对人工的要求很高,并且由于人工根据自己的经验对每个词项进行加权处理,很难保证在词项分析的过程中不出现错误,另外当每个产品的对应的类目发生变化时,还需要人工重新学习相应的规则,无法实现灵活扩展。
技术实现思路
有鉴于此,本申请实施例提供一种词项加权函数确定及基于该函数进行搜索的方法及装置,用以解决现有词项加权函数的确定不准确,扩展不灵活,以及导致的搜索结果不准确的问题。本申请实施例提供的一种词项加权函数的确定方法,包括服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;针对用户发送的查询关键词中的相应词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例提供的一种基于上述词项加权函数确定方法进行搜索的方法,包括 服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值;根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。本申请实施例提供的一种词项加权函数的确定装置,包括获取模块,用于获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;加权分值确定模块,用于针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量;排序学习模块,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例提供的一种基于上述词项加权函数确定装置进行搜索的装置,包括查询结果确定模块,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;特征向量确定模块,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;分析提供模块,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。本申请实施例提供了一种词项加权函数确定及基于该函数进行搜索的方法及装置,该方法中,服务器根据数据库中保存的查询点击日志信息,确定查询关键词中的相应词项与点击的产品描述信息中产品标题信息中相应其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。由于在本申请实施例中根据保存的查询点击日志信息中每个词项间的重要性关系,生成训练词项加权函数的词项序对样本数据,以及每个词项对应的特征表示向量,采用排序学习方法确定词项加权函数,从而可以保证确定的词项加权函数的准确性,另外本申请实现方案中排序学习所依赖的样本数据完全是自动生成的,因此其可扩展性比较高附图说明图I为本申请实施例提供的进行词项加权函数确定的系统结构示意图;图2为本申请实施例提供的进行词项加权函数确定的过程;图3为本申请实施例提供的词项加权函数的详细确定过程;图4为本申请实施例提供的一种基于确定的词项加权函数进行搜索的过程;图5为本申请实施例提供的一种词项加权函数确定装置的结构示意图;图6为本申请实施例提供的一种基于词项加权函数确定装置进行词项搜索的装置的结构示意图。具体实施例方式本申请为了有效的提闻词项加权函数确定的准确性,以及提闻词项加权函数确定方法的可扩展性,提供了一种词项加权函数的确定方法,以及基于确定的该词项加权函数进行搜索的方法。在本申请中进行词项加权函数确定的为服务器,并且服务器基于用户通过客户端输入的查询关键词,以及该用户对返回的对应该查询关键词的信息点击的产品描述信息,进行词项加权函数的生成。下面结合说明书附图,对本申请实施例进行详细说明。图I为本申请实施例提供的进行词项加权函数确定的系统结构示意图,在该系统中包含服务器11和客户端12。其中,当训练生成词项加权函数时,服务器11从数据库中获取保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:赵京雷林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1