【技术实现步骤摘要】
查询词权重值的确定方法和装置
本专利技术实施例涉及数据处理技术,尤其涉及一种查询词权重值的确定方法和装置。
技术介绍
随着互联网技术的不断发展以及互联网应用对人们工作、学习与生活的不断渗透,人们越来越多的通过网络获取信息。典型的,用户通过搜索引擎输入查询式(Query),搜索引擎通过采用一定的搜索排序方式向用户返回与输入查询式相匹配的搜索结果。其中,搜索引擎在处理用户输入的查询式时,会给查询式中包括的查询词(Term)赋予不同的权重来反映不同查询词在查询式当中的重要程度(也称为Term重要性),搜索引擎通过联合使用查询式当中的Term重要性以及查询式与网络中文档(典型的,网页)的匹配程度对搜索结果进行排序,并提供给用户。现有技术主要通过IDF(InverseDocumentFrequency,逆文档频率)方法来计算查询词的权重值,即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目,再将得到的商取对数的结果,作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差。
技术实现思路
有 ...
【技术保护点】
一种查询词权重值的确定方法,其特征在于,包括:按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值。
【技术特征摘要】
1.一种查询词权重值的确定方法,其特征在于,包括:按照设定规则对查询日志信息进行分类处理;根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值;其中,按照设定规则对查询日志信息进行分类处理包括:获取目标点击网页地址相同的查询日志信息;基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理;其中,根据查询词在至少两类所述查询日志信息中出现的差异性,确定所述查询词的权重值包括:根据下述公式,计算所述查询日志信息包括的查询词w的权重值P(w):P(w)=λP(w,S→P)+(1-λ)P(w,P→S);其中:0≤λ≤1,P表示第一类查询日志信息的集合,S表示第二类查询日志信息的集合。2.根据权利要求1所述的方法,其特征在于,所述基于设定输入设备和/或设定输入方式,对获取的所述查询日志信息进行分类处理包括:基于台式输入设备的文本输入方式,获取所述查询日志信息中的第一类查询日志信息;基于移动输入设备的语音输入方式,获取所述查询日志信息中的第二类查询日志信息;获取设定数目的第一类查询日志信息和第二类查询日志信息,作为分类处理结果。3.根据权利要求1-2任一项所述的方法,其特征在于,还包括:根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度;根据所述查询式与待查询文档的相关度,对所述待查询文档进行排序,并将排序结果提供给用户。4.根据权利要求3所述的方法,其特征在于,根据用户输入的查询式中查询词的权重值,计算所述查询式与待查询文档的相关度包括:根据下述公式,计算所述查询式Q与待查询文档C的相关度Cosine(Q,C):其中,m为词典词表的长度;在词典词表的第i个位置上标准词与Q或者C中的查询词w相等时,Qi或者Ci的值为P(w)*TF(w);否则,Qi或者Ci的值为0;P(w)为w的权重值,TF(w)为w在Q...
【专利技术属性】
技术研发人员:张军,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。