词条权重计算方法和装置制造方法及图纸

技术编号:13392825 阅读:44 留言:0更新日期:2016-07-22 18:35
本发明专利技术提供了一种词条权重计算方法和装置,主要涉及互联网技术领域,主要目的在于合理计算搜索词中分词词条的权重。方法包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击搜索结果条目的第一搜索词进行拆分,得到第一搜索词的一个或多个分词词条;根据第一搜索词的每个分词词条在共同点击搜索词集合中的出现频次,计算第一搜索词的每个分词词条的分词权重。根据本发明专利技术,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。

【技术实现步骤摘要】
词条权重计算方法和装置
本专利技术涉及互联网
,具体而言,涉及一种词条权重计算方法和装置。
技术介绍
随着网络和信息技术的迅猛发展,网络中的信息量也呈现爆炸式的增长,那么快速并且正确从这些海量的数据里面获取正确的信息成为了现在搜索引擎技术的核心问题。用户的输入通常呈现很大的差异性,这是因为不同的人接受不同的教育、不同的文化,导致在表述同一个问题上面差异很大,那么对用户输入的搜索词进行词条权重的打分是非常有必要的,这对于从用户输入的搜索词中提取核心词提取,或是对搜索词返回的文档排序等都是一个非常重要的课题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的词条权重计算方法和装置。依据本专利技术的一个方面,提供了一种词条权重计算方法,其包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重。可选地,前述的方法,还包括:接收来自用户的第二搜索词;对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重。可选地,前述的方法,根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重,具体包括:从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。可选地,前述的方法,从所述第一搜索词中选取的多个分词词条为连续多个分词词条;从所述第二搜索词中选取的多个分词词条为连续多个分词词条。可选地,前述的方法,所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。可选地,前述的方法,还包括:根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。可选地,前述的方法,还包括:根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。可选地,前述的方法,所述共同点击搜索词集合中包含所述第一搜索词;或所述共同点击搜索词集合中不包含所述第一搜索词。依据本专利技术的另一方面,还提供了一种词条权重计算装置,其包括:共同点击搜索词组合组成模块,用于获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;第一搜索词拆分模块,用于对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;第一分词权重计算模块,用于根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重。可选地,前述的装置,还包括:第二搜索词接收模块,用于接收来自用户的第二搜索词;第二搜索词拆分模块,用于对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;第二分词权重计算模块,用于根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重。可选地,前述的装置,还包括:第一词条组合组成模块,用于从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;第一组合权重计算模块,用于为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;第二词条组合组成模块,用于从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;第二组合权重计算模块,用于根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;所述第二分词权重计算模块根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。可选地,前述的装置,从所述第一搜索词中选取的多个分词词条为连续多个分词词条;从所述第二搜索词中选取的多个分词词条为连续多个分词词条。可选地,前述的装置,所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。可选地,前述的装置,还包括:搜索结果条目排序模块,用于根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。可选地,前述的装置,还包括:核心词提取模块,用于根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。可选地,前述的装置,所述共同点击搜索词集合中包含所述第一搜索词;或所述共同点击搜索词集合中不包含所述第一搜索词。根据以上技术方案,可知本专利技术的词条权重计算方法和装置至少具有以下优点:不同用户输入了不同的搜索词,但点击了相同的搜索结果条目,这就说明不同用户输入搜索词的含义是一致的,只是表达方式不同;通过本专利技术的技术方案,收集共同点击的搜索结果条目对应的搜索词进行权重分析,可以发现出现频次较高的词条往往是搜索词的核心内容,因此可以为其赋予较高的分词权重,将该分词权重用于从搜索词中提取核心词、对搜索结果排序等都有良好效果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术的一个实施例的词条权重计算方法的流程图;图2示出了根据本专利技术的一个实施例的词条权重计算方法的流程图;图3示出了根据本专利技术的一个实施例的词条权重计算方法的流程图;图4示出了根据本专利技术的一个实施例的词条权重计算方法的流程图;图5示出了根据本专利技术的一个实施例的词条权重计算方法的流程图;图6示出了根据本专利技术的一个实施例的词条权重计算装置的框图;图7示出了根据本专利技术的一个实施例的词条权重计算装置的框图;图8示出了根据本专利技术的一个实施例的词条权重计算装置的框图;图9示出了根据本专利技术的一个实施例的词条权重计算装置的框图;图10示出了根据本专利技术的一个实施例的词条权重计算装置的框图。本文档来自技高网...

【技术保护点】
一种词条权重计算方法,其包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重。

【技术特征摘要】
1.一种词条权重计算方法,其包括:获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜索词集合;对点击所述搜索结果条目的第一搜索词进行拆分,得到所述第一搜索词的一个或多个分词词条;根据所述第一搜索词的每个分词词条在所述共同点击搜索词集合中的出现频次,计算所述第一搜索词的每个分词词条的分词权重;接收来自用户的第二搜索词;对所述第二搜索词进行拆分,得到所述第二搜索词的一个或多个分词词条;根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重;根据所述第一搜索词的分词词条的分词权重,计算所述第二搜索词的分词词条的分词权重,具体包括:从所述第一搜索词中选取分词词条,组成所述第一搜索词的一个或多个词条组合;为所述第一搜索词的每个词条组合查找其所在的除所述第一搜索词的其他搜索词,根据所述第一搜索词的每个词条组合中分词词条在所述第一搜索词和所述其他搜索词中的分词权重,计算所述第一搜索词的每个词条组合中分词词条的组合权重;从所述第二搜索词中选取分词词条,组成所述第二搜索词的一个或多个词条组合;根据所述第一搜索词的词条组合中分词词条的组合权重,确定所述第二搜索词的词条组合中分词词条的组合权重;根据所述第二搜索词的每个分词词条在所述第二搜索词的不同词条组合中的组合权重,计算所述第二搜索词的每个分词词条的分词权重。2.根据权利要求1所述的方法,其中,从所述第一搜索词中选取的多个分词词条为连续多个分词词条;从所述第二搜索词中选取的多个分词词条为连续多个分词词条。3.根据权利要求1所述的方法,其中,所述第一搜索词中的每个词条组合中分词词条数量低于预设阈值;所述第二搜索词中的每个词条组合中分词词条数量低于所述预设阈值。4.根据权利要求1所述的方法,其中,还包括:根据所述第二搜索词中不同分词词条的分词权重,对所述第二搜索词中不同分词词条对应的搜索结果条目进行排序。5.根据权利要求1所述的方法,其中,还包括:根据所述第二搜索词中不同分词词条的分词权重,从所述第二搜索词的多个分词词条中提取用于进行搜索的核心词。6.根据权利要求1所述的方法,其中,所述共同点击搜索词集合中包含所述第一搜索词;或所述共同点击搜索词集合中不包含所述第一搜索词。7.一种词条权重计算装置,其包括:共同点击搜索词组合组成模块,用于获取共同点击同一搜索结果条目的多个搜索词,组成共同点击搜...

【专利技术属性】
技术研发人员:邹启波周连强
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1