停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置制造方法及图纸

技术编号:10168313 阅读:135 留言:0更新日期:2014-07-02 10:45
一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。此外,还提供了停用词的挖掘装置、搜索方法和搜索装置、停用词的挖掘算法的评测方法和装置。上述停用词的挖掘方法和装置,提高了停用词的准确率;上述搜索方法和装置通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率;上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法。

【技术实现步骤摘要】
【专利摘要】一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。此外,还提供了停用词的挖掘装置、搜索方法和搜索装置、停用词的挖掘算法的评测方法和装置。上述停用词的挖掘方法和装置,提高了停用词的准确率;上述搜索方法和装置通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率;上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法。【专利说明】停用词的挖掘方法和装置、搜索方法和装置、评测方法和装
本专利技术涉及互联网技术,特别是涉及一种停用词的挖掘方法和装置、搜索方法和装置、停用词挖掘算法的评测方法和装置。
技术介绍
停用词是搜索引擎在索引网页或处理查询请求时自动忽略掉的查询词,停用词通常出现的过于频繁且没有实际意义,如“the”、“a”、“的”、“了”,去除这类词有利于减少网页搜索的规模,提高搜索结果的准确性。传统的停用词的挖掘方式主要有两种,一种是人工按某个标准挑选;一种是从网页文档和搜索引擎的日志中自动挖掘。人工挑选方式需要耗费大量的人力,且效率低。从网页文档和搜索引擎的日志中自动挖掘停用词的方式分为两种,一种是利用随机采样生成样本集,对样本集中的单词依次计算权重,然后选取词权重最小的若干单词,生成停用词集,该方法得到的停用词集准确率低;一种是将查询串中处于左边位置的词看作停用词,此种挖掘方式对于较短查询串中的停用词挖掘的准确率低。
技术实现思路
基于此,有必要针对传统的停用词挖掘的准确率低的问题,提供一种能提高准确率的停用词的挖掘方法。此外,还有必要针对传统的停用词挖掘的准确率低的问题,提供一种能提高准确率的停用词的挖掘装置。此外,还有必要提供一种能提高准确率的搜索方法。此外,还有必要提供一种能提高准确率的搜索装置。此外,还有必要提供一种能提高准确率的停用词的挖掘算法的评测方法。此外,还有必要提供一种能提高准确率的停用词的挖掘算法的评测装置。一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。一种停用词的挖掘装置,包括:获取模块,用于获取查询日志;生成模块,用于获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。一种搜索方法,包括以下步骤:获取查询串;对所述查询串采用上述的停用词的挖掘方法生成的停用词集进行处理;根据所述处理后的查询串进行搜索。一种搜索装置,包括:查询串获取模块,用于获取查询串;处理模块,用于对所述查询串采用上述的停用词的挖掘装置生成的停用词集进行处理;搜索模块,用于根据所述处理后的查询串进行搜索。一种停用词的挖掘算法的评测方法,包括以下步骤:获取多种挖掘算法各自的停用词集;统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数;将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。一种停用词的挖掘算法的评测装置,包括:提取模块,用于获取多种挖掘算法各自的停用词集;统计模块,用于统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数;加权模块,用于将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。上述停用词的挖掘方法和装置,根据查询词的逆向文档频率、查询词的相对词权重、修改查询串行为产生的查询词集合或查询串与网页地址的对应关系生成的停用词集,由于综合了用户的查询行为和触发行为,查询词的特征等多种真实数据而生成的停用词集,提高了停用词的准确率。上述搜索方法和装置,对查询串去掉了停用词,节省了生成停用词索引所占用的大量的存储空间,且通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率。此外,对搜索结果进行排序时,对查询串中的停用词降低权重可将具有实际语义的网页排在前面,节省用户浏览时间。上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法,该评测方法和装置还可应用于类似的同一任务的多种算法的场景。【专利附图】【附图说明】图1为一个实施例中停用词的挖掘方法的流程示意图;图2为一个实施例中获取查询日志中记录的查询串中查询词的逆向文档频率的属性信息,并根据所述属性信息生成停用词集的流程示意图;图3为一个实施例中获取查询日志中记录的查询词的相对词权重的属性信息,并根据所述属性信息生成停用词集的流程示意图;图4为一个实施例中获取训练数据的流程示意图;图5为一个实施例中获取查询日志中记录的因修改查询串行为产生的查询词集合的属性信息,并根据该属性信息生成停用词集的流程示意图;图6为一个实施例中查询日志中记录的session的示意图;图7为一个实施例中冗余搭配词集中记录的部分数据示意图;图8为一个实施例中获取查询日志中记录的因触发行为产生的查询串与网页地址的对应关系集的属性信息,并根据所述属性信息生成停用词集的流程示意图;图9为查询串及对应被触发的网页的关系不意图;图10为四种挖掘方法得到的部分停用词集示意图;图11为一个实施例中搜索方法的流程示意图;图12为一个实施例中停用词的挖掘装置的结构示意图;图13为一个实施例中生成模块的内部结构示意图;图14为另一个实施例中生成模块的内部结构示意图;图15为图14中训练数据获取单元的内部结构示意图;图16为另一个实施例中生成模块的内部结构示意图;图17为另一个实施例中生成模块的内部结构示意图;图18为一个实施例中搜索装置的结构示意图;图19为一个实施例中停用词的挖掘算法的评测方法的流程示意图;图20为一个实施例中停用词的挖掘算法的评测装置的内部结构示意图。【具体实施方式】下面结合具体的实施例及附图对停用词的挖掘方法和装置,以及停用词的挖掘算法的评测方法和装置的技术方案进行详细的描述,以使其更加清楚。如图1所示,在一个实施例中,一种停用词的挖掘方法,包括以下步骤:步骤S102,获取查询日志。具体的,查询日志用于记录用户输入查询串进行查询行为以及触发查询结果行为产生的信息。查询日志中包括查询串、查询得到的网页地址、修改查询串的行为、触发网页地址行为以及查询串与网页地址之间的对应关系等。步骤SIO4,获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信本文档来自技高网
...

【技术保护点】
一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵耀胡熠刘磊程佳
申请(专利权)人:深圳市世纪光速信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1