一种分层过滤文档的方法及装置制造方法及图纸

技术编号:12885987 阅读:58 留言:0更新日期:2016-02-17 17:05
本发明专利技术提供一种分层过滤文档的方法及装置。该方法包括:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的文档在待过滤文档集合中的先后顺序,将选取出的文档组成第一文档列表;按照当前文档过滤层的相关性计算方式,分别计算第一文档列表中每个文档的质量值;根据第一文档列表中的每个文档的质量值,对第一文档列表中的文档进行重新排序,得到第二文档列表;根据第一文档列表和第二文档列表的一致性程度,对当前文档过滤层的待过滤文档集合进行过滤。本发明专利技术对当前文档过滤层的待过滤文档集合进行过滤,大大降低下一文档过滤层需要处理的文档的数量,实现对文档的分层过滤,缩短搜索响应时间,提高搜索效率。

【技术实现步骤摘要】
一种分层过滤文档的方法及装置
本专利技术涉及信息搜索
,具体而言,涉及一种分层过滤文档的方法及装置。
技术介绍
日常生活中,用户经常利用关键词在搜索引擎中搜索需要的内容,搜索引擎需要根据关键词从海量的文档中搜索出相关文档,以使用户从相关文档中读取其需要的内容。目前,搜索引擎搜索文档时,首先利用具有一定数量特征的相关性算法计算海量的文档中每个文档与关键词的相关度,即该文档的质量值,过滤掉质量值低于本次过滤阈值的文档。然后增加相关性算法的特征并对剩余文档的质量值进行计算,继续过滤质量值低于本次过滤阈值的文档。如此按照上述方式多次计算文档的质量值并过滤质量值低于过滤阈值的文档,直到过滤出的文档的数量到达预期数量,将最终剩余的文档确定为搜索出的相关文档。在实现本专利技术的过程中,专利技术人发现,当搜索的文档数量非常大时,每次过滤后剩余的文档数量仍然非常多,每次都需花费很长时间来计算大量文档的质量值,总体的时间花费很多,导致搜索效率很低,搜索响应时间很长。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种分层过滤文档的方法及装置,实现了对文档的分层过滤,缩短了搜索响应时间,提高了搜索效率。第一方面,本专利技术实施例提供了一种分层过滤文档的方法,所述方法包括:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档的质量值;根据所述第一文档列表中的每个文档的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。结合第一方面,本专利技术实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量;按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合;分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。结合第一方面的第一种可能的实现方式,本专利技术实施例提供了上述第一方面的第三种可能的实现方式,其中,所述分别从每个所述文档子集合中选取出所述第二数量的文档,包括:分别从每个所述文档子集合的前部选取出第二数量的文档;或者,以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者,以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。结合第一方面,本专利技术实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔;按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。结合第一方面,本专利技术实施例提供了上述第一方面的第四种可能的实现方式,其中,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤,包括:判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值,如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档,如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。结合第一方面,本专利技术实施例提供了上述第一方面的第五种可能的实现方式,其中,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤之后,还包括:根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文档集合作为新的文档集合,通过下一文档过滤层对所述新的文档集合进行过滤。第二方面,本专利技术实施例提供了一种分层过滤文档的装置,所述装置包括:选取模块,用于根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;计算模块,用于按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档的质量值;排序模块,用于根据所述第一文档列表中的每个文档的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;过滤模块,用于根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。结合第二方面,本专利技术实施例提供了上述第二方面的第一种可能的实现方式,其中,所述选取模块包括:第一确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量;划分单元,用于按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合;第一选取单元,用于分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。结合第二方面的第一种可能的实现方式,本专利技术实施例提供了上述第二方面的第三种可能的实现方式,其中,所述第一选取单元包括:第一选取子单元,用于分别从每个所述文档子集合的前部选取出第二数量的文档;或者,第二选取子单元,用于以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者,第三选取子单元,用于以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。结合第二方面,本专利技术实施例提供了上述第二方面的第二种可能的实现方式,其中,所述选取模块包括:第二确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔;第二选取单元,用于按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。结合第二方面,本专利技术实施例提供了上述第二方面的第四种可能的实现方式,其中,所述过滤模块包括:过滤单元,用于判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值,如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档,如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。结合第二方面,本专利技术实施例提供了上述第二方面的第五种可能的实现方式,其中,所述装置还包括:停止判断模块,用于根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到本文档来自技高网...
一种分层过滤文档的方法及装置

【技术保护点】
一种分层过滤文档的方法,其特征在于,所述方法包括:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表;其中,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档在当前文档过滤层的质量值;根据所述第一文档列表中的每个文档在当前文档过滤层的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。

【技术特征摘要】
1.一种分层过滤文档的方法,其特征在于,所述方法包括:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表;其中,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档在当前文档过滤层的质量值,所述当前文档过滤层的相关性计算方式与上一文档过滤层的相关性计算方式不同;根据所述第一文档列表中的每个文档在当前文档过滤层的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。2.根据权利要求1所述的方法,其特征在于,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量;按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合;分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。3.根据权利要求2所述的方法,其特征在于,所述分别从每个所述文档子集合中选取出所述第二数量的文档,包括:分别从每个所述文档子集合的前部选取出第二数量的文档;或者,以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者,以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。4.根据权利要求1所述的方法,其特征在于,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔;按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤,包括:判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值;如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档;如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤之后,还包括:根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文...

【专利技术属性】
技术研发人员:李洋万明成曾洪雷
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1