海量文档分布式检索排重系统和方法技术方案

技术编号:9667909 阅读:185 留言:0更新日期:2014-02-14 06:21
一种海量文档分布式检索排重系统,包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区,相似度计算模块计算目标文档与这若干个分区中所有文档的相似度,从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法,借助了分布式系统的思想,将海量文档集分散到若干个子集中,使得排重计算在1个或少数几个子集中进行,减少了相似度计算量,提高了文档排重效率。

【技术实现步骤摘要】
海量文档分布式检索排重系统和方法
本专利技术属于信息处理
,具体地说,是涉及大数据时代下的一种海量文档分布式检索排重系统和方法。
技术介绍
随着大数据时代的到来,各类信息膨胀式增加,社会各界、各领域均面临着海量信息采集、加工处理、存储的压力,因此从源头排查重复文档或相似文档是时代发展必须要攻克的技术难关。例如,当前搜索引擎返回结果中内容相同或相似的检索结果约占45%,因此在搜索信息采集时应判断哪些网页内容是相同或相似的。信息搜索领域内常用的网页去重技术归纳起来有三类:基于抽取指纹信息的方法、基于聚类的方法、基于URL的方法。前两种方法主要基于网页结构、特征和网页内容利用索引散列技术、聚类方法实现相同相似网页的排重,这两种方法虽然技术成熟,方便易用,但计算量大,效率低,尤其对于海量文本计算量大;基于URL的方法主要判断URL本身的相似性,但是URL相似,网页内容并不一定相同或相似,且对于文档排重基于URL的方法不适用。在学术查重及知识产权保护领域,常用的文档复制检测方法对于词频统计、Hash文本块、语义知识等方法均有涉及,这些方法对于相同文档的检测具有较高的识别率和检测效率,但是对于相似文本、相似描述的检测还存在较大难度。传统上,排重必须在整个文档库中进行,一旦文档库的规模比较大,达到千万级、亿级以上,速度就成为了文档排重的瓶颈。因此,迫切地需要一种具有较高效率的相似文档排重技术与系统,以解决文档排重计算量大、效率低等问题。
技术实现思路
本专利技术的目的在于提供一种海量文档分布式检索排重系统和方法,借助分布式系统的思想将海量文档库分散成几十个乃至更多的子集,使得排重在一个子集或几个子集上进行,从而解决大数据时代下,海量文档排重技术效率低、计算量大的问题。本专利技术提供一种海量文档分布式检索排重系统,所述系统包括:文档预处理模块,文档特征计算模块,分布式建库模块,存储模块,分布式检索模块,相似度计算模块;文档预处理模块用于对文档进行分词和词性标注,去除停用词和虚词。文档特征计算模块是根据文档中每个词语抗篡改能力不一样,抗篡改能力强的词语在文本中词频比较高,且对文章的整体语义贡献度大,利用词语对文档的重要程度来表示文档。分布式建库模块用于初始化整个文档库需要划分的子集个数;分布式建库模块负责将文档均匀地分散到各个子集区域;该模块接收文档特征计算模块传来的文档特征向量,以向量中重要程度在一定范围的词为依据,将文档映射到某个子集区域;保证每篇文档能被均匀地分布到各个子集上是本模块的重要任务。分布式检索模块实现查询文档子集定位以及文档查重操作;用于接收文档特征计算模块传来的文档特征向量,对特征向量进行排序,将排序较高的特征词依次映射到存储区的各子集上,并将映射结果提交给相似度计算模块,根据相似度计算模块返回的文档相似度值,决定文档的取舍。存储模块用于分子集存储文档,接收来自分布式建库模块所产生的结果以及分布式检索模块去重的结果,模块中含两个表,文档向量表和词的倒排索引表,这两个表使得数据、文档的存取更方便、快捷;文档向量表用于描述每一篇文档所映射的子集区及文档特征属性;词的倒排索引表用于描述词与文档之间的关系以及词的索引、频次等属性信息。相似度计算模块根据分布式检索模块所检索到的目标子集,用于计算文档与目标子集中各个文档的相似度,并将计算结果返回给分布式检索模块,由分布式检索模块决定文档保留与删除。本专利技术还提供了一种海量文档分布式检索排重方法,包括:选择、抽取文档特征,并计算文档特征权重;启用文档指纹hash方法,将文档集按照一定的规则均匀地分散到若干个子集;以词为单位将某一篇文档映射到1个或多个子集,并在所映射的子集中计算文档相似度,实现海量文档的排重需求。本专利技术技术方案提供的海量文档分布式检索排重系统和方法,根据文档中抗篡改能力强的词,词频高,语义贡献度大的特点,借助分布式系统的优点,利用词的TFIDF特征及hash技术,将海量文档集均匀地分散到不同的子集,从而使文档排重计算只需在1个或几个子集上进行,而不必在整个文档集上进行,减少了文档排重计算量,提高了系统运行效率。附图说明图1为本专利技术实施例提供的海量文档分布式检索排重系统的模块图。图2为本专利技术实施例提供的海量文档分布式检索排重方法的流程图。具体实施方式为顺应大数据时代的发展,解决现有技术存在的问题,本专利技术实施例提供的海量文档分布式检索排重系统与方法,借助分布式系统思想,运用指纹hash值,将海量文档平均分配到若干个子集存储区域,使得文档相似度计算在1个或某几个子集上运行,大大减少了运算量,满足海量文档排重的效率需求。为使本专利技术实施例的目的、技术方法、及优点更加清楚明白,以下结合附图对本专利技术实施例提供的技术方案进行详细说明。如图1所示为本专利技术实施例中的海量文档分布式检索排重系统的模块图,海量文档分布式排重系统包括文档预处理模块101,文档特征计算模块102,分布式建库模块103,存储模块104,分布式检索模块105,相似度计算模块106。文档预处理模块101用于对文档进行预处理,包括文档的分词与词性标注,去除停用词和虚词,所有文档进入系统前均需进行预处理操作。将预处理后的信息发送给文档特征计算模块102,文档特征计算模块102根据用户意向选择词语的TF或TFIDF作为特征词的权重,计算出文档特征向量,并将文档特征及其对应向量分别传给分布式建库模块103和分布式检索模块105。存储模块104反馈当前存储区域是否为空,若为空,则分布式建库模块103开始文档到子集的映射工作;否则,分布式检索模块105开始调用相似度计算模块106进行文档查重工作。分布式建库模块103首先根据用户需求或文档数量,将存储模块中的存储区划分成M个子集;再从文档特征计算模块102获取文档特征向量,对特征向量进行排序,取TFIDF最高的TOPN个词,为保证每篇文档能被均匀的分布到各个子库上,对TFIDF值最高的词语,生成hash值H,用初始化子集个数M对H求模,得到K,则0<=K<=M-1,此时分布式建库模块将文本分发到第K个子集,实现了分布式建库;将文档与子集的对应关系传递给存储模块104进行文档存储。分布式检索模块105接收文档特征计算模块102传来的文档特征向量,并对特征向量排序,依次取TFIDF最高的TOPN个词(W1,W2,…,Wn),利用与分布式建库模块类似的指纹hash方法,分别计算各个词对应的子集序号,对应为(K1,K2,…,Kn),然后依次到所对应的子集中进行排重检索,排重检索需运用相似度计算模块106的计算结果;将与存储模块104中所有文档相似度在一定阈值以下的文档,传递给分布式建库模块103,实现文档分子集存储到存储模块104。存储模块104接收分布式建库模块103产生的文档与子集的对应关系,经文档存入到对应的子集区域,并且及时更新文档向量表和词的倒排索引表。文档向量表包括的描述信息有:所属子集编号,文档内部编号,文档所包含的总词数,文档向量模等。词的倒排索引表包括的描述信息有:索引词,索引个数,文档内部编号,出现频次等。同时存储模块104需要配合分布式检索模块105、相似度计算模块106的工作,为105、106提供存储数据资源服务。相似度计算模块1本文档来自技高网...
海量文档分布式检索排重系统和方法

【技术保护点】
海量文档分布式检索排重系统,其特征在于,包括:文档预处理模块(102),文档特征计算模块(102),分布式建库模块(103),存储模块(104),分布式检索模块(105),相似度计算模块(106);文档预处理模块(101)用于对待排重文档进行分词、词性标注、去除停用词和虚词等处理;文档特征计算模块(102)接收来自文档预处理模块(101)的信息,抽取文档特征,并根据预设定特征权重计算方式,计算文档特征权重;存储模块(104)用于存储分区域存储海量文档集;分布式建库模块(103)将文档映射到某一特定数字空间,实现文档集中的文档分区操作;分布式检索模块(105)以文档特征为细分单位,将文档映射到1个或多个子集中,并判断文档与这些子集中所有文档的相似关系;相似度计算模块(106)接收来自分布式检索模块(105)的文档?子集映射关系,计算文档与其对应子集中所有文档的相似度。

【技术特征摘要】
1.海量文档分布式检索排重系统,其特征在于,包括:文档预处理模块(102),文档特征计算模块(102),分布式建库模块(103),存储模块(104),分布式检索模块(105),相似度计算模块(106);文档预处理模块(101)用于对待排重文档进行分词、词性标注、去除停用词和虚词等处理;文档特征计算模块(102)接收来自文档预处理模块(101)的信息,抽取文档特征,并根据预设定特征权重计算方式,计算文档特征权重;进一步的,文档特征计算模块(102)根据词语抗篡改能力不同,利用词语对文档的重要程度表示文档;存储模块(104)用于存储分区域存储海量文档集;分布式建库模块(103)将文档映射到某一特定数字空间,实现文档集中的文档分区操作;分布式检索模块(105)以文档特征为细分单位,将文档映射到1个或多个子集中,并判断文档与这些子集中所有文档的相似关系;相似度计算模块(106)接收来自分布式检索模块(105)的文档-子集映射关系,计算文档与其对应子集中所有文档的相似度。2.根据权利要求1所述的海量文档分布式检索排重系统,其特征在于,将海量文档集划分为若干个文档子集,使得排重在各文档子集进行,减少文档排重计算量。3.根据权利要求1所述的海量文档分布式检索排重系统,其特征在于,存储模块(104)是分布式建库模块(103)的终端,同时是分布式检索模块(105)和相似度计算模块(106)的协作方;存储模块(104)为分布式检索模块(105)提供目标数据集,为相似度计算模块(106)提供源数据。4.根据权利要求1所述的海量文档分布式检索排重系统,其特征在于,存储模块(104)通过两个表格的形式以方便、快捷地保...

【专利技术属性】
技术研发人员:王洪俊肖诗斌施水才
申请(专利权)人:北京拓尔思信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1