海量文档分布式检索排重系统和方法技术方案

技术编号：9667909 阅读：185 留言：0更新日期：2014-02-14 06:21

一种海量文档分布式检索排重系统，包括文档预处理模块、文档特征计算模块、分布式建库模块、存储模块、分布式检索模块、相似度计算模块。文档特征计算模块根据词对文档的重要程度计算文档特征向量。分布式建库模块根据文档特征向量将文档映射到不同的存储分区。分布式检索模块检索目标文档所属的若干个分区，相似度计算模块计算目标文档与这若干个分区中所有文档的相似度，从而实现海量文档分布式排重操作。所提供的海量文档分布式检索排重系统和方法，借助了分布式系统的思想，将海量文档集分散到若干个子集中，使得排重计算在1个或少数几个子集中进行，减少了相似度计算量，提高了文档排重效率。

全部详细技术资料下载

【技术实现步骤摘要】
海量文档分布式检索排重系统和方法
本专利技术属于信息处理
，具体地说，是涉及大数据时代下的一种海量文档分布式检索排重系统和方法。
技术介绍
随着大数据时代的到来，各类信息膨胀式增加，社会各界、各领域均面临着海量信息采集、加工处理、存储的压力，因此从源头排查重复文档或相似文档是时代发展必须要攻克的技术难关。例如，当前搜索引擎返回结果中内容相同或相似的检索结果约占45%，因此在搜索信息采集时应判断哪些网页内容是相同或相似的。信息搜索领域内常用的网页去重技术归纳起来有三类：基于抽取指纹信息的方法、基于聚类的方法、基于URL的方法。前两种方法主要基于网页结构、特征和网页内容利用索引散列技术、聚类方法实现相同相似网页的排重，这两种方法虽然技术成熟，方便易用，但计算量大，效率低，尤其对于海量文本计算量大；基于URL的方法主要判断URL本身的相似性，但是URL相似，网页内容并不一定相同或相似，且对于文档排重基于URL的方法不适用。在学术查重及知识产权保护领域，常用的文档复制检测方法对于词频统计、Hash文本块、语义知识等方法均有涉及，这些方法对于相同文档的检测具有较高的识别率和检测效率，但是对于相似文本、相似描述的检测还存在较大难度。传统上，排重必须在整个文档库中进行，一旦文档库的规模比较大，达到千万级、亿级以上，速度就成为了文档排重的瓶颈。因此，迫切地需要一种具有较高效率的相似文档排重技术与系统，以解决文档排重计算量大、效率低等问题。
技术实现思路
本专利技术的目的在于提供一种海量文档分布式检索排重系统和方法，借助分布式系统的思想将海量文档库分散成几十个乃至更多的子...

【技术保护点】
海量文档分布式检索排重系统，其特征在于，包括：文档预处理模块（102），文档特征计算模块（102），分布式建库模块（103），存储模块（104），分布式检索模块（105），相似度计算模块（106）；文档预处理模块（101）用于对待排重文档进行分词、词性标注、去除停用词和虚词等处理；文档特征计算模块（102）接收来自文档预处理模块（101）的信息，抽取文档特征，并根据预设定特征权重计算方式，计算文档特征权重；存储模块（104）用于存储分区域存储海量文档集；分布式建库模块（103）将文档映射到某一特定数字空间，实现文档集中的文档分区操作；分布式检索模块（105）以文档特征为细分单位，将文档映射到1个或多个子集中，并判断文档与这些子集中所有文档的相似关系；相似度计算模块（106）接收来自分布式检索模块（105）的文档?子集映射关系，计算文档与其对应子集中所有文档的相似度。

【技术特征摘要】
1.海量文档分布式检索排重系统，其特征在于，包括：文档预处理模块(102)，文档特征计算模块(102)，分布式建库模块(103)，存储模块(104)，分布式检索模块(105)，相似度计算模块(106)；文档预处理模块(101)用于对待排重文档进行分词、词性标注、去除停用词和虚词等处理；文档特征计算模块(102)接收来自文档预处理模块(101)的信息，抽取文档特征，并根据预设定特征权重计算方式，计算文档特征权重；进一步的，文档特征计算模块(102)根据词语抗篡改能力不同，利用词语对文档的重要程度表示文档；存储模块(104)用于存储分区域存储海量文档集；分布式建库模块(103)将文档映射到某一特定数字空间，实现文档集中的文档分区操作；分布式检索模块(105)以文档特征为细分单位，将文档映射到1个或多个子集中，并判断文档与这些子集中所有文档的相似关系；相似度计算模块(106)接收来自分布式检索模块(105)的文档-子集映射关系，计算文档与其对应子集中所有文档的相似度。2.根据权利要求1所述的海量文档分布式检索排重系统，其特征在于，将海量文档集划分为若干个文档子集，使得排重在各文档子集进行，减少文档排重计算量。3.根据权利要求1所述的海量文档分布式检索排重系统，其特征在于，存储模块(104)是分布式建库模块(103)的终端，同时是分布式检索模块(105)和相似度计算模块(106)的协作方；存储模块(104)为分布式检索模块(105)提供目标数据集，为相似度计算模块(106)提供源数据。4.根据权利要求1所述的海量文档分布式检索排重系统，其特征在于，存储模块(104)通过两个表格的形式以方便、快捷地保...

【专利技术属性】
技术研发人员：王洪俊，肖诗斌，施水才，
申请(专利权)人：北京拓尔思信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人