The invention discloses a text elimination system and method, server and computer storage medium includes: preprocessing module, for eliminating each text preprocessing and determine the weight of keywords corresponding with each text; storage module for storing all the text after pretreatment and arranged for the inverted index table query each text; elimination module, used to obtain at least one to eliminate the text and determine the corresponding key words, the inverted index table to determine at least the above words of a text to be compared, and the fire needle treat Chongwen query text elimination processing; distributed lock module, used for fire treatment first, through the distributed lock elimination and treat text query text lock operation; and in the elimination process after the release of distributed lock. The scheme of the invention can effectively improve the accuracy and the processing efficiency of text weight elimination, and optimize the processing process of text weight elimination.
【技术实现步骤摘要】
文本消重系统、方法、服务器及计算机存储介质
本专利技术涉及互联网
,具体涉及一种文本消重系统、方法、服务器及计算机存储介质。
技术介绍
文本消重的主要功能是鉴定内容相同或相似的网页数据,并在此基础上滤掉内容相同或相似的网页数据。文本消重的目的在于使用户在使用互联网查询时不会搜到大量内容重复的网页,提高搜索引擎的效率。但是,在实现本专利技术实施例的过程中,专利技术人发现现有技术中至少存在如下问题:现有技术在进行文本消重时,都是将待消重的全部文本数据集中在一起,并通过将全部文本数据逐个比对的方式进行消重处理。然而,随着文本数据量不断增大,当面临海量待消重文本数据时,目前的消重处理方式便很难实时、快速地处理海量待消重文本数据;另一方面,目前在执行消重处理的过程中,为了防止因读写操作而引发的数据不一致现象,需要对全部文本数据进行加锁处理,因此,导致消重过程中的所有文本均无法正常使用,为用户造成了极大不便。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本消重系统、方法、服务器及计算机存储介质。根据本专利技术的一个方面,提供了一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从存储模块中获取至少一个待消重文本,确定待消重文本对应的关键词,通过倒排索引表确定包含待消重文本对应的关键词的至少一个待比 ...
【技术保护点】
一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储所述预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,所述倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从所述存储模块中获取至少一个待消重文本,确定所述待消重文本对应的关键词,通过所述倒排索引表确定包含所述待消重文本对应的关键词的至少一个待比对文本,针对所述待消重文本以及所述待比对文本进行消重处理;分布式锁模块,用于在所述消重模块进行消重处理前,通过分布式锁对所述存储模块中存储的所述待消重文本以及所述待比对文本进行加锁操作;并在所述消重模块进行消重处理后释放所述分布式锁。
【技术特征摘要】
1.一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储所述预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,所述倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从所述存储模块中获取至少一个待消重文本,确定所述待消重文本对应的关键词,通过所述倒排索引表确定包含所述待消重文本对应的关键词的至少一个待比对文本,针对所述待消重文本以及所述待比对文本进行消重处理;分布式锁模块,用于在所述消重模块进行消重处理前,通过分布式锁对所述存储模块中存储的所述待消重文本以及所述待比对文本进行加锁操作;并在所述消重模块进行消重处理后释放所述分布式锁。2.根据权利要求1所述的系统,其中,所述存储模块具体为多个分布式存储模块,用于通过一致性哈希算法对预处理后的各个文本进行分布式存储。3.根据权利要求1或2所述的系统,其中,所述消重模块进一步包括多个计算子模块,其中,每个计算子模块具体用于:每当获取到所述待消重文本以及所述待比对文本后,将所述待消重文本以及所述待比对文本分发给其他计算子模块;接收其他计算子模块针对分发到的文本进行局部消重处理后返回的局部消重处理结果,根据所述局部消重处理结果确定最终消重处理结果。4.根据权利要求1-3任一所述的系统,其中,所述消重模块进一步用于:为确定为重复的文本设置重复标签。5.根据权利要求4所述的系统,其...
【专利技术属性】
技术研发人员:谢立明,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。