文本消重系统、方法、服务器及计算机存储介质技术方案

技术编号:16064160 阅读:48 留言:0更新日期:2017-08-22 16:41
本发明专利技术公开了一种文本消重系统、方法、服务器及计算机存储介质,包括:预处理模块,用于对待消重的各个文本进行预处理并确定与各个文本对应的关键词;存储模块,用于存储经预处理后的各个文本并设置用于查询各个文本的倒排索引表;消重模块,用于获取至少一个待消重文本并确定与其对应的关键词,通过倒排索引表确定包含上述关键词的至少一个待比对文本,针对待消重文本以及待比对文本进行消重处理;分布式锁模块,用于进行消重处理前,通过分布式锁对待消重文本以及待比对文本进行加锁操作;并在消重处理后释放分布式锁。本发明专利技术中的方案能够有效提高文本消重的准确性及处理效率,优化文本消重的处理过程。

Text cancellation system, method, server, and computer storage medium

The invention discloses a text elimination system and method, server and computer storage medium includes: preprocessing module, for eliminating each text preprocessing and determine the weight of keywords corresponding with each text; storage module for storing all the text after pretreatment and arranged for the inverted index table query each text; elimination module, used to obtain at least one to eliminate the text and determine the corresponding key words, the inverted index table to determine at least the above words of a text to be compared, and the fire needle treat Chongwen query text elimination processing; distributed lock module, used for fire treatment first, through the distributed lock elimination and treat text query text lock operation; and in the elimination process after the release of distributed lock. The scheme of the invention can effectively improve the accuracy and the processing efficiency of text weight elimination, and optimize the processing process of text weight elimination.

【技术实现步骤摘要】
文本消重系统、方法、服务器及计算机存储介质
本专利技术涉及互联网
,具体涉及一种文本消重系统、方法、服务器及计算机存储介质。
技术介绍
文本消重的主要功能是鉴定内容相同或相似的网页数据,并在此基础上滤掉内容相同或相似的网页数据。文本消重的目的在于使用户在使用互联网查询时不会搜到大量内容重复的网页,提高搜索引擎的效率。但是,在实现本专利技术实施例的过程中,专利技术人发现现有技术中至少存在如下问题:现有技术在进行文本消重时,都是将待消重的全部文本数据集中在一起,并通过将全部文本数据逐个比对的方式进行消重处理。然而,随着文本数据量不断增大,当面临海量待消重文本数据时,目前的消重处理方式便很难实时、快速地处理海量待消重文本数据;另一方面,目前在执行消重处理的过程中,为了防止因读写操作而引发的数据不一致现象,需要对全部文本数据进行加锁处理,因此,导致消重过程中的所有文本均无法正常使用,为用户造成了极大不便。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本消重系统、方法、服务器及计算机存储介质。根据本专利技术的一个方面,提供了一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从存储模块中获取至少一个待消重文本,确定待消重文本对应的关键词,通过倒排索引表确定包含待消重文本对应的关键词的至少一个待比对文本,针对待消重文本以及待比对文本进行消重处理;分布式锁模块,用于在消重模块进行消重处理前,通过分布式锁对存储模块中存储的待消重文本以及待比对文本进行加锁操作;并在消重模块进行消重处理后释放分布式锁。根据本专利技术的另一方面,提供了一种文本消重方法,包括:对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;对预处理后的各个文本进行存储,并设置用于查询各个文本的倒排索引表;其中,倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;获取至少一个待消重文本,确定待消重文本对应的关键词,通过倒排索引表确定包含待消重文本对应的关键词的至少一个待比对文本,针对待消重文本以及待比对文本进行消重处理;其中,文本消重方法进一步包括:在消重处理前,通过分布式锁对存储的待消重文本以及待比对文本进行加锁操作;并在消重处理后释放分布式锁。根据本专利技术的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本消重方法对应的操作。根据本专利技术的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文本消重方法对应的操作。在本专利技术提供的文本消重系统、方法、服务器及计算机存储介质中,首先通过预处理模块对待消重的各个文本进行预处理,并根据预处理结果确定各个文本对应的关键词;然后通过存储模块存储上述经过预处理的各个文本,并设置用于查询各个文本的倒排索引表,其中,上述倒排索引表中存储各个关键词及其对应的文本之间的映射关系;最后通过消重模块从存储模块中获取至少一个待消重文本,确定该待消重文本对应的关键词,通过上述倒排索引表确定包含待消重文本对应的关键词的至少一个待比对文本并据此进行消重处理。其中,在对待消重文本进行消重处理之前,还进一步通过分布式锁模块对存储模块中存储的待消重文本以及待比对文本进行加锁操作;并在消重模块进行消重处理后释放分布式锁。由此可见,通过预先提取关键词并建立倒排索引表的方式,能够根据关键词快速确定与待消重文本相关性较大的待比对文本,进而仅针对确定出的待比对文本进行消重,而无需考虑其他相关性较小的无关文本,因此,通过准确限定消重范围的方式能够有效提高文本消重的准确性及处理效率,优化文本消重的处理过程,避免了针对全部文本逐个比对的繁琐操作。并且,由于分布式锁仅针对特定键值的数据进行加锁,而对于其他键值的数据则不予加锁,即:仅针对包含相同关键词的待消重文本以及待比对文本进行加锁,因此,一方面,针对特定文本的消重过程不会影响其他无关文本的正常访问;另一方面,还能够同时针对多组文本进行并行化消重处理,进而通过并发方式进一步提高了处理效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例一提供的一种文本消重系统的结构框图;图2为本专利技术实施例二提供的一种文本消重系统的结构框图;图3为本专利技术实施例三提供的一种文本消重方法的流程图;图4示出了根据本专利技术实施例五的一种服务器的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术提供了一种文本消重系统、方法、服务器及计算机存储介质,能够有效解决现有技术中在进行文本消重时,消重准确性低以及消重处理效率低的问题,提高了文本消重的准确性及处理效率,优化了文本消重的处理过程。实施例一图1为本专利技术实施例一提供的一种文本消重系统的结构框图。如图1所示,该文本消重系统包括:预处理模块11、存储模块12、消重模块13以及分布式锁模块14。首先介绍预处理模块11。预处理模块11用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词。其中,待消重的各个文本可以为网页中的电子文本,例如,网页新闻、网页电子书、博客等。预处理模块11的数量可以为一个,也可以为多个,其具体数量可以由本领域技术人员根据实际情况进行设置,本专利技术对此不作限制。其中,预处理模块11对待消重的各个文本进行的预处理可以包括:针对待消重的各个文本的标题进行简化去噪,以及提取各个文本的内容中的关键词等能够代表该文本的文本内容的关键信息等。其中,预处理模块11的预处理方式可以有多种,例如,提取文本中出现词频较高的实词作为关键词;或者根据预设的分析模型对各个文本进行分析并确定各个文本对应的关键词(例如根据预设的神经网络模型对待消重的各个文本的内容进行语义分析并获取该待消重的文本的关键词),等等。在这里,只要能够获取待消重的各个文本中的关键词等关键信息即可,本专利技术对预处理模块11的预处理方式不作限制。预处理模块11在根据预处理结果确定各个文本对应的关键词时,可以对上述预处理结果进行重复信息过滤、高频词提取等处理,以此来确定各个文本对应的关键词。具体实施中,根据预处本文档来自技高网...
文本消重系统、方法、服务器及计算机存储介质

【技术保护点】
一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储所述预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,所述倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从所述存储模块中获取至少一个待消重文本,确定所述待消重文本对应的关键词,通过所述倒排索引表确定包含所述待消重文本对应的关键词的至少一个待比对文本,针对所述待消重文本以及所述待比对文本进行消重处理;分布式锁模块,用于在所述消重模块进行消重处理前,通过分布式锁对所述存储模块中存储的所述待消重文本以及所述待比对文本进行加锁操作;并在所述消重模块进行消重处理后释放所述分布式锁。

【技术特征摘要】
1.一种文本消重系统,包括:预处理模块,用于对待消重的各个文本进行预处理,根据预处理结果确定各个文本对应的关键词;存储模块,用于存储所述预处理模块预处理后的各个文本,并设置用于查询各个文本的倒排索引表;其中,所述倒排索引表用于存储各个关键词及其对应的文本之间的映射关系;消重模块,用于从所述存储模块中获取至少一个待消重文本,确定所述待消重文本对应的关键词,通过所述倒排索引表确定包含所述待消重文本对应的关键词的至少一个待比对文本,针对所述待消重文本以及所述待比对文本进行消重处理;分布式锁模块,用于在所述消重模块进行消重处理前,通过分布式锁对所述存储模块中存储的所述待消重文本以及所述待比对文本进行加锁操作;并在所述消重模块进行消重处理后释放所述分布式锁。2.根据权利要求1所述的系统,其中,所述存储模块具体为多个分布式存储模块,用于通过一致性哈希算法对预处理后的各个文本进行分布式存储。3.根据权利要求1或2所述的系统,其中,所述消重模块进一步包括多个计算子模块,其中,每个计算子模块具体用于:每当获取到所述待消重文本以及所述待比对文本后,将所述待消重文本以及所述待比对文本分发给其他计算子模块;接收其他计算子模块针对分发到的文本进行局部消重处理后返回的局部消重处理结果,根据所述局部消重处理结果确定最终消重处理结果。4.根据权利要求1-3任一所述的系统,其中,所述消重模块进一步用于:为确定为重复的文本设置重复标签。5.根据权利要求4所述的系统,其...

【专利技术属性】
技术研发人员:谢立明
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1