一种文本查重方法、装置及设备制造方法及图纸

技术编号:20588928 阅读:16 留言:0更新日期:2019-03-16 07:10
本申请公开了一种文本查重方法,能预先在文本指纹库中存储待查重文本的指纹序列,在获取目标文本之后,生成目标指纹序列,再计算目标指纹序列中各个指纹的相似指纹,得到相似指纹序列,最后确定文本指纹库中包括目标指纹序列或相似指纹序列的指纹序列,显然该指纹序列对应的文本即为与目标文本相似的文本。可见,该方法能够生成目标指纹序列的相似指纹序列,在判断待查重文本与目标文本是否相似时,只需判断待查重文本的指纹序列是否包括目标指纹序列或相似指纹序列即可,不需要对二者进行相似度的计算,节省了计算量,提高了文本查重效率。此外,本申请还提供了一种文本查重装置、设备及计算机可读存储介质,其作用与上述方法的作用相对应。

【技术实现步骤摘要】
一种文本查重方法、装置及设备
本申请涉及文本查重领域,特别涉及一种文本查重方法、装置、设备、及计算机可读存储介质。
技术介绍
随着计算机网络的发展,信息资源与日俱增。如何在大量信息中过滤掉重复的内容,成为一个关键问题。文本查重是根据一定相似度模型从大量文本中发现重复文本的过程,它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。传统的文本查重是通过判断目标文本与源文本相似度是否大于阈值,从而得出目标文本是否为重复文本的结论。但是,这种查重方法需要计算每个源文本与目标文本之间的相似度,当源文本数量较大时,计算量非常大,导致查重效率较低。
技术实现思路
本申请的目的是提供一种文本查重方法、装置、设备、及计算机可读存储介质,用以解决传统的查重方法需要计算每个源文本与目标文本之间的相似度,当源文本数量较大时,计算量非常大,导致查重效率较低的问题。其具体方案如下:第一方面,本申请提供了一种文本查重方法,包括:获取目标文本;对所述目标文本进行切割,得到包括多个词的目标文本序列;分别计算各个所述词的指纹,得到目标指纹序列;生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;确定所述指纹序列对应的待查重文本。可选的,所述对所述目标文本进行切割,得到包括多个词的目标文本序列包括:按照预设文本间隔对所述目标文本进行交错切割,得到包括多个词的目标文本序列。可选的,所述分别计算各个所述词的指纹,得到目标指纹序列包括:根据哈希函数分别计算各个所述词的指纹,得到目标指纹序列。可选的,所述相似指纹为与所述目标指纹序列的指纹之间的海明距离小于预设阈值的指纹。可选的,所述生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列包括:生成所述目标指纹序列中各个指纹的多个相似指纹,得到由所述目标指纹序列中各个指纹的所述相似指纹组成的多个相似指纹序列。可选的,所述确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列包括:根据倒排搜索算法或key-value算法,确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列。可选的,在所述确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列之后,所述方法还包括:确定所述目标指纹序列或所述相似指纹序列在所述指纹序列中的位置。第二方面,本申请还提供了一种文本查重装置,包括:目标文本获取模块:用于获取目标文本;切割模块:用于对所述目标文本进行切割,得到包括多个词的目标文本序列;指纹计算模块:用于分别计算各个所述词的指纹,得到目标指纹序列;相似指纹序列确定模块:用于确定所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;指纹序列确定模块:用于确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;文本确定模块:用于确定所述指纹序列对应的待查重文本。可选的,所述切割模块具体用于:按照预设文本间隔对所述目标文本进行交错切割,得到包括多个词的目标文本序列。可选的,指纹计算模块具体用于:根据哈希函数分别计算各个所述词的指纹,得到目标指纹序列。可选的,所述相似指纹为与所述目标指纹序列的指纹之间的海明距离小于预设阈值的指纹。可选的,所述相似指纹序列确定模块具体用于:生成所述目标指纹序列中各个指纹的多个相似指纹,得到由所述目标指纹序列中各个指纹的所述相似指纹组成的多个相似指纹序列。可选的,所述指纹序列确定模块具体用于:根据倒排搜索算法或key-value算法,确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列。可选的,所述装置还包括:位置确定模块:用于确定所述目标指纹序列或所述相似指纹序列在所述指纹序列中的位置。第三方面,本申请还提供了一种文本查重设备,包括:存储器:用于存储计算机程序;处理器:用于执行所述计算机程序时实现以下步骤:获取目标文本;对所述目标文本进行切割,得到包括多个词的目标文本序列;分别计算各个所述词的指纹,得到目标指纹序列;生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;确定所述指纹序列对应的待查重文本。可选的,所述处理器执行所述存储器上的计算机程序时,具体可以实现以下步骤:按照预设文本间隔对所述目标文本进行交错切割,得到包括多个词的目标文本序列。可选的,所述处理器执行所述存储器上的计算机程序时,具体可以实现以下步骤:根据哈希函数分别计算各个所述词的指纹,得到目标指纹序列。可选的,所述处理器执行所述存储器上的计算机程序时,所述相似指纹具体可以为与所述目标指纹序列的指纹之间的海明距离小于预设阈值的指纹。可选的,所述处理器执行所述存储器上的计算机程序时,具体可以实现以下步骤:生成所述目标指纹序列中各个指纹的多个相似指纹,得到由所述目标指纹序列中各个指纹的所述相似指纹组成的多个相似指纹序列。可选的,所述处理器执行所述存储器上的计算机程序时,具体可以实现以下步骤:根据倒排搜索算法或key-value算法,确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列。可选的,所述处理器执行所述存储器上的计算机程序时,还可以实现以下步骤:确定所述目标指纹序列或所述相似指纹序列在所述指纹序列中的位置。第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取目标文本;对所述目标文本进行切割,得到包括多个词的目标文本序列;分别计算各个所述词的指纹,得到目标指纹序列;生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;确定所述指纹序列对应的待查重文本。可选的,所述计算机存储介质上的计算机程序被处理器执行时,具体可以实现以下步骤:按照预设文本间隔对所述目标文本进行交错切割,得到包括多个词的目标文本序列。可选的,所述计算机存储介质上的计算机程序被处理器执行时,具体可以实现以下步骤:根据哈希函数分别计算各个所述词的指纹,得到目标指纹序列。可选的,所述计算机存储介质上的计算机程序被处理器执行时,所述相似指纹具体可以为与所述目标指纹序列的指纹之间的海明距离小于预设阈值的指纹。可选的,所述计算机存储介质上的计算机程序被处理器执行时,具体可以实现以下步骤:生成所述目标指纹序列中各个指纹的多个相似指纹,得到由所述目标指纹序列中各个指纹的所述相似指纹组成的多个相似指纹序列。可选的,所述计算机存储介质上的计算机程序被处理器执行时,具体可以实现以下步骤:根据倒排搜索算法或key-value算法,确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列。可选的,所述计算机存储介质上的计算机程序被处理器执行时,还可以实现以下步骤:确定本文档来自技高网...

【技术保护点】
1.一种文本查重方法,其特征在于,包括:获取目标文本;对所述目标文本进行切割,得到包括多个词的目标文本序列;分别计算各个所述词的指纹,得到目标指纹序列;生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;确定所述指纹序列对应的待查重文本。

【技术特征摘要】
1.一种文本查重方法,其特征在于,包括:获取目标文本;对所述目标文本进行切割,得到包括多个词的目标文本序列;分别计算各个所述词的指纹,得到目标指纹序列;生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列;确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列的指纹序列,其中,所述文本指纹库用于预先存储多个待查重文本的指纹序列;确定所述指纹序列对应的待查重文本。2.如权利要求1所述的方法,其特征在于,所述对所述目标文本进行切割,得到包括多个词的目标文本序列包括:按照预设文本间隔对所述目标文本进行交错切割,得到包括多个词的目标文本序列。3.如权利要求1所述的方法,其特征在于,所述分别计算各个所述词的指纹,得到目标指纹序列包括:根据哈希函数分别计算各个所述词的指纹,得到目标指纹序列。4.如权利要求1所述的方法,其特征在于,所述相似指纹为与所述目标指纹序列的指纹之间的海明距离小于预设阈值的指纹。5.如权利要求4所述的方法,其特征在于,所述生成所述目标指纹序列中各个指纹的相似指纹,得到由所述相似指纹组成的相似指纹序列包括:生成所述目标指纹序列中各个指纹的多个相似指纹,得到由所述目标指纹序列中各个指纹的所述相似指纹组成的多个相似指纹序列。6.如权利要求1所述的方法,其特征在于,所述确定文本指纹库中包括所述目标指纹序列或所述相似指纹序列...

【专利技术属性】
技术研发人员:刘均秦文礼
申请(专利权)人:深圳市元征科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1