一种文档查重方法及终端技术

技术编号:32803822 阅读:55 留言:0更新日期:2022-03-26 19:55
本发明专利技术公开了一种文档查重方法及终端,对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为图片的特征向量;将每一个分词相对于文档的TF

【技术实现步骤摘要】
一种文档查重方法及终端


[0001]本专利技术涉及文档查重
,特别涉及一种文档查重方法及终端。

技术介绍

[0002]Google的Simhash算法是一种缩减维度的算法,旨在将高维的向量用较低维度的签名来表示,是解决相似文本检测的高效哈希技术。通过Simhash算法生成文档签名值来代表该文档,通过比较文档之间的海明距离来判断签名值之间的相似程度,以此距离来确定文档是否相似。
[0003]但是,传统的Simhash算法一般存在两个问题:
[0004](1)、对于课件类文档,包含大量的图片,并且与文本的权重存在区别,但传统的Simhash没有区分处理,影响查重精度。
[0005](2)、对于套用模版的文档,可能出现大量重复的图片或者词汇,导致计算的指纹结果精度丢失。

技术实现思路

[0006]本专利技术所要解决的技术问题是:提供一种文档查重方法及终端,以提高文档的查重精度。
[0007]为了解决上述技术问题,本专利技术采用的技术方案为:
[0008]一种文档查重方法,包括步骤:
...

【技术保护点】

【技术特征摘要】
1.一种文档查重方法,其特征在于,包括步骤:S1、对文档进行分词处理,将每一个分词作为一个特征向量,并计算每一张图片的特征值作为所述图片的特征向量;S2、将每一个分词相对于所述文档的TF-IDF值作为每一个分词的权重值,并将每一张图片在所述文档的出现次数与预设基础权重进行相乘以得到每一张图片的权重值;S3、根据所述特征向量和对应的权重值生成所述文档的签名值;S4、根据两篇文档的签名值来判断两篇文档的相似程度,以得到查重结果。2.根据权利要求1所述的一种文档查重方法,其特征在于,所述步骤S3具体包括以下步骤:S31、对每一个所述特征向量进行哈希计算,得到每一个所述特征向量的哈希值;S32、对每一个所述特征向量的哈希值中的每一位数值进行权重值相加,得到每一个所述特征向量的加权数字串,若所述特征向量的哈希值中某一位数值为1,则所述特征向量的加权数字串的这一位数值为正权重值,若所述特征向量的哈希值中某一位数值为0,则所述特征向量的加权数字串的这一位数值为负权重值;S33、将所有所述特征向量的加权数字串进行叠加,得到加权序列串;S34、对所述加权序列串进行降维处理,得到所述文档的签名值,若所述加权序列串中某一位数值大于0,则所述文档的签名值的这一位数值为1,若所述加权序列串中某一位数值小于或等于0,则所述文档的签名值的这一位数值为0。3.根据权利要求1或2所述的一种文档查重方法,其特征在于,所述步骤S1具体包括以下步骤:使用HanLP对文档进行分词处理,并去除预设资源类型中的常见停用词,得到最终的分词结果,将所述分词结果中的每一个分词作为一个特征向量;使用灰度值算法计算出每一张图片的哈希值作为所述图片的特征向量。4.根据权利要求1或2所述的一种文档查重方法,其特征在于,所述步骤S2还包括以下步骤:在得到每一个分词的权重值之后,判断每一个分词的权重值是否大于预设文本最大权重值,若是,则将所述预设文本最大权重值作为所述分词的权重值;在得到每一张图片的权重值之后,判断每一张图片的权重值是否大于预设图片最大权重值,若是,则将所述预设图片最大权重值作为所述图片的权重值。5.根据权利要求2所述的一种文档查重方法,其特征在于,每接收一份文档,则对所述文档依次执行所述步骤S1至所述步骤S3,将所述步骤S3输出的所述文档的签名值进行存储;所述步骤S4具体包括以下步骤:将两篇文档的签名值的海明距离进行比较,若所述海明距离小于预设数值,则认为两篇文档是重复的,否则认为不重复。6.一种文档查重终端,包括存储器、处理器及存储在存储器上并可在处理器上...

【专利技术属性】
技术研发人员:刘德建叶俊材郭玉湖陈宏
申请(专利权)人:福建天泉教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1