文件指纹校验方法及装置制造方法及图纸

技术编号:14951512 阅读:32 留言:0更新日期:2017-04-02 04:00
本发明专利技术公开了一种文件指纹校验方法及装置,涉及信息技术领域,可以实现对文件数据的相似性进行准确校验。所述方法包括:首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本发明专利技术适用于对非结构化数据的指纹校验。

【技术实现步骤摘要】

本专利技术涉及一种信息
,特别是涉及一种文件指纹校验方法及装置
技术介绍
随着信息技术的不断发展,电子化文档类的文件使用量越来越大。通常此类文件数据为非结构化数据,即不方便用数据库二维逻辑表来实现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。目前,电子化文档在方便人们提高工作效率、节约纸张等自然资源的利用的同时,也带来一些额外的问题和麻烦。如:电子化文档比较容易复制,也比较容易传播。这些文档电子化的新特征使得文档的抄袭在技术上更加容易。加之电子化数据量的日益增大,这类抄袭的人工判断越来越困难。例如,在用户从网络上下载需要的文档文件数据的同时,也需要确保该文档文件数据没有被人修改过,如添加了木马、病毒、非官方插件等,或是在下载中没有被破坏。因此,非常有必要利用现代化信息技术来改进人们对文件数据的相似性校验方法,从而提高人们处理日益增长的海量电子化文档的能力。
技术实现思路
有鉴于此,本专利技术提供了一种文件指纹校验方法及装置,主要目的在于可以实现对非结构化数据的相似性进行准确校验。依据本专利技术一个方面,提供了一种文件指纹校验方法,该方法包括:提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。依据本专利技术另一个方面,提供了一种文件指纹校验装置,该装置包括:提取单元,用于提取待校验文件中的文件内容信息;预处理单元,用于对所述提取单元提取的待校验文件中的文件内容信息进行预处理;所述提取单元,还用于提取预处理后的文件内容信息中的指纹信息;检测单元,用于检测所述提取单元提取的指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;确定单元,用于若所述检测单元检测出所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术提供的一种文件指纹校验方法及装置,首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本专利技术通过对待校验文件进行指纹信息提取并与预置指纹库中的指纹信息之间进行相似度进行检测,提供了对非结构化数据进行指纹校验的方式,可以实现对文件数据的相似性进行准确校验,从而可以提高处理日益增长的海量电子化文档的效率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文件指纹校验方法流程示意图;图2示出了本专利技术实施例提供的另一种文件指纹校验方法流程示意图;图3示出了本专利技术实施例提供的一种文件指纹校验装置结构示意图;图4示出了本专利技术实施例提供的另一种文件指纹校验装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种文件指纹校验方法,如图1所示,所述方法包括:101、提取待校验文件中的文件内容信息并进行预处理。其中,所述文件内容信息中包含待校验文件中的文件内容。对于本专利技术实施例,可以通过泛化处理的方式,即模板化处理的方式,提取待校验文件中的文件内容信息,提取的文件内容信息为预设Unicode编码格式。具体地,可以利用预设文档内容提取函数,提取待校验文件中的文件内容,其中,预设文档内容提取函数可以按用户的实际需求进行配置;再利用预设字符集编码探测函数,识别提取的文件内容的编码格式,然后利用预设编码转换库,将提取的文件内容的编码格式转换为预设Unicode编码格式,进而完成提取待校验文件中的文件内容信息。对于本专利技术实施例,在对提取的文件内容信息进行预处理的过程可以包括:去除文件内容中的标点符号、去除无意词、以及对文件内容进行中文分词处理等。102、提取预处理后的文件内容信息中的指纹信息。其中,所述指纹信息是指可以唯一标识某个文件的特征,每一个文件都会有唯一的指纹信息。所谓指纹,实际上就是将文件内容映射成一个数字,每一段不同内容所映射的数字都不会相同,就好比人的指纹一样。文件指纹在保护数据完整性,身份识别等诸多方面有着举足轻重的作用。103、检测指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值。其中,所述预置指纹库中保存有用于鉴别文件内容相似的指纹信息。所述预设阈值可以根据实际需求进行配置,例如,可以配置为70%、80%等。104、若相似度大于或等于预设阈值,则确定待校验文件为内容相似文件。例如,预设阈值为65%,提取文件A中的文件内容信息并进行预处理,然后提取预处理后的文件内容信息中的指纹信息,当检测出该指纹信息与预置指纹库中的指纹信息之间的相似度为70%时,确定文件A为内容相似文件;当检测出该指纹信息与预置指纹库中的指纹信息之间的相似度为30%时,确定文件A不是内容相似文件。本专利技术实施例提供的一种文件指纹校验方法,首先提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。本专利技术通过对待校验文件进行指纹信息提取并与预置指纹库中的指纹信息之间进行相似度进行检测,提供了对非结构化数据进行指纹校验本文档来自技高网...

【技术保护点】
一种文件指纹校验方法,其特征在于,包括:提取待校验文件中的文件内容信息并进行预处理;提取预处理后的文件内容信息中的指纹信息;检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于或等于预设阈值;若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内容相似文件。

【技术特征摘要】
1.一种文件指纹校验方法,其特征在于,包括:
提取待校验文件中的文件内容信息并进行预处理;
提取预处理后的文件内容信息中的指纹信息;
检测所述指纹信息与预置指纹库中的指纹信息之间的相似度是否大于
或等于预设阈值;
若所述相似度大于或等于所述预设阈值,则确定所述待校验文件为内
容相似文件。
2.根据权利要求1所述的文件指纹校验方法,其特征在于,所述提取
预处理后的文件内容信息中的指纹信息包括:
通过预置Karp-Rabin函数,提取预处理后的文件内容信息中的指纹信
息。
3.根据权利要求2所述的文件指纹校验方法,其特征在于,所述通过
预置Karp-Rabin函数,提取预处理后的文件内容信息中的指纹信息包括:
通过预置K-gram函数将所述预处理后的文件内容信息进行划分,得到
多个指纹分块;
计算每个指纹分块对应的哈希值,作为提取的指纹信息。
4.根据权利要求3所述的文件指纹校验方法,其特征在于,所述计算
每个指纹分块对应的哈希值,作为提取的指纹信息包括:
按照每个指纹分块在文件内容信息中位置的先后顺序,计算所述每个
指纹分块对应的哈希值;
当需要计算处于除首位外其余位置的指纹分块的哈希值时,获取前一
个指纹分块对应的哈希值;
计算所述前一个指纹分块中第一个字符对应的哈希值,以及所述处于
除首位外其余位置的指纹分块中最后一个字符对应的哈希值;
计算所述前一个指纹分块对应的哈希值与所述前一个指纹分块中第一
个字符对应的哈希值之差,再与所述处于除首位外其余位置的指纹分块中
最后一个字符对应的哈希值求和,得到所述处于除首位外其余位置的指纹

\t分块对应的哈希值。
5.根据权利要求...

【专利技术属性】
技术研发人员:朱细智
申请(专利权)人:北京奇虎科技有限公司北京奇安信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1