文档检测处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:33348659 阅读:45 留言:0更新日期:2022-05-08 09:49
本发明专利技术公开了一种文档检测处理方法、装置、存储介质及电子设备。其中,该方法包括:接收客户端发送的文档检测请求;对读取到的待检测文档中的文档内容进行文本处理和哈希表生成处理,得到第一哈希签名;依据第一哈希签名对预存的文档指纹库中的最小哈希签名列表进行搜索,得到与第一哈希签名存在重合元素的第二哈希签名的索引值;通过索引值定位至与第二哈希签名对应的样本文档,并通过计算第一哈希签名和第二哈希签名之间的相似度值,得到待检测文档和样本文档之间的重合度值。本发明专利技术解决了现有技术中的文档检测处理方法无法识别出少量文档摘抄情况,且无法计算文档重合度的技术问题。术问题。术问题。

【技术实现步骤摘要】
文档检测处理方法、装置、存储介质及电子设备


[0001]本专利技术涉及数据处理
,具体而言,涉及一种文档检测处理方法、装置、存储介质及电子设备。

技术介绍

[0002]随着科技的不断发展,各个企业或用户的数据量不断增加,网络的便捷加剧了数据分享,加大了单位、企业涉密数据有意或无意的泄露风险,因此,各企业需要防止秘密文档的泄露,但又不能与网络断开连接导致与外界断绝;在现有技术中,通常采用局部敏感哈希算法和/或文本文件指纹生成算法,求得最小或最大哈希值,采用哈希值代表这一段文本内容的文件指纹,最后根据文件指纹得到文件识别效果。
[0003]但是,直接根据文件指纹对文件进行识别,无法对外发数据进行实时的处理,并且只能判断全篇、大段摘抄的情况,无法识别从文档中摘抄少量句子的情况,对全篇存在内容重复内容或者词语的场景下容易误判,判断性能较差;更没有办法计算出重合的重合度,得到一个具体的量化结果。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文档检测处理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档检测处理方法,其特征在于,包括:接收客户端发送的文档检测请求,其中,所述文档检测请求中携带有待检测文档或者用于获取待检测文档的相关信息,所述文档检测请求用于请求服务端检测所述待检测文档中文档内容与样本文档的文档内容之间的重合度值;对读取到的所述待检测文档中的文档内容进行文本处理和哈希表生成处理,得到第一哈希签名;依据所述第一哈希签名对预存的文档指纹库中的最小哈希签名列表进行搜索,得到与所述第一哈希签名存在重合元素的第二哈希签名的索引值;通过所述索引值定位至与所述第二哈希签名对应的样本文档,并通过计算所述第一哈希签名和所述第二哈希签名之间的相似度值,得到所述待检测文档和所述样本文档之间的重合度值。2.根据权利要求1所述的方法,其特征在于,在接收客户端发送的文档检测请求之前,所述方法还包括:将接收到的所述样本文档的文档内容处理为一个或多个第一单词字符块,其中,每个所述第一单词字符块包括:多个第一单词字符;在随机排列所述第一单词字符块中的多个第一单词字符后,采用预定位数的随机哈希函数分别处理多个所述第一单词字符获取哈希签名列表并更新至最小哈希签名列表中,得到更新后最小哈希签名列表中预定位数的最小值,重复N遍直至得到更新后的预定位数的第二哈希签名,其中,N为所述第一单词字符的个数,所述预定位数为大于0的整数,代表使用随机哈希函数的个数;将所述样本文档的文件名称与所述第二哈希签名对应存储为所述文档指纹库。3.根据权利要求2所述的方法,其特征在于,将接收到的所述样本文档的文档内容处理为一个或多个第一单词字符块,包括:对所述样本文档的文档内容进行预处理,得到第一文档元素列表;其中,所述预处理包括以下至少之一:分词、去停用词、去单字、恢复原词、恶意字符插入恢复;采用语言处理模型将所述第一文档元素列表划分为多个第一子元素列表;对多个所述第一子元素列表进行字符编码处理得到多个第一单词字符,并按照预定阈值对多个所述第一单词字符进行分组处理,得到多个第一单词字符块。4.根据权利要求1所述的方法,其特征在于,对读取到的所述待检测文档中的文档内容进行文本处理和哈希表生成处理,得到第一哈希签名,包括:将所述待检测文档的文档内容处理为多个第二单词字符块,其中,每个第二单词字符块包括:多个第二单词字符;在随机排列所述第二单词字符块中的多个第二单词字符后,采用预定位数的随机哈希函数分别处理多个所述第二单词字符获取哈希签名列表并更新至最小哈希签名列表中,得到更新后最小哈希签名列表中预定位数的最小值,重复N遍直至得到更新后的预定位数的多个第一哈希签名,其中,N为所述第二单词字符的个数,所述预定位数为大于0的整数,代表使用随机哈希函数的个数。5.根据权利要求4所述的方法,其特征在于,将所述待检测文档的文档内容处理为多个第二单词字符块,包括:
对接收到的所述待检测文档的文档内容进行预处理,得到第二文档元素列表;其...

【专利技术属性】
技术研发人员:王奎举喻波王志海韩振国安鹏
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1