海量文件相似计算方法及装置制造方法及图纸

技术编号:32461403 阅读:22 留言:0更新日期:2022-02-26 08:51
本发明专利技术公开了一种海量文件相似计算方法及装置,获取所有要计算相似度的文本所对应的SIMHASH;将所有SIMHASH分为n份,将每一份作为key把完整的SIMHASH作为值存入Set集合中;将所述Set集合作为值存入到HashMap中;再次遍历所有SIMHAS,将遍历到的每个SIMHASH分成n份;将遍历后分成的n份SIMHASH段分别放到Map中查找是否有相同;若有相同,则可能存在与其相似的SIMHASH;获取Map中的值再逐一比较是否有满足相似条件的SIMHASH;本发明专利技术提供的海量文件相似计算方法及装置,解决了在大量文件的情况下计算相似度速度非常慢甚至无法计算出结果的问题,而且速度得到了很大提升,可以在几秒内就获得结果。内就获得结果。内就获得结果。

【技术实现步骤摘要】
海量文件相似计算方法及装置


[0001]本专利技术涉及信息
,具体涉及一种海量文件相似计算方法及装置。

技术介绍

[0002]自然语言处理在保密系统业务中应用广泛。比如自动甄别涉密信息、涉密公文、涉密邮件等。为保密处置人员节省了大量的处置时间并提高了相应的处置准确度。
[0003]随着业务系统的数据库容量不断增加及应用范围不断扩大,保密处置人员每天都面临着在海量文件中查找相似文件,进行相似度比较。由于对相似的文本内容的处理是相同的,所以当查找到某一个文件和其他文件的相似信息后就可以将这些相似地文件一同进行处置,这样在对文件处理时就能做到以一抵百效果。当然这种以一抵百的前提是需要提前计算好所有文件之间的相似关系。
[0004]为了更加清楚的说明现有技术,需要举例来说明:
[0005]例如,现在有十个文件,将这10个文件从1到10进行编号。确定1号文件和另外9个文件是否相似时需要将1号文件与2到10号文件进行比较才能确定。那么2号文件就需要和1号文件及3到10号文件进行比较。依次类推。最后需要比较的次数是90次,因为每本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种海量文件相似计算方法,其特征在于,包括:获取所有要计算相似度的文本所对应的SIMHASH;将所有SIMHASH分为n份,将每一份作为key把完整的SIMHASH作为值存入Set集合中;将所述Set集合作为值存入到HashMap中;再次遍历所有SIMHAS,将遍历到的每个SIMHASH分成n份;将遍历后分成的n份SIMHASH段分别放到Map中查找是否有相同;若有相同,则可能存在与其相似的SIMHASH;获取Map中的值再逐一比较是否有满足相似条件的SIMHASH。2.根据权利要求1所述的海量文件相似计算方法,其特征在于,所述SIMHASH是一个64位的01串。3.根据权利要求2所述的海量文件相似计算方法,其特征在于,所述64位的01串是将文件内容进行降维得到的。4.根据权利要求1所述的海量文件相似计算方法,其特征在于,所述获取Map中的值再逐一比较是否有满足相似条件的SIMHASH,具体为:将两个SIMHASH首尾对齐依次比较每一位是否相同;若不相同的位数小于等于3,则确认两个文件是相似的。5.根据权利要求1所述的海量文件相似计算方法,其特征在于,所述n为2、4、8或16...

【专利技术属性】
技术研发人员:代俊朴
申请(专利权)人:北京鼎普科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1