一种位置编码单次随机置换哈希度量文档相似度的方法技术

技术编号：24996097 阅读：91 留言：0更新日期：2020-07-24 17:58

一种位置编码单次随机置换哈希度量文档相似度的方法，属于信息检索中查找相似文本领域，包括如下步骤：S1，初步提取文本特征，生成单次随机置换哈希集合O

全部详细技术资料下载

【技术实现步骤摘要】
一种位置编码单次随机置换哈希度量文档相似度的方法
本专利技术属于信息检索中查找相似文本领域，更具体地，涉及一种位置编码单次随机置换哈希度量文档相似度的方法。
技术介绍
WEB正经历着爆炸性增长，越来越多的文献资料开始在网上公布，这种趋势使得网络上文档资源成几何级数增长，为人类共享知识和创造财富提供了前所未有的便利，也对我国的现代化建设有着积极的推动作用。然而，这些数字化资源给人们提供帮助的同时，资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗，使得在各种论文和项目申请书等文档中，可能存在比较严重的抄袭现象。同时，随着国家对教育科研的大量投入，提供了各种教育和科技项目的资助，如：国家自然科学基金项目、教育部的博士点项目，各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管，这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性，对国家科研经费的合理分配产生不良的影响，造成科学研究经费可能得不到高效利用。为防止抄袭剽窃，端正学术风气...

【技术保护点】
1.一种位置编码单次随机置换哈希度量文档相似度的方法，其特征在于，包括如下步骤：/nS1，初步提取文本特征，生成单次随机置换哈希集合O

【技术特征摘要】
1.一种位置编码单次随机置换哈希度量文档相似度的方法，其特征在于，包括如下步骤：
S1，初步提取文本特征，生成单次随机置换哈希集合Ox；
S2，进一步提取文本特征，生成单次随机置换的位置编码哈希集合Px：遍历S1中集合Ox中的非空区，将非空区的序号作为key，哈希值作为value，混合编码生成结构为＜k,v＞的键值对，形成集合Px；
S3：相似性度量：遍历Pa、Pb中所有键值对，根据相似度比较两文档a、b的相似度；
其中，下标x表示任意文档，Pa、Pb分别是文档a、b通过S2的方法生成的键值对＜k,v＞集合，Nemp为集合Oa、Ob中同时为空区的数量，Nmat表示集合Oa、Ob中不为空且哈希值相等的数量，k为集合Oa、Ob中总区域数量较大的除结束位的集合区域数。

2.根据权利要求1所述的度量文档相似度的方法，其特征在于，S1所述哈希集合Ox的生成步骤为：
S1.1：对文档x进行分词、滤噪得到分词集合Sx；
S1.2：采用Rabin函数对Sx进行映射得新集合SxD，对集合SxD进行一次随机置换，生成集合π(SxD)；
S1.3：π(SxD)在全集Ω上生成的哈希值为SxR；
S1.4：对SxR进行压缩编码，得到Ox。

3.根据权利要求2所述的度量文档相似度的方法，其特征在于，所述S1.2中SxD进行的随机置换满足：数据集Y中的任意一个元素y在随机置换π下都有相同的概率是这个数据集置换后的最小值，即其中，数据集Y∈Ω且y∈Y，π为一个随机minwise排列。

4.根据权利要求2所述的度量文档相似度的方法，其特征在于，所述S1.3中全集Ω均匀划分成k个区域，所有区域的大小相等且为m，对每个区域从1到k进行编号。

5.根据权利要求4所述的度量文档相似度的方法，其特征在于，所述全集Ω中每个区域生成一个哈希值：若某区域不存在非零元素，该区域为空区...

【专利技术属性】
技术研发人员：袁鑫攀，王松林，毛鑫鑫，
申请(专利权)人：湖南工业大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人