【技术实现步骤摘要】
一种位置编码单次随机置换哈希度量文档相似度的方法
本专利技术属于信息检索中查找相似文本领域,更具体地,涉及一种位置编码单次随机置换哈希度量文档相似度的方法。
技术介绍
WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等文档中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气 ...
【技术保护点】
1.一种位置编码单次随机置换哈希度量文档相似度的方法,其特征在于,包括如下步骤:/nS1,初步提取文本特征,生成单次随机置换哈希集合O
【技术特征摘要】
1.一种位置编码单次随机置换哈希度量文档相似度的方法,其特征在于,包括如下步骤:
S1,初步提取文本特征,生成单次随机置换哈希集合Ox;
S2,进一步提取文本特征,生成单次随机置换的位置编码哈希集合Px:遍历S1中集合Ox中的非空区,将非空区的序号作为key,哈希值作为value,混合编码生成结构为<k,v>的键值对,形成集合Px;
S3:相似性度量:遍历Pa、Pb中所有键值对,根据相似度比较两文档a、b的相似度;
其中,下标x表示任意文档,Pa、Pb分别是文档a、b通过S2的方法生成的键值对<k,v>集合,Nemp为集合Oa、Ob中同时为空区的数量,Nmat表示集合Oa、Ob中不为空且哈希值相等的数量,k为集合Oa、Ob中总区域数量较大的除结束位的集合区域数。
2.根据权利要求1所述的度量文档相似度的方法,其特征在于,S1所述哈希集合Ox的生成步骤为:
S1.1:对文档x进行分词、滤噪得到分词集合Sx;
S1.2:采用Rabin函数对Sx进行映射得新集合SxD,对集合SxD进行一次随机置换,生成集合π(SxD);
S1.3:π(SxD)在全集Ω上生成的哈希值为SxR;
S1.4:对SxR进行压缩编码,得到Ox。
3.根据权利要求2所述的度量文档相似度的方法,其特征在于,所述S1.2中SxD进行的随机置换满足:数据集Y中的任意一个元素y在随机置换π下都有相同的概率是这个数据集置换后的最小值,即其中,数据集Y∈Ω且y∈Y,π为一个随机minwise排列。
4.根据权利要求2所述的度量文档相似度的方法,其特征在于,所述S1.3中全集Ω均匀划分成k个区域,所有区域的大小相等且为m,对每个区域从1到k进行编号。
5.根据权利要求4所述的度量文档相似度的方法,其特征在于,所述全集Ω中每个区域生成一个哈希值:若某区域不存在非零元素,该区域为空区...
【专利技术属性】
技术研发人员:袁鑫攀,王松林,毛鑫鑫,
申请(专利权)人:湖南工业大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。