一种位置编码单次随机置换哈希度量文档相似度的方法技术

技术编号:24996097 阅读:78 留言:0更新日期:2020-07-24 17:58
一种位置编码单次随机置换哈希度量文档相似度的方法,属于信息检索中查找相似文本领域,包括如下步骤:S1,初步提取文本特征,生成单次随机置换哈希集合O

【技术实现步骤摘要】
一种位置编码单次随机置换哈希度量文档相似度的方法
本专利技术属于信息检索中查找相似文本领域,更具体地,涉及一种位置编码单次随机置换哈希度量文档相似度的方法。
技术介绍
WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等文档中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2019年申请量来说,申请书数量达20万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要借助哈希相似性估计技术,建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方法,通过将相似度问题转换为一个事件的发生概率问题,将文本词汇集合映射到hash值集合中,将字符串比对问题转化为特征指纹比对问题,适用于海量数据相似度度量。基于Minwise相似性度量算法及其变种算法具有较高的估计精度,但各研究机构仍在不断追求更高的精度。这是由于实际检测数据的多样性和随机性,经常容易出现一类大文本包含小文本(f1>>f2≈a)的情况。其中,f1、f2是文档1、文档2的词集大小,a为交集大小。因为f1>>f2,故相似性很小,又因为f2≈a,故文档2相对于文档1的包含率接近于1,如此高的包含率也说明了文档2完全抄袭于文档1。对于这类低相似率、高包含率的情况,基于Minwise相似性度量算法的方差均较大,精度不够。这虽然是一类较为特殊的数据,但实际中屡见不鲜,有时候相似度偏差可高达20%以上,目前并没有较好的处理方法。但是,基于Minwise相似性度量算法的缺陷在于:需要进行k次随机独立的置换以产生k个hash值,然后进行k个hash值的一一比对计算出两文档对的相似值,并且k次置换耗时较大,所需总时间的80%。单次随机置换哈希OnePermutationHashing(OPH)提出只需一次置换,就能达到k次置换的效果,产生k个hash值,从而提高了计算效率。于2018.08.17公开的、公布号为CN108415889A的、名称为一种基于带权一次置换哈希算法的文本相似性检测方法的专利技术专利,提出一种非均匀划分区域的方法,其通过设置阈值可以减少hash值的比对,从而能有效地提升计算效率。但是在区域中hash值为空的数量过多时,无论是上述单次随机置换哈希方法还是带权单次置换哈希方法都存在性能消耗过大的问题。
技术实现思路
为了解决上述技术问题,本专利技术提出一种位置编码单次随机置换哈希(PositionOnePermutationHashingPOPH)度量文档相似度的方法,用以解决OPH在生成过量空区时进行哈希值比对的性能消耗问题,提高计算性能,具有较为重要的科学意义和实际应用价值。本专利技术采取如下技术方案:一种位置编码单次随机置换哈希度量文档相似度的方法,包括如下步骤:S1,初步提取文本特征,生成单次随机置换哈希集合Ox;S2,进一步提取文本特征,生成单次随机置换的位置编码哈希集合Px:遍历S1中集合Ox中的非空区,将非空区的序号作为key,哈希值作为value,混合编码生成结构为<k,v>的键值对,形成集合Px;S3:相似性度量:遍历Pa、Pb中所有键值对,根据相似度比较两文档a、b的相似度;其中,下标x表示任意文档,Pa、Pb分别是文档a、b通过S2的方法生成的键值对<k,v>集合,Nemp为集合Oa、Ob中同时为空区的数量,Nmat表示集合Oa、Ob中不为空且哈希值相等的数量,k为集合Oa、Ob中总区域数量较大的除结束位的集合区域数。进一步的,S1所述哈希集合Ox的生成步骤为:S1.1:对文档x进行分词、滤噪得到分词集合Sx;S1.2:采用Rabin函数对Sx进行映射得新集合SxD,对集合SxD进行一次随机置换,生成集合π(SxD);S1.3:π(SxD)在全集Ω上生成的哈希值为SxR;S1.4:对SxR进行压缩编码,得到Ox。进一步的,所述S1.2中SxD进行的随机置换满足:数据集Y中的任意一个元素y在随机置换π下都有相同的概率是这个数据集置换后的最小值,即其中,数据集Y∈Ω且y∈Y,π为一个随机minwise排列。进一步的,所述S1.3中全集Ω均匀划分成k个区域,所有区域的大小相等且为m,对每个区域从1到k进行编号。进一步的,所述全集Ω中每个区域生成一个哈希值:若某区域不存在非零元素,该区域为空区,其哈希值为“*”;若某区域存在非零元素,该区域为非空区,将区域中最小非零元素作为该区域的哈希值;空区与非空区的哈希值集合形成SxR。进一步的,所述S1.4中的压缩编码过程采用编码压缩函数f(hash)=hashmodm,其中,mod为取模函数,m为全集Ω的区域大小,对SxR中的每一个哈希值运用压缩编码函数后生成集合Ox。进一步的,所述S3中相似性度量方法的步骤为:S3.1:令Nmat=0本文档来自技高网
...

【技术保护点】
1.一种位置编码单次随机置换哈希度量文档相似度的方法,其特征在于,包括如下步骤:/nS1,初步提取文本特征,生成单次随机置换哈希集合O

【技术特征摘要】
1.一种位置编码单次随机置换哈希度量文档相似度的方法,其特征在于,包括如下步骤:
S1,初步提取文本特征,生成单次随机置换哈希集合Ox;
S2,进一步提取文本特征,生成单次随机置换的位置编码哈希集合Px:遍历S1中集合Ox中的非空区,将非空区的序号作为key,哈希值作为value,混合编码生成结构为<k,v>的键值对,形成集合Px;
S3:相似性度量:遍历Pa、Pb中所有键值对,根据相似度比较两文档a、b的相似度;
其中,下标x表示任意文档,Pa、Pb分别是文档a、b通过S2的方法生成的键值对<k,v>集合,Nemp为集合Oa、Ob中同时为空区的数量,Nmat表示集合Oa、Ob中不为空且哈希值相等的数量,k为集合Oa、Ob中总区域数量较大的除结束位的集合区域数。


2.根据权利要求1所述的度量文档相似度的方法,其特征在于,S1所述哈希集合Ox的生成步骤为:
S1.1:对文档x进行分词、滤噪得到分词集合Sx;
S1.2:采用Rabin函数对Sx进行映射得新集合SxD,对集合SxD进行一次随机置换,生成集合π(SxD);
S1.3:π(SxD)在全集Ω上生成的哈希值为SxR;
S1.4:对SxR进行压缩编码,得到Ox。


3.根据权利要求2所述的度量文档相似度的方法,其特征在于,所述S1.2中SxD进行的随机置换满足:数据集Y中的任意一个元素y在随机置换π下都有相同的概率是这个数据集置换后的最小值,即其中,数据集Y∈Ω且y∈Y,π为一个随机minwise排列。


4.根据权利要求2所述的度量文档相似度的方法,其特征在于,所述S1.3中全集Ω均匀划分成k个区域,所有区域的大小相等且为m,对每个区域从1到k进行编号。


5.根据权利要求4所述的度量文档相似度的方法,其特征在于,所述全集Ω中每个区域生成一个哈希值:若某区域不存在非零元素,该区域为空区...

【专利技术属性】
技术研发人员:袁鑫攀王松林毛鑫鑫
申请(专利权)人:湖南工业大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1