基于结构相似性与语义相似性的多维度文本查重方法技术

技术编号:41872479 阅读:24 留言:0更新日期:2024-07-02 00:23
本发明专利技术涉及一种基于结构相似性和语义相似性的多维度文本查重方法,提供的查重方法同时结合了结构相似性查询对细粒度特征具有较好的适应性和语义相似性查询对捕获文本全局语义信息具有强表示性和对处理复杂无序文本能力强的优势,构建了一种多维度互补结构的文本相似度查询方法。该方法首先通过依赖解析器计算查重文本的相似度并进一步提取文本的结构相似性内容,同时引入了机器学习方法对查重文本进行建模提取文本的语义信息,并进行余弦相似度计算提取文本语义相似性内容。最后,将提取出来的结构相似性内容和语义相似性内容进行循环对比,并将判别结果以可下载文本的方式反馈给用户。

【技术实现步骤摘要】

本专利技术属于数据查重,具体涉及一种基于结构相似性和语义相似性的多维度文本查重方法。


技术介绍

1、在企业开展招标、投标、设计成果、科技项目等审查工作中,判定提交的文件是否存在相似性是一项必要工作,以保证文件的唯一性,避免文件重复抄袭导致工作合理性和合规性风险。因此,如何分析鉴别生产过程中各类文件的唯一性是一个亟待解决的问题。

2、近年来,相关方面的学者提出了大量的文本相似度查询方法,得到了很多成果。目前主要的文本相似度查询方法有基于词汇相似度、基于语义相似度以及基于结构相似度三种。对于中文文本来说,文本内容的语义语法更为复杂难以判别。不同的方法存在不同程度的优势和劣势,词汇相似度查询方法是通过各种度量方法计算词汇的相似度,该方法对于长文本的局限性非常大,不能从文本内容的全局考虑判别文本的相似性,容易出现词汇堆叠的情况,且从数学角度来说相同词汇的出现频率在应用场景中并不能作为文本具有相似性的判定依据;语义相似度查询方法是从文本上下文语义角度出发,能够捕获文本上下文所表述的全局语义信息,对复杂无序文本的处理能力强,但是现有的语义相似度查询方法采用本文档来自技高网...

【技术保护点】

1.一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述上传的第一待查重文本和第二待查重文本是通过网页用户界面完成。

3.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述词向量的字符长度为30个字符,对于词向量字符长度不够的补零,超出30个字符的顺序截取。

4.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述对第一分词库和第二分词库进行依赖分析计算,将相似...

【技术特征摘要】

1.一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述上传的第一待查重文本和第二待查重文本是通过网页用户界面完成。

3.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述词向量的字符长度为30个字符,对于词向量字符长度不够的补零,超出30个字符的顺序截取。

4.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述对第一分词库和第二分词库进行依赖分析计算,将相似度超过50%的依赖树内容提取出来,再进行包含关系计算将...

【专利技术属性】
技术研发人员:宁宏维卢文涛石明陈石高智燃
申请(专利权)人:中国能源建设集团云南省电力设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1