【技术实现步骤摘要】
本专利技术属于数据查重,具体涉及一种基于结构相似性和语义相似性的多维度文本查重方法。
技术介绍
1、在企业开展招标、投标、设计成果、科技项目等审查工作中,判定提交的文件是否存在相似性是一项必要工作,以保证文件的唯一性,避免文件重复抄袭导致工作合理性和合规性风险。因此,如何分析鉴别生产过程中各类文件的唯一性是一个亟待解决的问题。
2、近年来,相关方面的学者提出了大量的文本相似度查询方法,得到了很多成果。目前主要的文本相似度查询方法有基于词汇相似度、基于语义相似度以及基于结构相似度三种。对于中文文本来说,文本内容的语义语法更为复杂难以判别。不同的方法存在不同程度的优势和劣势,词汇相似度查询方法是通过各种度量方法计算词汇的相似度,该方法对于长文本的局限性非常大,不能从文本内容的全局考虑判别文本的相似性,容易出现词汇堆叠的情况,且从数学角度来说相同词汇的出现频率在应用场景中并不能作为文本具有相似性的判定依据;语义相似度查询方法是从文本上下文语义角度出发,能够捕获文本上下文所表述的全局语义信息,对复杂无序文本的处理能力强,但是现有的语
...【技术保护点】
1.一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述上传的第一待查重文本和第二待查重文本是通过网页用户界面完成。
3.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述词向量的字符长度为30个字符,对于词向量字符长度不够的补零,超出30个字符的顺序截取。
4.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述对第一分词库和第二分词库进行
...【技术特征摘要】
1.一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述上传的第一待查重文本和第二待查重文本是通过网页用户界面完成。
3.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述词向量的字符长度为30个字符,对于词向量字符长度不够的补零,超出30个字符的顺序截取。
4.根据权利要求1所述的一种基于结构相似性和语义相似性的多维度文本查重方法,其特征在于,所述对第一分词库和第二分词库进行依赖分析计算,将相似度超过50%的依赖树内容提取出来,再进行包含关系计算将...
【专利技术属性】
技术研发人员:宁宏维,卢文涛,石明,陈石,高智燃,
申请(专利权)人:中国能源建设集团云南省电力设计院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。