The present invention provides a method for determining similar string, the method comprises: a character array character array to obtain the sample files and target files; constructing the matrix M, the character array matrix of M rows and columns corresponding to the sample file character array and the target file in the search; the matrix of M meet the condition of sub string similarity matrix, which have the similar conditions: if the string is set to the sub matrix elements in the
【技术实现步骤摘要】
确定相似字符串的方法、文件查重的方法及系统
本专利技术涉及论文查重
,尤其涉及一种基于分词模糊匹配的文件查重的方法和系统。
技术介绍
目前,论文/文件的重复率检测主要是采用PaperPass、万方、知网等论文检测系统,通过字符串匹配算法来计算待检测的文件相对于文件库中的目标文件的相似比。字符串匹配算法是以一段文字完全一致作为衡量论文重复的标准,然而,由于中文语言的复杂性和表达方式的多样性,对于实质内容相同的两段文字,往往会因为中间出现一些无意义的“停词”或虚词或者主谓宾顺序不一致等情况,而将其错误地判断为不属于重复内容,因此,采用现有技术中的字符串匹配算法可能会导致查全率和查准率不高。而且,字符串匹配算法对字符串的选取要求严格,算法本身复杂度较高,需要相对大的资源开销和较长的计算时间,因此,查重的效率也不高。此外,近年来,随着科技项目申报、学术论文和学位论文等的数量大幅增长,迫切需要支持大数据量下,查重结果准确、高效的文本数据查重的方法。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于分词模糊匹配的方法来确定相似字符串,从而确定文件相对于 ...
【技术保护点】
一种用于确定相似字符串的方法,包括:步骤1:获取样本文件的字符数组和待检测的目标文件的字符数组;步骤2:构建矩阵M,其中,矩阵M的行和列分别对应所述样本文件的字符数组和所述目标文件的字符数组;步骤3:在所述矩阵M中查找满足相似字符串条件的子方阵,其中,所述相似字符串条件设置为:如果该子方阵中的元素
【技术特征摘要】
1.一种用于确定相似字符串的方法,包括:步骤1:获取样本文件的字符数组和待检测的目标文件的字符数组;步骤2:构建矩阵M,其中,矩阵M的行和列分别对应所述样本文件的字符数组和所述目标文件的字符数组;步骤3:在所述矩阵M中查找满足相似字符串条件的子方阵,其中,所述相似字符串条件设置为:如果该子方阵中的元素对应的行和列的字符相同,则所映射的字符串被确定为相似字符串,其中,k表示该子方阵的阶数,j1、j2、j3、…jk是1、2、…、k的一个排列。2.根据权利要求1所述的方法,其中,所述样本文件的字符数组和所述目标文件的字符数组中的每个元素对应对文件内容进行分词处理之后的字符。3.根据权利要求1所述的方法,其中,步骤2包括:对于所述矩阵M中的每个元素,如果行对应的字符和列对应的字符相等,则将该元素设置为1,否则设置为0。4.根据权利要求3所述的方法,其中,所述在矩阵M中查找满足相似字符串条件的子方阵的步骤包括:步骤11:设置待查找的子方阵A1的阶数k;步骤12:遍历矩阵M,以查找符合所述相似字符串条件子方阵A1,其中,子方阵A1中的元素满足不为0;步骤13:基于所找到的子方阵A1进一步查找满足所述相似字符串条件的子方阵A2,其中,A1是子方阵...
【专利技术属性】
技术研发人员:杨冬菊,赵卓峰,李成龙,冯凯,邓崇彬,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。