一种文本查重方法技术

技术编号:26505790 阅读:65 留言:0更新日期:2020-11-27 15:33
本发明专利技术公开了一种文本查重方法,包括如下步骤:S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;S3)收集大于最小匹配长度的最长公共子串信息;S4)采用软件图形界面显示文本查重结果。本发明专利技术提供的文本查重方法,能够灵活设置查重的最小长度,提升整体文档查重准确度,让查重变得简单、灵活。

【技术实现步骤摘要】
一种文本查重方法
本专利技术涉及一种文本处理方法,尤其涉及一种文本查重方法。
技术介绍
文本查重是根据一定相似度模型从大量文本中发现重复文本的过程,通过判断目标文本与源文本相似度是否大于阀值,从而得出目标文本是否为重复文本的结论。它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。在两份文本材料查重过程中,重复文本是连续的长度最大的片段。文本材料中一般包含很多相同语素,如果不限制匹配长度,可能搜索出长度为一或二的大量重复文本,这些重复文本并没有实际用处。作为解决方案编写人员,在编写和审阅技术方案时,需要在不同的文档材料中准确识别并定位重复文本,目前常用做法如下:1)借助文档搜索功能,人工以一定长度关键词检索是否存在重复情况;2)使用word文档比较功能,比对查重文本;3)使用现有文本查重比较工具,整段对比,查找并显示重复文本。尽管借助现有本文查重比较工具可以识别两份文档的相似度,但仍然存在以下不足:1)通过人工搜索查重的方式,容易受到人员自身状态、周围环境等因素影响,存在出错、遗漏风险本文档来自技高网...

【技术保护点】
1.一种文本查重方法,其特征在于,包括如下步骤:/nS1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;/nS2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;/nS3)收集大于最小匹配长度的最长公共子串信息;/nS4)采用软件图形界面显示文本查重结果。/n

【技术特征摘要】
1.一种文本查重方法,其特征在于,包括如下步骤:
S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;
S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;
S3)收集大于最小匹配长度的最长公共子串信息;
S4)采用软件图形界面显示文本查重结果。


2.如权利要求1所述的文本查重方法,其特征在于,所述步骤S1中的结构体中包含源重复文本的开始索引表、目标重复文本的开始索引表、重复文本长度和重复文本内容;所述步骤S2通过源重复文本的开始索引和重复文本长度,获取到重复文本内容,并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。


3.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。


4.如权利要求3所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为源重复文本的开始索引,值为重复文本结构体的映射对象,收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表;如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,则清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。


5.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为重复文本内容,值为重复文本结构体的映射对象...

【专利技术属性】
技术研发人员:程永新林小勇高健光
申请(专利权)人:上海新炬网络信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1