一种重复文本的判定方法和装置制造方法及图纸

技术编号:14874590 阅读:24 留言:0更新日期:2017-03-23 22:16
本发明专利技术公开了一种重复文本的判定方法和装置。所述方法包括:判断第一文本和第二文本分别对应的概要信息是否重复;若所述概要信息不重复,则分别提取所述第一文本和所述第二文本的特征内容;识别所述第一文本和所述第二文本分别对应的特征内容是否重复;若所述特征内容重复,则判定所述第一文本和所述第二文本重复。因此,本发明专利技术实施例对于概要信息相同的文本,使用本方法可以快速完成重复文本的判断;对于概要信息不同的文本,提取特征内容,进一步对文本的特征内容进行判断,从而完成重复文本的判断,本发明专利技术实施例对重复文本的判断过程所需的计算量较小、判断效率较高、算法使用灵活。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及一种重复文本的判定方法,以及一种重复文本的判定装置。
技术介绍
在文本处理过程中,常常使用文本去重方法,去除文本中重复出现的信息。目前判定两个文本是否重复时,通常先计算两个文本的相似度,之后再对计算的相似度的大小进行判断,如果计算的相似度小于相似度阈值,则判定两个文本重复。常用的文本相似度算法包括余弦相似度算法和文本哈希算法,其中,余弦相似度算法是将文本转化成向量,计算向量之间的夹角余弦值,夹角预小两个文本的相似度越高;文本哈希算法是将文本映射成相应的哈希值,通过比对哈希值判断两个文本的相似度,使用上述任意一种方法可以去除文本中的重复信息。但是,上述两种算法都具有缺陷。具体地,余弦相似度算法中文本转化和向量夹角计算需要耗费较大的计算量,使得余弦相似度算法的计算效率较低,因此使用余弦相似度算法判断重复文本的判断效率较低;文本哈希算法中相似度的判断条件非常严苛,算法在使用上缺乏灵活性。因此,需要一种计算量较小、使用灵活的相似度算法。
技术实现思路
鉴于上述问题,本专利技术的实施例提供了一种重复文本的判定方法,以及一种重复文本的判定装置。依据本专利技术的一个方面,提供了一种重复文本的判定方法,所述方法包括:判断第一文本和第二文本分别对应的概要信息是否重复;若所述概要信息不重复,则分别提取所述第一文本和第二文本的特征内容;识别所述第一文本和第二文本分别对应的特征内容是否重复;若所述特征内容重复,则判定所述第一文本和第二文本重复。可选地,所述判断第一文本和第二文本分别对应的概要信息是否重复包括:判断所述第一文本的第一概要信息与所述第二文本的第二概要信息的相似度是否大于或等于预设的相似度阈值。可选地,所述判断所述第一文本的第一概要信息与所述第二文本的第二概要信息的相似度是否大于或等于预设的相似度阈值包括:对所述第一文本的第一概要信息和所述第二文本的第二概要信息分别进行分词和去除停用词处理,对应得到第一词语集合和第二词语集合;确定所述第一词语集合转化成所述第二词语集合所需的最少编辑次数;依据所述最少编辑次数计算所述第一概要信息与所述第二概要信息的相似度;判断计算的相似度是否大于或等于预设的相似度阈值。可选地,所述方法还包括:若计算的相似度大于或等于预设的相似度阈值,则判定所述第一概要信息与所述第二概要信息重复,当所述第一概要信息和所述第二概要信息重复时确定所述第一文本和所述第二文本重复。可选地,所述分别提取所述第一文本和所述第二文本的特征内容包括:对所述第一文本的第一文本内容和所述第二文本的第二文本内容分别进行分词和去除停用词处理,对应得到第三词语集合和第四词语集合;从所述第三词语集合和所述第四词语集合中分别提取第一特征词语集合和第二特征词语集合,所述第一特征词语集合用于区分所述第一文本与其他文本,所述第二特征词语集合用于区分所述第二文本与其他文本;所述识别所述第一文本和第二文本分别对应的特征内容是否重复包括:识别所述第一特征词语集合和所述第二特征词语集合是否重复。可选地,所述从所述第三词语集合和所述第四词语集合中分别提取第一特征词语集合和第二特征词语集合包括:计算所述第三词语集合中各个词语与其他文本的文本内容的区分度,从所有词语中提取预设数目的区分度排名靠前的词语或提取所述区分度大于区分度阈值的词语,将提取的词语组成所述第一特征词语集合;计算所述第四词语集合中各个词语与其他文本的文本内容的区分度,从所有词语中提取预设数目的区分度排名靠前的词语或提取所述区分度大于区分度阈值的词语,将提取的词语组成所述第二特征词语集合。可选地,所述识别所述第一特征词语集合和所述第二特征词语集合是否重复包括:对所述第一特征词语集合和所述第二特征词语集合分别进行字符转码和计算处理,对应得到具有相同字符数的第一特征编码信息和第二特征编码信息;计算所述第一特征编码信息和所述第二特征编码信息之间的差异度;判断计算得到的差异度是否小于针对重复特征编码信息预设的差异度阈值,若小于,则判定所述第一特征词语集合与所述第二特征词语集合重复。可选地,所述对所述第一特征词语集合和所述第二特征词语集合分别进行字符转码和计算处理,对应得到具有相同字符数的第一特征编码信息和第二特征编码信息包括:对所述第一特征词语集合和所述第二特征词语集合中的各个词语分别进行字符转码处理,每个词语对应得到一个二进制编码信息;计算各个特征词语集合中每个词语在其所在的特征词语集合中的权重值,依据所述各个特征词语集合中每个词语的权重值以及每个词语对应的二进制编码信息,按照预设算法计算所述第一特征词语集合所对应的第一特征编码信息以及所述第二特征词语集合所对应的第二特征编码信息。可选地,每个词语的二进制编码信息具有相同的字符数,所述按照预设算法包括:针对各个二进制编码信息,如果出现编码信息1,则将所述编码信息1替换为对应词语的权重值,如果出现编码信息0,则将所述编码信息0替换为对应词语的权重值的负数,得到权重值编码信息;累计所述第一特征词语集合中所有词语的权重值编码信息中处于同一字符位置的数值的总和,得到第一权重值累计编码信息;累计所述第二特征词语集合中所有词语的权重值编码信息中处于同一字符位置的数值的总和,得到第二权重值累计编码信息;按照将正数转化为1、将负数转化为0以及保持零不变的规则,处理所述第一权重值累计编码信息得到所述第一特征编码信息,处理所述第二权重值累计编码信息得到所述第二特征编码信息。可选地,所述计算所述第一特征编码信息和所述第二特征编码信息之间的差异度包括:计算所述第一特征编码信息和所述第二特征编码信息中处于同一字符位置的数值的差值绝对值,统计计算后的处于不同字符位置的多个数值中数值1存在的数目;所述判断计算得到的差异度是否小于针对重复特征编码信息预设的差异度阈值包括:判断计算后的处于不同字符位置的多个数值中数值1存在的数目是否小于针对重复特征编码信息预设的数目阈值。依据本专利技术的另一个方面,提供了一种重复文本的判定装置,所述装置包括:概要信息判断模块,用于判断第一文本和第二文本分别对应的概要信息是否重复;特征内容提取模块,用于若所述概要信息不重复,则分别提取所述第一文本和所述第二文本的特征内容;特征内容识别模块,用于识别所述第一文本和所述第二文本分别对应的特征内容是否重复;重复文本判定模块,用于若所述特征内容重复,则判定所述第一文本和所述第二文本重复。可选地,所述概要信息判断模块,具体用于判断所述第一文本的第一概要信息与所述第二文本的第二概要信息的相似度是否大于或等于预设的相似度阈值。可选地,所述概要信息判断模块包括:第一词语集合得到子模块,用于对所述第一文本的第一概要信息和所述第二文本的第二概要信息分别进行分词和去除停用词处理,对应得到第一词语集合和第二词语集合;最少编辑次数确定子模块,用于确定所述第一词语集合转化成所述第二词语集合所需的最少编辑次数;相似度计算子模块,用于依据所述最少编辑次数计算所述第一概要信息与所述第二概要信息的相似度;相似度判断子模块,用于判断计算的相似度是否大于或等于预设的相似度阈值。可选地,所述装置还包括:重复概要信息判定模块,用于若计算的相似度大于或等于预设的相似度阈值,则判定所述第一概要信息与所述第二概要本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610958094.html" title="一种重复文本的判定方法和装置原文来自X技术">重复文本的判定方法和装置</a>

【技术保护点】
一种重复文本的判定方法,其特征在于,包括:判断第一文本和第二文本分别对应的概要信息是否重复;若所述概要信息不重复,则分别提取所述第一文本和所述第二文本的特征内容;识别所述第一文本和所述第二文本分别对应的特征内容是否重复;若所述特征内容重复,则判定所述第一文本和所述第二文本重复。

【技术特征摘要】
1.一种重复文本的判定方法,其特征在于,包括:判断第一文本和第二文本分别对应的概要信息是否重复;若所述概要信息不重复,则分别提取所述第一文本和所述第二文本的特征内容;识别所述第一文本和所述第二文本分别对应的特征内容是否重复;若所述特征内容重复,则判定所述第一文本和所述第二文本重复。2.根据权利要求1所述的方法,其特征在于,所述判断第一文本和第二文本分别对应的概要信息是否重复包括:判断所述第一文本的第一概要信息与所述第二文本的第二概要信息的相似度是否大于或等于预设的相似度阈值。3.根据权利要求2所述的方法,其特征在于,所述判断所述第一文本的第一概要信息与所述第二文本的第二概要信息的相似度是否大于或等于预设的相似度阈值包括:对所述第一文本的第一概要信息和所述第二文本的第二概要信息分别进行分词和去除停用词处理,对应得到第一词语集合和第二词语集合;确定所述第一词语集合转化成所述第二词语集合所需的最少编辑次数;依据所述最少编辑次数计算所述第一概要信息与所述第二概要信息的相似度;判断计算的相似度是否大于或等于预设的相似度阈值。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:若计算的相似度大于或等于预设的相似度阈值,则判定所述第一概要信息与所述第二概要信息重复,当所述第一概要信息和所述第二概要信息重复时确定所述第一文本和所述第二文本重复。5.根据权利要求1所述的方法,其特征在于,所述分别提取所述第一文本和所述第二文本的特征内容包括:对所述第一文本的第一文本内容和所述第二文本的第二文本内容分别进行分词和去除停用词处理,对应得到第三词语集合和第四词语集合;从所述第三词语集合和所述第四词语集合中分别提取第一特征词语集合和第二特征词语集合,所述第一特征词语集合用于区分所述第一文本与其他文本,所述第二特征词语集合用于区分所述第二文本与其他文本;所述识别所述第一文本和所述第二文本分别对应的特征内容是否重复包括:识别所述第一特征词语集合和所述第二特征词语集合是否重复。6.根据权利要求5所述的方法,其特征在于,所述从所述第三词语集合和所述第四词语集合中分别提取第一特征词语集合和第二特征词语集合包括:计算所述第三词语集合中各个词语与其他文本的文本内容的区分度,从所有词语中提取预设数目的区分度排名靠前的词语或提取所述区分度大于区分度阈值的词语,将提取的词语组成所述第一特征词语集合;计算所述第四词语集合中各个词语与其他文本的文本内容的区分度,从所有词语中提取预设数目的区分度排名靠前的词语或提取所述区分度大于区分度阈值的词语,将提取的词语组成所述第二特征词语集合。7.根据权利要求5所述的方法,其特征在于,所述识别所述第一特征词语集合和所述第二特征词语集合是否重复包括:对所述第一特征词语集合和所述第二特征词语集合分别进行字符转码和计算处理,对应得到具有相同字符数的第一特征编码信息和第二特征编码信息;计算所述第一特征编码信息和所述第二特征编码信息之间的差异度;判断计算得到的差异度是否小于针对重复特征编码信息预设的差异度阈值,若小于,则判定所述第一特征词语集合与所述第二特征词语集合重复。8.根据权利要求7所述的方法,其特征在于,所述对所述第一特征词语集合和所述第二特征词语集合分别进行字符转码和计算处理,对应得到具有相同字符数的第一特征编码信息和第二特征编码信息包括:对所述第一特征词语集合和所述第二特征词语集合中的各个词语分别进行字符转码处理,每个词语对应得到一个二进制编码信息;计算各个特征词语集合中每个词语在其所在的特征词语集合中的权重值,依据所述各个特征词语集合中每个词语的权重值以及每个词语对应的二进制编码信息,按照预设算法计算所述第一特征词语集合所对应的第一特征编码信息以及所述第二特征词语集合所对应的第二特征编码信息。9.根据权利要求8所述的方法,其特征在于,每个词语的二进制编码信息具有相同的字符数,所述按照预设算法包括:针对各个二进制编码信息,如果出现编码信息1,则将所述编码信息1替换为对应词语的权重值,如果出现编码信息0,则将所述编码信息0替换为对应词语的权重值的负数,得到权重值编码信息;累计所述第一特征词语集合中所有词语的权重值编码信息中处于同一字符位置的数值的总和,得到第一权重值累计编码信息;累计所述第二特征词语集合中所有词语的权重值编码信息中处于同一字符位置的数值的总和,得到第二权重值累计编码信息;按照将正数转化为1、将负数转化为0以及保持零不变的规则,处理所述第一权重值累计编码信息得到所述第一特征编码信息,处理所述第二权重值累计编码信息得到所述第二特征编码信息。10.根据权利要求9所述的方法,其特征在于,所述计算所述第一特征编码信息和所述第二特征编码信息之间的差异度包括:计算所述第一特征编码信息和所述第二特征编码信息中处于同一字符位置的数值的差值绝对值,统计计算后的处于不同字符位置的多个数值中数值1存在的数目;所述判断计算得到的差异度是否小于针对重复特征编码信息预设的差异度阈值包括:判断计算后的处于不同字符位置的多个数值中数值1存在的数目是否小于针对重复特征编码信息预设的数目阈值。11.一种重复文本的判定装置,其特征在于,包括:概要信息判断模块,用于判断第一文本和第二文本分别对应的概要...

【专利技术属性】
技术研发人员:康潮明
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1