一种文本排重方法技术

技术编号：35651939 阅读：14 留言：0更新日期：2022-11-19 16:47

本申请涉及文字处理技术领域，尤其涉及一种文本排重方法，包括如下步骤：根据预设的切分标签，将待排重文本切分成与所述切分标签对应的排重段落；通过语义匹配模型，获取各个所述排重段落的段落向量及各个对比文本相对应段落的段落向量；依据所述段落向量获取段落向量余弦相似度，并与查重阈值对比；将大于所述查重阈值的所述段落向量余弦相似度对应的所述对比文本加入结果列表；循环上述步骤直至所述段落向量余弦相似度小于或等于所述查重阈值；输出所述结果列表中的所述对比文本作为排重结果。本申请提供的文本排重方法，能够有效识别同义句、单句语义及段落语义，提高文本排重效率。重效率。重效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本排重方法

[0001]本专利技术涉及文字处理
，尤其是涉及一种文本排重方法。

技术介绍

[0002]随着网络技术及智能终端的飞速发展，在网络中传播或者存在的文本数量也日益增加，文本的涉及领域也越来越多，常见的如新闻报道、论文发表、专利公开等。而随着数量及领域的增长，文本中不可避免的出现重复，甚至某些情况下，还会出现雷同或抄袭等恶意行为。为了减少重复文本内容以解决多余数据问题，或者判断文本内容抄袭以解决版权就等问题，需要对文本进行重复性的判断，而文本排重是判断文本重复性的一个重要手段。
[0003]传统技术中，文本排重是基于文本或指纹的编辑距离来识别两篇文本的重复性。具体为在两篇文本之间，通过编辑操作，例如将其中一个字替换成另一个字，或者插入一个字，抑或直接删除这个字等操作，获取其中一个文本转变成另一个文本，所需要的最少编辑操作次数。如果编辑操作次数越大，则编辑距离越大，说明两篇文本的重复性越小。
[0004]但是通过编辑距离识别两篇文本的重复性，这种方法存在以下问题：很难有效识别出两篇文本的同义句，这些语句相同字数很少，它们可能用了同义字或句式句法不同，但却表达相同的语义，导致重复度很高的文本漏掉；同时，容易造成错判重复文本，有些文本语句，相同字数很多，但是表达不同的语义，甚至完全相反的意思，导致有些不重复的文本错判成重复文本；并且难以有效判断文本段落，由于段落内句子的承接、组合以及表达出的语义也不同，按文本段落判断重复性时误差很大。
[0005]因此，提供一种能有效识别同义句、...

【技术保护点】

【技术特征摘要】
1.一种文本排重方法，其特征在于，包括如下步骤：选择待排重文本的其中一个排重段落作为当前排重段落；从比对列表中获取一篇对比文本作为当前对比文本；通过语义匹配模型，获取所述当前排重段落与所述当前对比文本相对应段落之间的段落向量余弦相似度，并与查重阈值对比；将大于所述查重阈值对应的所述当前对比文本加入结果列表，并将所述当前对比文本从所述比对列表中移除；将另一个所述排重段落作为所述当前排重段落；循环上述步骤直至达到预设排重要求；输出所述结果列表中的所述对比文本作为排重结果；其中，所述排重段落为根据预设的切分标签，将所述待排重文本切分成与所述切分标签对应的若干个段落。2.根据权利要求1所述的文本排重方法，其特征在于，所述通过语义匹配模型，获取所述当前排重段落与所述当前对比文本相对应段落的段落向量余弦相似度，并与查重阈值对比包括：通过语义匹配模型，获取所述当前排重段落的段落向量作为第一段落向量；通过语义匹配模型，获取所述当前对比文本与所述当前排重段落相对应段落的段落向量作为第二段落向量；依据所述第一段落向量和所述第二段落向量，结合余弦相似度算法获取段落向量余弦相似度，作为第一相似度并与查重阈值对比；并且，所述将大于所述查重阈值对应的所述当前对比文本加入结果列表，并将所述当前对比文本从所述比对列表中移除包括：将大于所述查重阈值的所述第一相似度对应的所述当前对比文本加入所述结果列表，并将所述当前对比文本从所述比对列表中移除。3.根据权利要求1所述的文本排重方法，其特征在于，所述预设排重要求包括所有所述排重段落均已作为过所述当前排重段落，所述循环上述步骤直至达到预设排重要求包括：循环上述步骤直至所有所述排重段落均已作为过所述当前排重段落。4.根据权利要求1所述的文本排重方法，其特征在于，所述预设排重要求包括所述结果列表中的所述对比文本达到预设排重数量，所述循环上述步骤直至达到预设排重要求包括：循环上述步骤直至所述结果列表中的所述对比文本达到所述预设排重数量。5.根据权利要求1所述的文本排重方法，其特征在于，在所述选择待排重文本的其中一个排重段落作为当前排重段落之前还包括：选择其中一个所述对比标签作为当前比对标签；选择所述待排重文本与所述当前比对标签对应的段落作为当前比对段落；通过语义匹配模型，获取所述当前比对段落及所述对比文本相对应...

【专利技术属性】
技术研发人员：陈鹤，黄焱科，夏志杰，
申请(专利权)人：维正知识产权科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人