一种文本排重方法技术

技术编号:35651939 阅读:14 留言:0更新日期:2022-11-19 16:47
本申请涉及文字处理技术领域,尤其涉及一种文本排重方法,包括如下步骤:根据预设的切分标签,将待排重文本切分成与所述切分标签对应的排重段落;通过语义匹配模型,获取各个所述排重段落的段落向量及各个对比文本相对应段落的段落向量;依据所述段落向量获取段落向量余弦相似度,并与查重阈值对比;将大于所述查重阈值的所述段落向量余弦相似度对应的所述对比文本加入结果列表;循环上述步骤直至所述段落向量余弦相似度小于或等于所述查重阈值;输出所述结果列表中的所述对比文本作为排重结果。本申请提供的文本排重方法,能够有效识别同义句、单句语义及段落语义,提高文本排重效率。重效率。重效率。

【技术实现步骤摘要】
一种文本排重方法


[0001]本专利技术涉及文字处理
,尤其是涉及一种文本排重方法。

技术介绍

[0002]随着网络技术及智能终端的飞速发展,在网络中传播或者存在的文本数量也日益增加,文本的涉及领域也越来越多,常见的如新闻报道、论文发表、专利公开等。而随着数量及领域的增长,文本中不可避免的出现重复,甚至某些情况下,还会出现雷同或抄袭等恶意行为。为了减少重复文本内容以解决多余数据问题,或者判断文本内容抄袭以解决版权就等问题,需要对文本进行重复性的判断,而文本排重是判断文本重复性的一个重要手段。
[0003]传统技术中,文本排重是基于文本或指纹的编辑距离来识别两篇文本的重复性。具体为在两篇文本之间,通过编辑操作,例如将其中一个字替换成另一个字,或者插入一个字,抑或直接删除这个字等操作,获取其中一个文本转变成另一个文本,所需要的最少编辑操作次数。如果编辑操作次数越大,则编辑距离越大,说明两篇文本的重复性越小。
[0004]但是通过编辑距离识别两篇文本的重复性,这种方法存在以下问题:很难有效识别出两篇文本的同义句,这些语句相同字数很少,它们可能用了同义字或句式句法不同,但却表达相同的语义,导致重复度很高的文本漏掉;同时,容易造成错判重复文本,有些文本语句,相同字数很多,但是表达不同的语义,甚至完全相反的意思,导致有些不重复的文本错判成重复文本;并且难以有效判断文本段落,由于段落内句子的承接、组合以及表达出的语义也不同,按文本段落判断重复性时误差很大。
[0005]因此,提供一种能有效识别同义句、单句语义及段落语义的文本排重方法,成为本领域技术人员亟待解决的问题。

技术实现思路

[0006]为了能有效识别同义句、单句语义及段落语义,提高文本排重效率,本专利技术提供了一种文本排重方法。
[0007]本专利技术提供的一种文本排重方法,包括如下步骤:选择待排重文本的其中一个排重段落作为当前排重段落;从比对列表中获取一篇对比文本作为当前对比文本;通过语义匹配模型,获取所述当前排重段落与所述当前对比文本相对应段落之间的段落向量余弦相似度,并与查重阈值对比;将大于所述查重阈值对应的所述当前对比文本加入结果列表;将另一个所述排重段落作为所述当前排重段落;循环上述步骤直至达到预设排重要求;输出所述结果列表中的所述对比文本作为排重结果;其中,所述排重段落为根据预设的切分标签,将所述待排重文本切分成与所述切分标签对应的若干个段落。
[0008]通过上述技术方案,将待排重文本按切分标签分成若干个排重段落,借助语义匹配模型,获取这些排重段落以及各个对比文本相应段落两者之间的段落向量余弦相似度,将大于查重阈值的对比文本作为排重结果的组成部分,直至达到预设排重要求,形成最终的排重结果。由于采用了语义匹配模型并获取了段落向量余弦相似度,一定程度上避免了根据相同字数判断重复性造成同义句难以有效识别的发生几率,同时因为按照段落进行划分判断,有效防止了只按句子判断段落语义重复性的误判概率。
[0009]优选的,所述通过语义匹配模型,获取所述当前排重段落与所述当前对比文本相对应段落的段落向量余弦相似度,并与查重阈值对比包括:通过语义匹配模型,获取所述当前排重段落的段落向量作为第一段落向量;通过语义匹配模型,获取所述当前对比文本与所述当前排重段落相对应段落的段落向量作为第二段落向量;依据所述第一段落向量和所述第二段落向量,结合余弦相似度算法获取段落向量余弦相似度,作为第一相似度并与查重阈值对比;并且,所述将大于所述查重阈值对应的所述当前对比文本加入结果列表,并将所述当前对比文本从所述比对列表中移除包括:将大于所述查重阈值的所述第一相似度对应的所述当前对比文本加入所述结果列表,并将所述当前对比文本从所述比对列表中移除。
[0010]通过上述技术方案,采用语义匹配模型获取排重段落和对比文件相应段落的语义向量并分别作为第一段落向量和第二段落向量,再结合余弦相似度算法获取两者之间的段落向量余弦相似度,得以与查重阈值对比。由于是通过段落的语义向量作为段落向量余弦相似度的获取来源,从而进一步的减少了根据段落判断语义重复性的误判概率。
[0011]优选的,所述预设排重要求包括所有所述排重段落均已作为过所述当前排重段落,所述循环上述步骤直至达到预设排重要求包括:循环上述步骤直至所有所述排重段落均已作为过所述当前排重段落。
[0012]通过上述技术方案,设定获取段落向量余弦相似度并与查重阈值对比的循环终止条件为所有排重段落均已作为过当前排重段落,使得待排重文本中的所有段落内容均已进行过查重比对,从而能够得到范围精准且排重精度高的排重结果。
[0013]优选的,所述预设排重要求包括所述结果列表中的所述对比文本达到预设排重数量,所述循环上述步骤直至达到预设排重要求包括:循环上述步骤直至所述结果列表中的所述对比文本达到所述预设排重数量。
[0014]通过上述技术方案,设定获取段落向量余弦相似度并与查重阈值对比的循环终止条件为结果列表中的对比文本数量达到预设排重数量,使得在达到预设排重数量后,不再进行剩余的排重段落或者对比文本的排重对比,从而能够在具备所需要的排重精度的前提下,形成包括一定排重数量的对比文本的排重结果。
[0015]优选的,在所述选择待排重文本的其中一个排重段落作为当前排重段落之前还包括:选择其中一个所述对比标签作为当前比对标签;选择所述待排重文本与所述当前比对标签对应的段落作为当前比对段落;通过语义匹配模型,获取所述当前比对段落及所述对比文本相对应段落之间的段
落向量余弦相似度,并与初筛阈值对比;将大于所述初筛阈值对应的所述对比文本加入所述比对列表;依序将另一个所述对比标签作为所述当前比对标签;循环上述步骤直至达到预设中断条件;其中,所述对比标签包括若干个依序排列的所述切分标签。
[0016]通过上述技术方案,将若干个切分标签依次作为对比标签,分别获取待排重文本和对比文本与当前对比标签对应的段落之间的段落向量余弦相似度,并将大于初筛阈值的对比文本加入比对列表,直至达到预设中断条件。实现根据各个切分标签的类型或特性,将对应的段落向量余弦相似度大于初筛阈值的对比文本加入至比对列表,从而使得在形成最终的排重结果之前,能够根据所需要的切分标签形成初筛结果。
[0017]优选的,所述通过语义匹配模型,获取所述当前比对段落及所述对比文本相对应段落之间的段落向量余弦相似度,并与初筛阈值对比包括:通过语义匹配模型,获取所述当前比对段落的段落向量作为第三段落向量;通过语义匹配模型,获取所述对比文本与所述当前比对段落相对应段落的段落向量作为第四段落向量;依据所述第三段落向量和所述第四段落向量,结合余弦相似度算法获取段落向量余弦相似度,作为第二相似度并与初筛阈值对比;并且,所述将大于所述初筛阈值对应的所述对比文本加入所述比对列表包括:将大于所述初筛阈值的所述第二相似度相对应的所述对比文本加入所述比对列表。
[0018]通过上述技术方案,采用语义匹配模型获取比对段落和对比文件相应段落的语义向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本排重方法,其特征在于,包括如下步骤:选择待排重文本的其中一个排重段落作为当前排重段落;从比对列表中获取一篇对比文本作为当前对比文本;通过语义匹配模型,获取所述当前排重段落与所述当前对比文本相对应段落之间的段落向量余弦相似度,并与查重阈值对比;将大于所述查重阈值对应的所述当前对比文本加入结果列表,并将所述当前对比文本从所述比对列表中移除;将另一个所述排重段落作为所述当前排重段落;循环上述步骤直至达到预设排重要求;输出所述结果列表中的所述对比文本作为排重结果;其中,所述排重段落为根据预设的切分标签,将所述待排重文本切分成与所述切分标签对应的若干个段落。2.根据权利要求1所述的文本排重方法,其特征在于,所述通过语义匹配模型,获取所述当前排重段落与所述当前对比文本相对应段落的段落向量余弦相似度,并与查重阈值对比包括:通过语义匹配模型,获取所述当前排重段落的段落向量作为第一段落向量;通过语义匹配模型,获取所述当前对比文本与所述当前排重段落相对应段落的段落向量作为第二段落向量;依据所述第一段落向量和所述第二段落向量,结合余弦相似度算法获取段落向量余弦相似度,作为第一相似度并与查重阈值对比;并且,所述将大于所述查重阈值对应的所述当前对比文本加入结果列表,并将所述当前对比文本从所述比对列表中移除包括:将大于所述查重阈值的所述第一相似度对应的所述当前对比文本加入所述结果列表,并将所述当前对比文本从所述比对列表中移除。3.根据权利要求1所述的文本排重方法,其特征在于,所述预设排重要求包括所有所述排重段落均已作为过所述当前排重段落,所述循环上述步骤直至达到预设排重要求包括:循环上述步骤直至所有所述排重段落均已作为过所述当前排重段落。4.根据权利要求1所述的文本排重方法,其特征在于,所述预设排重要求包括所述结果列表中的所述对比文本达到预设排重数量,所述循环上述步骤直至达到预设排重要求包括:循环上述步骤直至所述结果列表中的所述对比文本达到所述预设排重数量。5.根据权利要求1所述的文本排重方法,其特征在于,在所述选择待排重文本的其中一个排重段落作为当前排重段落之前还包括:选择其中一个所述对比标签作为当前比对标签;选择所述待排重文本与所述当前比对标签对应的段落作为当前比对段落;通过语义匹配模型,获取所述当前比对段落及所述对比文本相对应...

【专利技术属性】
技术研发人员:陈鹤黄焱科夏志杰
申请(专利权)人:维正知识产权科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1