一种文本去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41476121 阅读:24 留言:0更新日期:2024-05-30 14:27
本发明专利技术公开了一种文本去重方法、装置、电子设备及存储介质,方法包括:对原始文本进行文本切分,得到至少一个子文本,基于预设文本属性从至少一个子文本中确定目标子文本,目标子文本的文本属性和预设文本属性的关联度满足关联条件,将目标子文本进行拼接重组,得到目标文本,若目标文本和待比较文本的相似度满足相似条件,删除原始文本,待比较文本为预设文本属性对应的文本。本申请实施例通过对原始文本进行无效信息的去除,以减少无效信息在后续目标文本去重中的影响,并经过和待比较文本的相似度的比较,可以有效地进行文本的去重,提高去除无效信息后的文本的去重率。

【技术实现步骤摘要】

本专利技术涉及计算机,特别涉及一种文本去重方法、装置、电子设备及存储介质


技术介绍

1、随着互联网技术发展,各种信息在互联网上的传播越来越方便。然而,在大量信息因互联网得到传播的同时,越来越多的重复信息也不断在互联网上出现,影响用户获取信息的效率。

2、比如,同一份文本内容经常被互联网上多个平台多个公众号通过修改部分内容后,再进行转载,导致我们获取到的有效信息存在大量重复的问题。


技术实现思路

1、为了解决现有技术的问题,本专利技术实施例提供了一种文本去重方法、装置、电子设备及存储介质。技术方案如下:

2、一方面,提供了一种文本去重方法,方法包括:

3、对原始文本进行文本切分,得到至少一个子文本;

4、基于预设文本属性从至少一个子文本中确定目标子文本;目标子文本的文本属性和预设文本属性的关联度满足关联条件;

5、将目标子文本进行拼接重组,得到目标文本;

6、若目标文本和待比较文本的相似度满足相似条件,删除原始文本;待比较文本为预设文本属本文档来自技高网...

【技术保护点】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:

3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为K,且K为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:

4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:

5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待...

【技术特征摘要】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的文本去重方法,其特征在于,所述基于预设文本属性从所述至少一个子文本中确定目标子文本,包括:

3.根据权利要求1或者2所述的文本去重方法,其特征在于,当所述目标子文本的数量为k,且k为大于等于二的整数时,所述将所述目标子文本进行拼接重组,得到目标文本,包括:

4.根据权利要求1-3任一所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本之前,还包括:

5.根据权利要求4所述的文本去重方法,其特征在于,所述若所述目标文本和待比较文本的相似度满足相似条件,删除所述原始文本,包括:

6.根据权利要求1所述的文本去重方法,其特征在于,所述对原始文本进行文本切分,得到至少一个子文本之前,还包括:

7.根据权利要求1-6任一所述的文本去重方法,其特征在于,...

【专利技术属性】
技术研发人员:叶琰李琴
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1