文本去重方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:41516166 阅读:19 留言:0更新日期:2024-05-30 14:53
本公开提供了一种文本去重方法,涉及人工智能技术领域,可以应用于金融技术领域。所述方法包括:响应于数据去重服务请求,获取待处理文本;计算所述待处理文本的模糊哈希值;根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据,所述数据库存储有历史文本的描述信息、摘要信息和模糊哈希值;若确定存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为重复;以及对状态标记为重复的文本进行去重操作。本公开还提供了一种文本去重装置、设备、存储介质和程序产品。

【技术实现步骤摘要】

本公开涉及人工智能,更具体地涉及一种文本去重方法、装置、设备、存储介质和程序产品


技术介绍

1、在大模型
,训练大模型需要大量的数据,高质量的数据可以使大模型训练效果更好。目前获取语料,一般通过从公开数据集下载、网页数据爬取、内部资料收集等。但所有数据汇聚在一起,一定会产生数据重复的问题,重复的数据对大模型训练会产生一定的影响,因此在数据准备时,需要去除重复的数据。相关技术中,一般采用文本内容比对等方式去除,暂无一些比较好的文本去重方法。采用文本内容直接比对,效率慢,且无法做持久化,无法用于对大量的文本去重。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、鉴于上述问题,本公开提供了一种高效的文本去重方法、装置、设备、存储介质和程序产品。

2、根据本公开的第一个方面,提供了一种文本去重方法,所述方法包括:

3、响应于数据去重服务请求,获取待处理文本;

本文档来自技高网...

【技术保护点】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算所述待处理文本的模糊哈希值包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行分块操作包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:

6.根据权利要求1至5中任一项的方法,其特征在于,所述方法还包括:

7.根...

【技术特征摘要】

1.一种文本去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述计算所述待处理文本的模糊哈希值包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行分块操作包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:

6.根据...

【专利技术属性】
技术研发人员:孔德耀李天浩丁鑫煜杨冰彦
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1