【技术实现步骤摘要】
本公开涉及人工智能,更具体地涉及一种文本去重方法、装置、设备、存储介质和程序产品。
技术介绍
1、在大模型
,训练大模型需要大量的数据,高质量的数据可以使大模型训练效果更好。目前获取语料,一般通过从公开数据集下载、网页数据爬取、内部资料收集等。但所有数据汇聚在一起,一定会产生数据重复的问题,重复的数据对大模型训练会产生一定的影响,因此在数据准备时,需要去除重复的数据。相关技术中,一般采用文本内容比对等方式去除,暂无一些比较好的文本去重方法。采用文本内容直接比对,效率慢,且无法做持久化,无法用于对大量的文本去重。
2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、鉴于上述问题,本公开提供了一种高效的文本去重方法、装置、设备、存储介质和程序产品。
2、根据本公开的第一个方面,提供了一种文本去重方法,所述方法包括:
3、响应于数据去重服务请求,获取
本文档来自技高网...【技术保护点】
1.一种文本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述计算所述待处理文本的模糊哈希值包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行分块操作包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:
6.根据权利要求1至5中任一项的方法,其特征在于,所述方法还包括:
7.根...
【技术特征摘要】
1.一种文本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述计算所述待处理文本的模糊哈希值包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行分块操作包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:
6.根据...
【专利技术属性】
技术研发人员:孔德耀,李天浩,丁鑫煜,杨冰彦,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。