System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及一种预训练方法及装置、计算机可读存储介质。
技术介绍
1、目前的大规模预训练模型多使用通用领域下的数据进行模型训练,通用领域下的数据由多个完整的语句组成。由于电商场景下的数据多是结构数据、半结构数据、文本混杂的数据,大规模预训练模型中的任务对于电商场景下的数据进行处理后,处理效果差。
技术实现思路
1、本专利技术实施例提供一种预训练方法及装置、计算机可读存储介质,能够提高电商场景下的数据的处理效果。
2、本专利技术的技术方案是这样实现的:
3、本专利技术实施例提供了一种样本的预训练方法,其特征在于,包括:
4、获取用于描述物品的多个原始业务数据;
5、对所述多个原始业务数据进行预处理,得到样本数据;
6、通过所述样本数据,对初始功能模型进行训练,得到功能模型;并通过所述功能模型对获取的实际业务数据实现功能处理;
7、其中,所述对所述多个原始业务数据进行预处理,得到样本数据,包括:
8、通过第一预训练任务,对所述多个原始业务数据进行一致性的分类预处理,得到第一样本数据和第二样本数据;
9、通过第二预训练任务,对所述多个原始业务数据进行数据修正预处理,得到第三样本数据;
10、根据所述第一样本数据、所述第二样本数据、所述第三样本数据,确定所述样本数据。
11、本专利技术实施例提供了一种样本的预训练装置,其特征在于,包括获取单元和确定单
12、所述获取单元,用于获取用于描述物品的多个原始业务数据;对所述多个原始业务数据进行预处理,得到样本数据;通过所述样本数据,对初始功能模型进行训练,得到功能模型;并通过所述功能模型对获取的实际业务数据实现功能处理;通过第一预训练任务,对所述多个原始业务数据进行一致性的分类预处理,得到第一样本数据和第二样本数据;通过第二预训练任务,对所述多个原始业务数据进行数据修正预处理,得到第三样本数据;
13、所述确定单元,用于根据所述第一样本数据、所述第二样本数据、所述第三样本数据,确定所述样本数据。
14、本专利技术实施例提供了一种样本的预训练装置,其特征在于,所述样本的预训练装置包括:
15、存储器,用于存储可执行数据指令;
16、处理器,用于执行所述存储器中存储的可执行指令,当所述可执行指令被执行时,所述处理器执行所述的样本的预训练方法。
17、本专利技术实施例提供了一种计算机可读存储介质,其特征在于,存储有可执行指令,当所述可执行指令被一个或多个处理器执行的时候,所述处理器执行所述的样本的预训练方法。
18、本专利技术实施例提供了一种样本的预训练方法及装置、计算机可读存储介质,其中,方法包括:获取用于描述物品的多个原始业务数据;对所述多个原始业务数据进行预处理,得到样本数据;通过所述样本数据,对初始功能模型进行训练,得到功能模型;并通过所述功能模型对获取的实际业务数据实现功能处理;其中,所述对所述多个原始业务数据进行预处理,得到样本数据,包括:通过第一预训练任务,对所述多个原始业务数据进行一致性的分类预处理,得到第一样本数据和第二样本数据;通过第二预训练任务,对所述多个原始业务数据进行数据修正预处理,得到第三样本数据;所述第二预训练任务用于根据物品的原始业务数据生成与物品相关的数据;根据所述第一样本数据、所述第二样本数据、所述第三样本数据,确定所述样本数据。上述方案中,服务器可以根据电商场景下采集的数据,通过第一预训练任务和第二预训练任务将电商场景下获取的多个原始业务数据进行一致性的分类预处理以及进行数据修正预处理,得到样本数据,使得样本数据相对于多个原始业务数据具有全面性和有效性,通过样本数据对初始功能模型进行训练,得到功能模型,可以提高功能模型处理数据的能力;通过功能模型对获取的实际业务数据进行功能处理,可以提高电商场景下的数据的处理效果。
本文档来自技高网...【技术保护点】
1.一种样本的预训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一预训练任务包括:物品主题与物品属性一致性的预测任务和物品主题与物品文案一致性的预测任务,每个原始业务数据包括:原始物品主题数据、原始物品属性数据、原始物品文案数据;
3.根据权利要求1或2所述的方法,其特征在于,所述第二预训练任务包括:掩码预测任务;每个原始业务数据包括:原始物品主题数据、原始物品属性数据;
4.根据权利要求1或2所述的方法,其特征在于,所述多个原始业务数据中的至少一个原始业务数据各自包括:原始物品文案数据,所述第二预训练任务包括:自回归语言模型任务;
5.根据权利要求1或2所述的方法,其特征在于,所述多个原始业务数据中的至少一个原始业务数据各自包括:原始物品主题数据和原始物品属性数据;所述第二预训练任务包括:物品文案生成任务;
6.根据权利要求1所述的方法,其特征在于,所述多个原始业务数据中的至少一个原始业务数据各自包括:原始物品文案数据;所述第二预训练任务包括:乱序文本恢复任务;
7.根据权利要
8.一种样本的预训练装置,其特征在于,包括获取单元和确定单元;其中,
9.一种样本的预训练装置,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有可执行指令,当所述可执行指令被执行时,用于引起处理器执行如权利要求1至7任一项所述的样本的预训练方法。
...【技术特征摘要】
1.一种样本的预训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一预训练任务包括:物品主题与物品属性一致性的预测任务和物品主题与物品文案一致性的预测任务,每个原始业务数据包括:原始物品主题数据、原始物品属性数据、原始物品文案数据;
3.根据权利要求1或2所述的方法,其特征在于,所述第二预训练任务包括:掩码预测任务;每个原始业务数据包括:原始物品主题数据、原始物品属性数据;
4.根据权利要求1或2所述的方法,其特征在于,所述多个原始业务数据中的至少一个原始业务数据各自包括:原始物品文案数据,所述第二预训练任务包括:自回归语言模型任务;
5.根据权利要求1或2所述的方法,其特征在于,所述多个原始业务数据中的至少一个原始业务数据各自包括...
【专利技术属性】
技术研发人员:邹炎炎,马勉,丁卓冶,龙波,
申请(专利权)人:北京沃东天骏信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。