数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：40141426 阅读：4 留言：0更新日期：2024-01-23 23:40

本申请提供了一种数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：基于动作选取策略，从样本文本数据的动作集中，确定目标动作；确定样本文本数据的第一奖励值；响应于第一奖励值和第二奖励值的差值小于差值阈值，将第一状态确定为样本文本数据的目标状态。上述技术方案通过基于动作选取策略来确定目标动作，并结合当前状态来不断更新当前奖励值，从而当奖励值达到目标条件时，将此时状态确定为样本文本数据的目标状态。相对于传统的使用人工对样本文本数据进行调整的方法，此方法的成本更低，效率更高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

1、在语言模型的预训练过程中，样本数据的数据配比是一个重要影响因素，样本数据的数据配比用于指示不同类型的数据占总数据的比例，可以反映数据种类的多样性、各类数据的代表性以及不同类型数据间的平衡性等。通常情况下，样本数据的数据配比越合理，语言模型学习到的通用特征表示就越丰富。因此，如何调整样本数据的数据配比，以使大语言模型学习到的通用特征表示更丰富，是一个需要解决的问题。

2、目前，通常先获取初始数据，并对初始数据进行数据清洗，对得到的数据进行分词并标注后，获得大量用于预训练语言模型的样本数据。在这个过程中，可以通过调整数据来源或数据质量，来实现对样本数据的数据配比的调整。

3、但是，这种方法需要根据实际需求进行人工调整，不仅过程较复杂，而且成本较高，效率较低。

技术实现思路

1、本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，能够通过基于动作选取策略来确定目标动作，并结合当前状态来不断更新当前奖励值，从而当奖励值达到目标条件时，将此时状态确定为样本文本数据的目标状态。相对于传统的使用人工对样本文本数据进行调整的方法，此方法的成本更低，效率更高。所述技术方案如下：

2、一方面，提供了一种数据处理方法，所述方法包括：

3、基于动作选取策略，从样本文本数据的动作集中，确定目标动作，所述动作选取策略用于基于概率参数选取动作，所述动作集包括至少一个

4、确定所述样本文本数据的第一奖励值，所述第一奖励值用于指示通过处于第一状态的所述样本文本数据对目标语言模型进行预训练后的预期模型性能，所述第一状态用于指示所述样本文本数据在第二状态下执行所述目标动作后各个类型的数据所占的比例，所述目标语言模型用于处理文本数据的相关任务；

5、响应于所述第一奖励值和第二奖励值的差值小于差值阈值，将所述第一状态确定为所述样本文本数据的目标状态，所述第二奖励值用于指示通过处于所述第二状态的所述样本文本数据对所述目标语言模型进行预训练后的预期模型性能。

6、另一方面，提供了一种数据处理装置，所述装置包括：

7、第一确定模块，用于基于动作选取策略，从样本文本数据的动作集中，确定目标动作，所述动作选取策略用于基于概率参数选取动作，所述动作集包括至少一个调整动作，所述调整动作用于调整所述样本文本数据中各个类型的数据所占的比例；

8、第二确定模块，用于确定所述样本文本数据的第一奖励值，所述第一奖励值用于指示通过处于第一状态的所述样本文本数据对目标语言模型进行预训练后的预期模型性能，所述第一状态用于指示所述样本文本数据在第二状态下执行所述目标动作后各个类型的数据所占的比例，所述目标语言模型用于处理文本数据的相关任务；

9、第三确定模块，用于响应于所述第一奖励值和第二奖励值的差值小于差值阈值，将所述第一状态确定为所述样本文本数据的目标状态，所述第二奖励值用于指示通过处于所述第二状态的所述样本文本数据对所述目标语言模型进行预训练后的预期模型性能。

10、在一些实施例中，所述第一确定模块，用于基于动作选取策略，在所述概率参数满足第一条件的情况下，将从样本文本数据的动作集中随机选取的调整动作，确定为所述目标动作；在所述概率参数满足第二条件的情况下，从所述样本文本数据的动作集中，将预期奖励值对应的调整动作，确定为所述目标动作，所述预期奖励值用于指示通过处于当前状态的所述样本文本数据对所述目标语言模型进行预训练后的预期模型性能大于历史性能。

11、在一些实施例中，所述第二确定模块，包括：

12、第一确定单元，用于响应于对所述样本文本数据执行所述目标动作后，确定所述第一状态和即时奖励值，所述即时奖励值用于指示通过处于所述第一状态和所述第二状态的所述样本文本数据对所述目标语言模型进行预训练后的模型性能的变化；

13、第二确定单元，用于确定目标奖励值，所述目标奖励值用于指示通过处于所述第一状态的所述样本文本数据对所述目标语言模型进行预训练后的最大预期模型性能；

14、第三确定单元，用于基于所述第二奖励值、所述即时奖励值以及所述目标奖励值，确定所述样本文本数据的所述第一奖励值。

15、在一些实施例中，所述第二确定单元，用于将所述第一状态输入目标网络，将所述目标网络输出的奖励值，确定为所述目标奖励值，所述目标网络用于基于输入的状态输出对应的奖励值。

16、在一些实施例中，所述第二确定单元，用于在奖励值表格中，确定所述第一状态对应的至少一个奖励值，所述奖励值表格用于记录状态、调整动作以及奖励值之间的关联关系；将所述至少一个奖励值中的最大值，确定所述目标奖励值。

17、在一些实施例中，所述第三确定模块，用于响应于所述第一奖励值不小于奖励值阈值，将所述第一状态确定为所述样本文本数据的目标状态。

18、在一些实施例中，所述第三确定模块，还用于响应于执行所述目标动作后，对所述样本文本数据执行调整动作的次数等于次数阈值，将所述第一状态确定为所述样本文本数据的目标状态。

19、另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的数据处理方法。

20、另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现本申请实施例中的数据处理方法。

21、另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现本申请实施例中的数据处理方法。

22、本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，通过基于动作选取策略来确定目标动作，并结合当前状态来不断更新当前奖励值，从而当奖励值达到目标条件时，将此时状态确定为样本文本数据的目标状态。相对于传统的使用人工对样本文本数据进行调整的方法，此方法的成本更低，效率更高。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于动作选取策略，从样本文本数据的动作集中，确定目标动作，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述样本文本数据的第一奖励值，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定目标奖励值，包括：

5.根据权利要求3所述的方法，其特征在于，所述确定目标奖励值，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至8任一项权利要求所述的数据处理方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项权利要求所述的数据处理方法。

...

【技术特征摘要】