训练数据的确定方法、服务器及计算机可读存储介质技术

技术编号：40776685 阅读：3 留言：0更新日期：2024-03-25 20:22

本申请公开一种训练数据的确定方法，所述方法包括：获取原始训练数据，基于目标模型，生成原始训练数据中第一语音请求样本的预测结果，根据预测结果和处理结果存在差异的第一语音请求样本，对原始训练数据进行降噪处理，根据降噪处理的结果，确定目标训练数据。如此，本申请的服务器可利用由原始训练数据和基于降噪处理得到的基础训练数据训练完成的目标模型，对原始训练数据中第一语音请求样本进行预测以得到预测结果，基于目标模型的预测结果和预先标定的处理结果存在差异的第一语音请求样本，执行原始训练数据的降噪，使得原始训练数据的降噪得以合理进行，目标训练数据的可靠性得以保障，通过目标训练数据训练的模型的性能得以保障。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别涉及一种训练数据的确定方法、服务器及计算机可读存储介质。

技术介绍

1、通常地，为保障自然语言处理模型能可靠地完成语言处理任务，可通过包含有大量样本的训练数据训练自然语言处理模型。然而，训练数据中可能存在噪声数据，而噪声数据将影响模型的训练效果，进而，去除训练数据中的噪声数据为模型训练中丞待解决的问题之一。

技术实现思路

1、本申请提供了一种训练数据的确定方法、服务器及计算机可读存储介质。

2、本申请实施方式提供一种训练数据的确定方法，包括：

3、获取原始训练数据，其中，所述原始训练数据包括多个第一语音请求样本及对每个所述第一语音请求样本进行自然语言处理的处理结果；

4、基于目标模型生成所述第一语音请求样本的预测结果，其中，所述目标模型预先通过所述原始训练数据和基于降噪处理得到的基础训练数据训练完成；

5、根据所述预测结果和所述处理结果存在差异的第一语音请求样本，对所述原始训练数据进行降噪处理；

6、根据所述降噪处理的结果，确定目标训练数据。

7、本申请实施方式提供的训练数据的确定方法中，服务器可获取包括多个第一语音请求样本，及包括对每个第一语音请求样本进行自然语言处理的处理结果的原始训练数据，基于目标模型，生成原始训练数据中第一语音请求样本的预测结果，根据预测结果和处理结果存在差异的第一语音请求样本，对原始训练数据进行降噪处理，根据降噪处理的结果，确定目标训练数据。

8、如

9、在本申请某些实施方式中，所述目标模型的训练步骤包括：

10、利用所述原始训练数据训练预设的自然语言处理模型，得到基础模型；

11、利用所述基础训练数据训练所述基础模型，得到所述目标模型。

12、如此，本申请实施方式可通过原始训练数据和基础训练数据，对预设的自然语言处理模型进行两阶段训练以得到目标模型，从而在一定程度上使得目标模型的预测精度得以保障。

13、在本申请某些实施方式中，所述目标模型的训练步骤包括：

14、对所述原始训练数据进行样本抽取处理，得到待降噪训练数据；

15、根据大语言模型，生成所述待降噪训练数据中第一语音请求样本的第一处理结果验证信息，其中，所述大语言模型预先训练完成，且能够对语音请求样本的处理结果进行验证，所述语音请求样本的处理结果通过对所述语音请求样本进行自然语言处理得到；

16、根据所述待降噪训练数据中处理结果验证未通过的第一语音请求样本，对所述待降噪训练数据进行降噪处理，得到所述基础训练数据。

17、如此，本申请实施方式的服务器可通过大语言模型确定待降噪训练数据中第一语音请求样本的第一处理结果验证信息，及通过待降噪训练数据中处理结果验证未通过的第一语音请求样本，完成待降噪训练数据的降噪处理，使得待降噪训练数据可通过大语言模型完成，从而能避免完全通过人工来进行待降噪训练数据的降噪处理的情况出现。

18、在本申请某些实施方式中，所述对所述原始训练数据进行样本抽取处理，得到待降噪训练数据，包括：

19、基于预先确定的功能点与所述第一语音请求样本的对应关系，抽取所述原始训练数据中每种所述功能点对应的第一语音请求样本，得到所述待降噪训练数据。

20、如此，本申请实施方式的服务器可抽取原始训练数据中每种功能点的第一语音请求样本，从而得到待降噪训练数据，进而，通过待降噪训练数据训练的目标模型对不同功能点的第一语音请求样本进行预测时，均能输出可靠的预测结果。

21、在本申请某些实施方式中，所述基于目标模型生成所述第一语音请求样本的预测结果，包括：

22、基于所述目标模型，生成所述原始训练数据中所述待降噪训练数据之外的第一语音请求样本的所述预测结果。

23、如此，本申请实施方式可在原始训练数据中的待降噪训练数据已完成降噪处理的情况下，基于目标模型，得到原始训练数据中待降噪训练数据之外的其他第一语音请求的预测结果，从而完成原始训练数据中待降噪训练数据之外的数据的降噪处理，在一定程度上使得原始训练数据的降噪处理的执行效率得以提升。

24、在本申请某些实施方式中，所述根据所述预测结果和所述处理结果存在差异的第一语音请求样本，对所述原始训练数据进行降噪处理，包括：

25、将所述预测结果与所述处理结果存在差异的第一语音请求样本确定为第二语音请求样本；

26、基于大语言模型，生成所述第二语音请求样本的第二处理结果验证信息，其中，所述大语言模型预先训练完成，且能够对语音请求样本的处理结果进行验证，所述语音请求样本的处理结果通过对所述语音请求样本进行自然语言处理得到；

27、根据处理结果验证未通过的第二语音请求样本，对所述原始训练数据进行降噪处理。

28、如此，本申请实施方式的服务器可通过大语言模型，确定预测结果与处理结果存在差异的第二语音请求样本的第二处理结果验证信息，及通过处理结果验证未通过的第二语音请求样本，完成原始训练的降噪处理，使得原始训练数据的降噪可基于目标模型和大语言模型共同完成，在一定程度上保障了原始训练数据的可靠降噪。

29、在本申请某些实施方式中，所述根据处理结果验证未通过的第二语音请求样本，对所述原始训练数据进行降噪处理，包括：

30、在所述第二语音请求样本的处理结果验证未通过的情况下，根据获取到的所述第二语音请求样本的处理结果标注信息，更新所述第二语音请求样本的处理结果。

31、如此，本申请实施方式的服务器可根据获取到的第二语音请求样本的处理结果标注信息，更新第二语音请求样本的处理结果，从而进行原始训练数据的降噪，在一定程度上使得原始训练数据的降噪处理得以可靠进行。

32、在本申请某些实施方式中，所述方法还包括：

33、根据所述降噪处理的结果，更新所述大语言模型。

34、如此，本申请实施方式的服务器可利用原始训练数据对应的降噪处理的结果，更新大语言模型以提升大语言模型的性能。

35、本申请实施方式提供一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述训练数据的确定方法。

36、本申请实施方式提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现上述训练数据的确定方法。

37、本申请实本文档来自技高网...

【技术保护点】

1.一种训练数据的确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标模型的训练步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述目标模型的训练步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述原始训练数据进行样本抽取处理，得到待降噪训练数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于目标模型生成所述第一语音请求样本的预测结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测结果和所述处理结果存在差异的第一语音请求样本，对所述原始训练数据进行降噪处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据处理结果验证未通过的第二语音请求样本，对所述原始训练数据进行降噪处理，包括：

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种训练数据的确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标模型的训练步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述目标模型的训练步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述原始训练数据进行样本抽取处理，得到待降噪训练数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于目标模型生成所述第一语音请求样本的预测结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测结果和所述处理结果存在差异的第一语音请求样本，对所述原始...

【专利技术属性】
技术研发人员：徐谦，孙仿逊，曹川，
申请(专利权)人：广州小鹏汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人