训练数据质量的评估、评估模型的生成方法、装置及设备制造方法及图纸

技术编号:40316794 阅读:26 留言:0更新日期:2024-02-07 20:59
本申请公开了一种训练数据质量的评估、评估模型的生成方法、装置及设备,涉及人工智能技术领域。其中,该评估方法包括:获取待评估的训练数据;对训练数据进行特征提取,得到训练数据特征;将训练数据特征输入至数据质量评估模型中,得到训练数据用于训练第一大语言模型时的质量评估分数;其中,数据质量评估模型根据样本训练数据的样本训练数据特征和样本质量评估分数训练得到,样本质量评估分数根据评估问题通过第二大语言模型生成的待评估答案确定,第二大语言模型根据样本训练数据训练得到。本申请利用预先训练的数据质量评估模型,自动得到训练数据的质量评估分数,可以实现客观、准确的判断训练数据的质量是否足以训练出理想的LLM。

【技术实现步骤摘要】

本申请属于人工智能,尤其涉及一种训练数据质量的评估、评估模型的生成方法、装置及设备


技术介绍

1、近年来,随着计算机技术和算法的快速发展,大语言模型(large languagemodel,简称llm)技术取得了长足发展,在数据分析、内容创作等领域都取得了很好的效果,大大降低了使用成本,提高了工作效率。但开源领域的llm仍有提升的空间。

2、为使llm获得诸如对话和遵循指令等能力,必须对llm进行调整或进一步训练,以适应用户的需求。这需要大量优质、题材广泛、信息完整的训练数据,但是,主观评估很难准确判断训练数据的质量是否足以训练出理想的llm。


技术实现思路

1、本申请实施例的目的是提供一种训练数据质量的评估方法、数据质量评估模型的生成方法、装置、电子设备及存储介质,以解决相关技术中主观评估很难准确判断训练数据的质量是否足以训练出理想的llm的问题。

2、为实现上述目的,本申请实施例采用下述技术方案:

3、第一方面,本申请实施例提供一种训练数据质量的评估方法,包括:获取待本文档来自技高网...

【技术保护点】

1.一种训练数据质量的评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述训练数据进行特征提取,得到训练数据特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述样本质量评估分数根据所述待评估答案和所述评估问题通过参考模型生成的参考答案确定。

4.根据权利要求1所述的方法,其特征在于,所述数据质量评估模型为回归模型。

5.一种数据质量评估模型的生成方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述待评估答案进行评估,得到所述样本训练数据的样本质量评估分数,包括:...

【技术特征摘要】

1.一种训练数据质量的评估方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述训练数据进行特征提取,得到训练数据特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述样本质量评估分数根据所述待评估答案和所述评估问题通过参考模型生成的参考答案确定。

4.根据权利要求1所述的方法,其特征在于,所述数据质量评估模型为回归模型。

5.一种数据质量评估模型的生成方法,其特征在于,包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述待评估答案进行评估,得到所述样本训练数据的样本质量评估分数,包...

【专利技术属性】
技术研发人员:韩泽李涛
申请(专利权)人:郑州阿帕斯数云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1