语音助手模型的训练数据合成方法、语音助手系统及计算机设备技术方案

技术编号:46617688 阅读:1 留言:0更新日期:2025-10-14 21:13
本公开的语音助手模型的训练数据合成方法、语音助手系统及计算机设备,包括收集当前语音助手模型的线上实际用户数据,实际用户数据包括当前语音助手模型接收的语音文本数据。基于预设提示信息,采用大模型对实际用户数据进行数据筛选,获取筛选数据,预设提示信息包括数据完整度、数据清晰度和数据连贯度。采用大模型根据筛选数据合成目标迭代数据。采用大模型对目标迭代数据添加用途标注;对完成用途标注的目标迭代数据进行审核,并对审核不合格的目标迭代数据修改用途标注;采用审核后的目标迭代数据训练语音助手模型;将完成训练后的语音助手模型替换当前语音助手模型,并更新收集的实际用户数据。

【技术实现步骤摘要】

本专利技术涉及语音助手模型的训练数据自动生成,具体地,涉及语音助手模型的训练数据合成方法、语音助手系统及计算机设备


技术介绍

1、目前随着人工智能技术的快速发展,大模型在自然语言处理、计算机视觉等领域展现出巨大潜力。然而,大模型的训练依赖于海量高质量数据,而现实中获取和标注数据的成本高昂,且效率低下。传统数据合成方法往往依赖于规则或简单模型,生成的数据质量参差不齐,难以满足大模型的训练需求。此外,数据标注过程繁琐且容易出错,进一步制约了大模型的迭代速度和效果。另外现有技术中存在诸多技术问题,包括数据获取成本高:大模型训练需要海量高质量数据,但真实数据的采集和标注成本高昂,且效率低下;数据质量难以保证:传统数据合成方法依赖规则或简单模型,生成的数据多样性不足,难以满足大模型的训练需求;人工标注效率低:数据标注过程繁琐且容易出错,严重制约模型迭代速度;自动化程度不足:现有技术缺乏从数据筛选、合成到校验的完整自动化流程,难以实现高效、低成本的模型训练与上线。

2、在公知领域中,现有相关的技术主要包括以下几种:数据增强技术,通过gpt4,生成对抗网络本文档来自技高网...

【技术保护点】

1.语音助手模型的训练数据合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,采用大模型根据筛选数据合成目标迭代数据的步骤包括:

3.根据权利要求2所述的方法,其特征在于,预设奖励模型的训练步骤包括:

4.语音助手系统,其特征在于,包括:

5.根据权利要求4所述的系统,其特征在于,数据筛选单元采用大模型根据筛选数据合成目标迭代数据的步骤包括:

6.根据权利要求5所述的系统,其特征在于,预设奖励模型的训练步骤包括:

7.计算机设备,其特征在于,包括存储器和处理器,存储器包括计算机程序,计算机程序由处...

【技术特征摘要】

1.语音助手模型的训练数据合成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,采用大模型根据筛选数据合成目标迭代数据的步骤包括:

3.根据权利要求2所述的方法,其特征在于,预设奖励模型的训练步骤包括:

4.语音助手系统,其特征在于,包括:

5.根据权利要求4所述的系...

【专利技术属性】
技术研发人员:丁敏陈晓军黎小平黄钰淇
申请(专利权)人:一汽—大众汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1