训练数据的生成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:45408029 阅读:17 留言:0更新日期:2025-05-30 18:03
本公开涉及数据处理技术领域,公开了训练数据的生成方法、装置、设备、存储介质及程序产品,其中,该方法包括:获取问答对数据;基于问答对数据中的问答对种子数据的属性信息,对问答对种子数据中的问题数据进行增强,得到问题增强数据,并利用问题增强数据和问答对种子数据中的答复数据合成第一目标问答对数据;基于问答对数据和/或第一目标问答对数据的错误类型,生成与之相匹配的归因答复数据,并利用归因答复数据与问答对数据中的问题数据和/或问题增强数据合成第二目标问答对数据;将第一目标问答对数据与第二目标问答对数据确定为目标训练数据。通过实施本技术方案,保证了目标训练数据的生成质量、生成效率、多样性和数据量。

【技术实现步骤摘要】

本公开涉及数据处理,具体涉及训练数据的生成方法、装置、设备、存储介质及程序产品


技术介绍

1、随着计算机技术的日益发展,利用模型自动生成查询语句成为可能,例如,利用text2sql模型按照文本描述信息生成与之相对应的查询语句。为了评估text2sql模型所生成查询语句,则需要利用评估模型对查询语句正确与否进行评估,那么针对评估模型而言,不仅需要text2sql模型数据,还需要text2sql模型评估数据。

2、目前,在构建针对text2sql的评估模型的训练数据时,主要通过人工构造不同比例的错误类型,并对负样本中的错误查询语句的说明信息进行人工标注。但是,其效率低下,耗时费力,且人工标注数据难以覆盖线上真实业务场景的覆盖情况。


技术实现思路

1、有鉴于此,本公开提供了一种训练数据的生成方法、装置、设备、存储介质及程序产品,以解决评估模型训练数据的生成效果欠佳的问题。

2、第一方面,本公开提供了一种训练数据的生成方法,包括:获取问答对数据,问答对数据包括已标注的问答对种子数据;基于问答本文档来自技高网...

【技术保护点】

1.一种训练数据的生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述问答对种子数据的属性信息,对所述问答对种子数据中的问题数据进行增强,得到问题增强数据,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述问答对种子数据的属性信息,对所述问答对种子数据中的问题数据进行增强,得到问题增强数据,包括:

4.根据权利要求3所述的方法,其特征在于,在所述按照所述属性指标生成所述问题类型所对应的所述问题增强数据之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述问答对数据和/或...

【技术特征摘要】

1.一种训练数据的生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述问答对种子数据的属性信息,对所述问答对种子数据中的问题数据进行增强,得到问题增强数据,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述问答对种子数据的属性信息,对所述问答对种子数据中的问题数据进行增强,得到问题增强数据,包括:

4.根据权利要求3所述的方法,其特征在于,在所述按照所述属性指标生成所述问题类型所对应的所述问题增强数据之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述问答对数据和/或所述第一目标问答对数据的错误类型,生成与所述错误类型相匹配的归因答复数据,包括:

6.根据权利要求5所述的方法,其特征在于,在所述解析所述错...

【专利技术属性】
技术研发人员:王桂凤祝涛孙阳尹小明
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1