当前位置: 首页 > 专利查询>之江实验室专利>正文

测试数据集生成方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:46316424 阅读:7 留言:0更新日期:2025-09-05 18:50
本申请提供一种测试数据集生成方法、装置、存储介质和计算机设备,该方法包括:根据不同科学领域下的科学研究文档,确定第一数据集;所述第一数据集中包括多条第一图表数据;确定每条第一图表数据在多个图表分析维度下的复杂性得分,并基于所述复杂性得分,确定所述第一数据集在所述多个图表分析维度下的复杂性分布;根据所述复杂性分布,对至少部分所述第一图表数据在各个图表分析维度下的复杂性得分进行条件采样,得到与所述复杂性分布相匹配的第二数据集;利用所述第二数据集中每条第二图表数据,生成对图表问答模型进行能力测试的测试数据集。

【技术实现步骤摘要】

本申请涉及人工智能,具体而言,涉及一种测试数据集生成方法、装置、存储介质和计算机设备


技术介绍

1、图表问答(chart question answering,cqa)作为视觉问答的重要技术分支,在针对图表数据的问答推理过程中发挥着重要作用。而科学领域(如天文、地理、生物医学、计算机科学等领域)下的科学图表(scientific charts),作为科研过程中的重要信息载体,使用图表问答推理模型对科学领域下的图表进行问答推理,可以有效辅助科研人员进行数据分析。

2、通常情况下,训练得到的图表问答推理模型对科学图表的推理能力,需要使用测试数据集进行验证才能更好地应用。但是当前针对图表问答推理模型构建的测试数据集,由于与真实科学图表匹配性差且难度分布不均衡,所以导致模型能力验证效果不好。如此,如何构建与科学图表匹配且难度分布均衡的测试数据集,成为了一个值得关注的技术问题。


技术实现思路

1、有鉴于此,本申请提供一种测试数据集生成方法、装置、存储介质和计算机设备,以提高生成的测试数据集与真实科学图表的本文档来自技高网...

【技术保护点】

1.一种测试数据集生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述第二数据集中每条第二图表数据,生成对图表问答模型进行能力测试的测试数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述问题类型至少包括视觉理解类型、数据检索类型、推理分析类型和图表总结类型;所述提示信息至少包括模型角色信息、模型任务信息和生成条件信息。

4.根据权利要求1所述的方法,其特征在于,所述根据所述复杂性分布,对至少部分所述第一图表数据在各个图表分析维度下的复杂性得分进行条件采样,得到与所述复杂性分布相匹配的第二数据集,包括:...

【技术特征摘要】

1.一种测试数据集生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述第二数据集中每条第二图表数据,生成对图表问答模型进行能力测试的测试数据集,包括:

3.根据权利要求2所述的方法,其特征在于,所述问题类型至少包括视觉理解类型、数据检索类型、推理分析类型和图表总结类型;所述提示信息至少包括模型角色信息、模型任务信息和生成条件信息。

4.根据权利要求1所述的方法,其特征在于,所述根据所述复杂性分布,对至少部分所述第一图表数据在各个图表分析维度下的复杂性得分进行条件采样,得到与所述复杂性分布相匹配的第二数据集,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述调整后得分、所述第一图表数据的复杂性得分、以及所述目标图表分析维度下的复杂性分布,对所述第三数据集进行更新,得到新的第三数据集,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述第一图表数据的复杂性得分,从所述第一数据集中,查找满足所述调...

【专利技术属性】
技术研发人员:陆宇婧李炜铭钟灵杨婧段曼妮王永恒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1