数据生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38681850 阅读:9 留言:0更新日期:2023-09-02 22:54
本公开实施例公开了一种数据生成方法、装置、电子设备及存储介质,该方法包括:获取任务数据,所述任务数据包括已有数据和缺失数据类型;使用预先训练好的第一大规模语言模型,根据所述任务数据,生成数据生成思维链,所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路;使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取关键数据;使用预先训练好的第三大规模语言模型,根据所述关键数据和所述数据生成思维链生成所述缺失数据。该技术方案可以快速、高质量和准确地生成数据。准确地生成数据。准确地生成数据。

【技术实现步骤摘要】
数据生成方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理
,具体涉及一种数据生成方法、装置、电子设备及存储介质。

技术介绍

[0002]地图服务的相关产业在近几年得到了快速的发展,越来越多的用户依赖地图来寻找和评价周边的餐厅、景点、休闲娱乐等场所。用户在做出决策时,往往需要参考详细的兴趣点(Point Of Interest,POI)信息,如标签信息、用户评论和推荐理由等。然而,现有的地图数据中很多兴趣点的信息并不完整,标签不准确,且更新速度滞后,这些问题对用户体验造成了不小的影响,也不利于地图服务质量的提升。

技术实现思路

[0003]为了解决相关技术中的问题,本公开实施例提供一种数据生成方法、装置、电子设备及存储介质。
[0004]第一方面,本公开实施例中提供了一种数据生成方法。
[0005]具体地,所述数据生成方法,包括:获取任务数据,所述任务数据包括已有数据和缺失数据类型;使用预先训练好的第一大规模语言模型,根据所述任务数据,生成数据生成思维链,所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路;使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取关键数据;使用预先训练好的第三大规模语言模型,根据所述关键数据和所述数据生成思维链生成所述缺失数据。
[0006]第二方面,本公开实施例中提供了一种大规模语言模型的训练方法,包括:获取第一训练数据集,所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链,所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型;使用所述第一训练数据集对初始的大规模语言模型进行预训练,得到预训练的大规模语言模型;获取第二样本任务数据,所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型;使用所述预训练的大规模语言模型,根据所述第二样本任务数据生成样本数据生成思维链;将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型,得到所述奖励模型输出的奖励信号;使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调,
得到训练好的第一大规模语言模型。
[0007]第三方面,本公开实施例中提供了一种数据生成装置,包括:获取模块,被配置为获取任务数据,所述任务数据包括已有数据和缺失数据类型;思维链生成模块,被配置为使用预先训练好的第一大规模语言模型,根据所述任务数据生成数据生成思维链,所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路;提取模块,被配置为使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取关键数据;缺失数据生成模块,被配置为使用预先训练好的第三大规模语言模型,根据所述关键数据和所述数据生成思维链生成所述缺失数据。
[0008]第四方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面中任一项所述的方法。
[0009]第五方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面中任一项所述的方法。
[0010]第六方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面中任一项所述的方法步骤。
[0011]根据本公开实施例提供的技术方案,在获取到包括已有数据和缺失数据类型的任务数据后,可以使用预先训练好的第一大规模语言模型,根据所述任务数据来生成数据生成思维链,所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路;然后,使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取需要的关键数据;使用预先训练好的第三大规模语言模型,按照所述数据生成思维链提供的处理链路,根据所述关键数据生成所述缺失数据。如此,可以根据已有数据自动生成缺失的标签、短评和推荐理由等缺失数据,减少人工标注成本,提高数据的质量和完整性,从而为用户提供更好的互联网服务。而且本实施方式使用数据生成思维链来模拟数据生成技术人员在面对具体生成任务时的推理过程,利用数据生成思维链这一中间结果来指导第二大规模语言模型的数据提取和第三大规模语言模型的数据生成,可以快速、高质量和准确地生成缺失数据;通过数据生成思维链可以将数据提取和数据生成节点的信息进行整合和传递,实现对数据生成过程的高度抽象和模拟,相比于直接基于已有数据生成缺失数据,本实施方式具有更高的效率和更好的适应性,能够应对更加复杂和多样化的数据生成场景。
[0012]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0013]结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。以下是对附图的说明。
[0014]图1示出根据本公开的实施例的数据生成方法的流程图。
[0015]图2示出根据本公开的实施例的大规模语言模型的训练方法的流程图。
[0016]图3示出根据本公开的实施例的数据生成装置的结构框图。
[0017]图4示出根据本公开的实施例的大规模语言模型的训练装置的结构框图。
[0018]图5示出根据本公开的实施例的电子设备的结构框图。
[0019]图6示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
具体实施方式
[0020]下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
[0021]在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
[0022]另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0023]需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0024]如上文所述,地图服务的相关产业在近几年得到了快速的发展,越来越多的用户依赖地图来寻找和评价周边的餐厅、景点、休闲娱乐等场所。用户在做出决策时,往往需要参考详细的兴趣点(Point Of Interest,POI)信息,比如说标签信息、用户评论和推荐理由等。然而,现有的地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法,包括:获取任务数据,所述任务数据包括已有数据和缺失数据类型;使用预先训练好的第一大规模语言模型,根据所述任务数据,生成数据生成思维链,所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路;使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取关键数据;使用预先训练好的第三大规模语言模型,根据所述关键数据和所述数据生成思维链生成所述缺失数据。2.根据权利要求1所述的方法,其中,所述方法还包括:获取第一训练数据集,所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链,所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型;使用所述第一训练数据集对初始的大规模语言模型进行预训练,得到预训练的大规模语言模型;获取第二样本任务数据,所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型;使用所述预训练的大规模语言模型,根据所述第二样本任务数据生成样本数据生成思维链;将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型,得到所述奖励模型输出的奖励信号;使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调,得到训练好的第一大规模语言模型。3.根据权利要求2所述的方法,其中,所述方法还包括:获取第三样本任务数据,所述第三样本任务数据包括第三样本已有数据和第三样本缺失数据类型;使用所述预训练的大规模语言模型,根据所述第三样本任务数据生成样本数据生成思维链;获取所述第三样本任务数据对应的样本数据生成思维链的样本奖励信号;根据所述第三样本任务数据对应的样本数据生成思维链,及其样本奖励信号,对初始的奖励模型进行训练,得到训练好的奖励模型。4.根据权利要求1所述的方法,其中,所述使用预先训练好的第二大规模语言模型,根据所述数据生成思维链从所述已有数据中提取关键数据,包括:使用预先训练好的第二大规模语言模型,根据所述数据生成思维链和所述已有数据,确定调用的工具,所述调用的工具包括以下至少一种:图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具;使用所述调用的工具从所述已有数据中提取关键数据。5.根据权利要求1所述的方法,其中,所述方法还包括:获取针对所述缺失数据的用户反馈信号,所述用户反馈信号用于指示生成的缺失数据...

【专利技术属性】
技术研发人员:郭宁王浩孙奇李昕
申请(专利权)人:北京高德云信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1