数据生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38681850 阅读：9 留言：0更新日期：2023-09-02 22:54

本公开实施例公开了一种数据生成方法、装置、电子设备及存储介质，该方法包括：获取任务数据，所述任务数据包括已有数据和缺失数据类型；使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。该技术方案可以快速、高质量和准确地生成数据。准确地生成数据。准确地生成数据。

全部详细技术资料下载

【技术实现步骤摘要】
数据生成方法、装置、电子设备及存储介质

[0001]本公开涉及数据处理
，具体涉及一种数据生成方法、装置、电子设备及存储介质。

技术介绍

[0002]地图服务的相关产业在近几年得到了快速的发展，越来越多的用户依赖地图来寻找和评价周边的餐厅、景点、休闲娱乐等场所。用户在做出决策时，往往需要参考详细的兴趣点（Point Of Interest，POI）信息，如标签信息、用户评论和推荐理由等。然而，现有的地图数据中很多兴趣点的信息并不完整，标签不准确，且更新速度滞后，这些问题对用户体验造成了不小的影响，也不利于地图服务质量的提升。

技术实现思路

[0003]为了解决相关技术中的问题，本公开实施例提供一种数据生成方法、装置、电子设备及存储介质。
[0004]第一方面，本公开实施例中提供了一种数据生成方法。
[0005]具体地，所述数据生成方法，包括：获取任务数据，所述任务数据包括已有数据和缺失数据类型；使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。
[0006]第二方面，本公开实施例中提供了一种大规模语言模型的训练方法，包括：获取第一训练数据集，所述第一训练数据集包括第一样本任务数据及其对应...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法，包括：获取任务数据，所述任务数据包括已有数据和缺失数据类型；使用预先训练好的第一大规模语言模型，根据所述任务数据，生成数据生成思维链，所述数据生成思维链用于描述基于所述已有数据生成所述缺失数据类型对应的缺失数据的处理链路；使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据；使用预先训练好的第三大规模语言模型，根据所述关键数据和所述数据生成思维链生成所述缺失数据。2.根据权利要求1所述的方法，其中，所述方法还包括：获取第一训练数据集，所述第一训练数据集包括第一样本任务数据及其对应的数据生成思维链，所述第一样本任务数据包括第一样本已有数据和第一样本缺失数据类型；使用所述第一训练数据集对初始的大规模语言模型进行预训练，得到预训练的大规模语言模型；获取第二样本任务数据，所述第二样本任务数据包括第二样本已有数据和第二样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第二样本任务数据生成样本数据生成思维链；将所述第二样本任务数据和所述样本数据生成思维链输入至预先训练的奖励模型，得到所述奖励模型输出的奖励信号；使用强化学习算法根据所述奖励信号对所述预训练的大规模语言模型进行微调，得到训练好的第一大规模语言模型。3.根据权利要求2所述的方法，其中，所述方法还包括：获取第三样本任务数据，所述第三样本任务数据包括第三样本已有数据和第三样本缺失数据类型；使用所述预训练的大规模语言模型，根据所述第三样本任务数据生成样本数据生成思维链；获取所述第三样本任务数据对应的样本数据生成思维链的样本奖励信号；根据所述第三样本任务数据对应的样本数据生成思维链，及其样本奖励信号，对初始的奖励模型进行训练，得到训练好的奖励模型。4.根据权利要求1所述的方法，其中，所述使用预先训练好的第二大规模语言模型，根据所述数据生成思维链从所述已有数据中提取关键数据，包括：使用预先训练好的第二大规模语言模型，根据所述数据生成思维链和所述已有数据，确定调用的工具，所述调用的工具包括以下至少一种：图片转文本工具、视频转文本工具、音频转文本工具和文本数据提取工具；使用所述调用的工具从所述已有数据中提取关键数据。5.根据权利要求1所述的方法，其中，所述方法还包括：获取针对所述缺失数据的用户反馈信号，所述用户反馈信号用于指示生成的缺失数据...

【专利技术属性】
技术研发人员：郭宁，王浩，孙奇，李昕，
申请(专利权)人：北京高德云信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人