基于大语言模型的表格-文本数据生成方法及装置制造方法及图纸

技术编号：42617579 阅读：27 留言：0更新日期：2024-09-03 18:23

本公开提供了一种基于大语言模型的表格‑文本数据生成方法和装置，涉及人工智能技术领域，尤其涉及自然语言处理领域和大模型领域。具体实现方案为：基于各个第一表格处理指令，各个第一表格和各个第一表格处理结果，构建第一训练数据集，第一表格处理结果为表格和描述性文本中任一个；基于各个第二表格处理指令，各个第二表格和各个第二表格处理结果，构建第二训练数据集，第二表格处理结果为描述性文本；采用第一训练数据集和第二训练数据集对第一大语言模型依次进行训练，得到表格文本数据生成模型；将目标表格处理指令和目标表格输入表格文本数据生成模型，得到目标表格处理结果，其中，目标表格处理结果为描述性文本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及自然语言处理领域和大模型领域。本公开具体涉及一种基于大语言模型的表格-文本数据生成方法及装置。

技术介绍

1、表格作为一种被广泛使用的数据载体，在实际使用处理时，由于其二维文本的特点难以被ai理解，因而，其在人工智能领域利用效率低下。同时，某些领域数据通常具有高度敏感性和机密性或者涉及范围小，导致难以获取足够规模的开放数据集，限制了研究的广度和深度。数据集缺乏、训练样本质量不佳等问题始终存在并困扰着研究人员。

2、虽然表格-文本数据生成方法已经取得了很大的进展，但传统的朴素模型不能精准提取关键信息，信息抽取能力不足，且难以生成语句连贯通顺的描述性语言。

技术实现思路

1、本公开提供了一种基于大语言模型的表格-文本数据生成方法及装置。

2、根据本公开的一方面，提供了一种基于大语言模型的表格-文本数据生成方法，包括：

3、基于各个第一表格处理指令，各个第一表格，和采用各个所述第一表格处理指令处理各个所述第一表格所得到的各个第一表格...

【技术保护点】

1.一种基于大语言模型的表格-文本数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用所述第一训练数据集对第一大语言模型进行训练，得到第二大语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述采用所述第二训练数据集对所述第二大语言模型进行训练，得到表格文本数据生成模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述第二训练数据集对所述第三大语言模型进行训练，得到所述表格文本数据生成模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一表格处理指令的类型包括所述第二表格处理...

【技术特征摘要】

1.一种基于大语言模型的表格-文本数据生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用所述第一训练数据集对第一大语言模型进行训练，得到第二大语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述采用所述第二训练数据集对所述第二大语言模型进行训练，得到表格文本数据生成模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用所述第二训练数据集对所述第三大语言模型进行训练，得到所述表格文本数据生成模型，包括：

5.根据权利...

【专利技术属性】
技术研发人员：陈海文，倪雨，肖开明，王腾云，吴继冰，葛宁超，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人