当前位置: 首页 > 专利查询>复旦大学专利>正文

结合语言模型与生成模型的两阶段结构化数据生成方法技术

技术编号:45527703 阅读:13 留言:0更新日期:2025-06-13 17:27
本发明专利技术提供一种结合语言模型与生成模型的两阶段结构化数据生成方法,引入信息熵的概念对原始数据的所有特征进行分类,然后,在第一阶段通过生成模型来生成低熵合成数据,在第二阶段用原始数据对语言模型进行微调,并将第一阶段生成的低熵合成数据作为上文输入微调后的语言模型,从而让语言模型更好地生成高熵合成数据。也即,该方法结合了语言模型与生成模型的优点,并利用语言模型天然地可以学习并使用上下文信息的特点,提升了结构化数据生成的效果。该方法适用于任何特征条件的结构化数据集,生成的数据集可以替代原始数据集作为训练数据,应用于其他下游任务,避免了由于数据安全与隐私保护问题、样本数量过少的问题导致的下游模型训练困难。

【技术实现步骤摘要】

本专利技术涉及数据生成方法,具体涉及一种结合语言模型与其他生成模型的两阶段结构化数据生成方法。


技术介绍

1、结构化数据在现代信息技术中的应用至关重要,它不仅极大地提升了数据处理的效率和准确性,还极大地便利了不同系统间的数据交换与集成,在许多重要的领域,如金融、医疗、工业生产等,结构化数据起到了至关重要的作用。此外,大量的训练数据更是人工智能相关技术的基础,进而丰富与提升下游任务的应用范围与效率。但在实际应用中,现有数据的情况不尽人意,在部分场景下,样本的稀缺性以及极度的分布不均导致复杂的高性能模型无法直接使用;此外,对于数据安全与隐私保护的日益重视,也进一步限制了原始数据的可用性。为解决此问题,可以采用数据生成的方式,结合实际应用的需求,首先对原始数据集进行扩充,再开展后续的工作。

2、早期的数据生成采用简单的连接函数和贝叶斯网络等方法,但由于统计模型受到模型结构与计算性能的限制,生成数据的质量较低,且无法处理大规模的复杂数据集。随着人工智能技术的逐步发展,深度学习模型在各类任务中表现出了强大的性能,变分自编码器(variational au本文档来自技高网...

【技术保护点】

1.一种结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

3.根据权利要求2所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

4.根据权利要求3所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

5.根据权利要求1所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

6.根据权利要求5所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

<...

【技术特征摘要】

1.一种结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

3.根据权利要求2所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

4.根据权利要求3所述的结合语言模型与生成模型的两阶段结构化数据生成方法,其特征在于:

...

【专利技术属性】
技术研发人员:刘森戴子岳陈璐瑀柴洪峰
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1