一种基于超大规模语言模型的富语义标签数据增广方法技术

技术编号：40315898 阅读：31 留言：0更新日期：2024-02-07 20:58

本发明专利技术公开了一种基于超大规模语言模型的富语义标签数据增广方法。本方法为：1)从若干个数据集中获取学科文本数据，组成一学科数据库；遍历学科数据库中每一数据样本，将具有相同分类号的数据样本划分到层次学科结构采样树的同一节点中，根据分类号确定各节点的位置，构建出层次学科结构采样树并计算每一节点的统计信息；2)确定每一学科分类的增强样本数；3)根据每一学科分类的增强样本数更新层次学科结构采样树，并计算每一节点的统计信息；4)根据每一节点更新前后的统计信息，判断各学科分类对应的样本数量是否平衡，如果不平衡则重复步骤2～3)；5)利用超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据、超大规模语言模型、数据增广、多类别文本分类、层次多标签分类等领域，具体涉及一种基于超大规模语言模型(large language model,llm)针对富语义标签的数据集进行数据增广方法，以解决样本类别间不平衡等问题。

技术介绍

1、对给定研究提案的学科主题进行推断是实现同行评审系统自动化的初步步骤，在同行评审系统中，准确的学科代码可以帮助资助管理员分配与领域相关的专家，从而进行公平的评估。由于学科固有的层次性，这类主题推理任务可以定义为层次化的多标签分类任务。然而，由于主要学科(如信息科学和数学科学等)的发展、计划和划分不同，与这些分级学科标签相关的应用数量不平衡。这种数据级别的不平衡可能会进一步影响一些次要类别学科的自动主题推理模型的准确性。此外，这可能导致一些新学科由与该领域无关的专家进行审查，进一步制约新兴学科的发展。这些分级学科标签，在层次学科已经确定的情况下，就是富含语义信息的标签，不仅包含当前学科领域信息，还可以根据层次学科体系，知道其所属学科等丰富信息。

2、随着机器学习技术的快速发展...

【技术保护点】

1.一种基于超大规模语言模型的富语义标签数据增广方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，利用预训练的超大规模语言模型为每一学科分类生成相应数量的对应学科分类的数据样本的方法为：对于学科分类c，预训练的超大规模语言模型进行sc次数据增强，每次输入学科分类c对应的提示词作为预训练的超大规模语言模型的输入，并获取其输出作为数据增强的结果。

3.根据权利要求2所述的方法，其特征在于，对于学科分类c，从专家标注关键词数据库内该学科分类c所属关键词中随机挑选一个关键词作为提示词的一部分，构建该学科分类c对应的提示词。

4.根据权利要求3所述的...

【技术特征摘要】

1.一种基于超大规模语言模型的富语义标签数据增广方法，其步骤包括：

4.根据权利要求3所述的方法，其特征在于，通过提示词模版构...

【专利技术属性】
技术研发人员：肖濛，周园春，蔡勋鑫，宁致远，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人