一种提升垂直领域语言模型性能的方法和系统技术方案

技术编号：39976989 阅读：8 留言：0更新日期：2024-01-09 01:13

本发明专利技术属于自然语言处理技术领域，具体涉及一种提升垂直领域语言模型性能的方法和系统。包括如下步骤：步骤1：针对垂直领域收集相关的高质量的文本；步骤2：用大模型对收集到的文本进行泛化；步骤3：主题建模；步骤4：训练一个Transformer模型来学习各维属性之间的依赖关系；步骤5：选取不同的属性组合，然后随机选取属性对应的属性值，构成提示词；步骤6：大模型根据步骤5生成的提示词来生成相关文本D``；步骤7：使用步骤1、2和6中的文本用来训练垂直领域的语言模型。本发明专利技术的有益效果在于：(1)可以快速获取垂直领域的高质量文本语料，并且成本较低；(2)提升语言模型的建模能力，从而提高系统的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，具体涉及一种提升垂直领域语言模型性能的方法和系统。

技术介绍

1、作为自然语言处理(nlp)的核心，语言模型在许多领域起到了至关重要的作用，如语音识别、机器翻译、手写识别、输入法、搜索查询理解、对话等系统。目前常见的语言模型建模方法有基于n元文法的统计语言模型、神经网络语言模型、在大规模通用语料上预训练语言模型，然后转移学习到下游任务的迁移学习语言模型等。

2、由于当前各种语言模型在结构和训练方法上基本一致，在语言模型的训练和迁移学习过程中，训练数据的选取和处理就变得极为重要。这是因为，训练数据的规模和质量会直接影响到语言模型的最终质量和应用效果。特别是在垂直领域，由于网络上相关语料的缺乏，针对垂直领域语料收集就成为一个极具挑战性的任务。良好的训练数据是保证语言模型效果的关键，因此垂直领域相关语料的收集工作对语言模型的质量起到决定性作用。

3、传统的语料收集方法主要包括网络爬取和人工整理。但是网络爬取的语料质量参差不齐，往往需要花费大量的人力物力来清洗和处理。而人工整理的方式价格高昂且效率低下，特别是当语料规模相当大的时候，这种方法的效率问题就更加突出。

4、近年来，当大规模语言模型的训练参数达到一定规模时，其表现出来的涌现能力受到了人们的广泛关注。它具有强大的语言生成能力，能够根据给定的提示生成各种类型的文本语料；也具有良好的泛化能力，可以基于给定的句子进行泛化生成，从而得到更精细、更丰富的语料库。

5、大型语言模型(llm)在各种自然语言处理任务中展

技术实现思路

1、本专利技术的目的是提供一种提升垂直领域语言模型性能的方法和系统，它能够解决垂直领域语言模型训练数据不足，数据获取困难等问题。

2、本专利技术的技术方案如下：一种提升垂直领域语言模型性能的方法，包括如下步骤：

3、步骤1：针对垂直领域收集相关的高质量的文本；

4、步骤2：用大模型对收集到的文本进行泛化；

5、步骤3：主题建模；

6、步骤4：训练一个transformer模型来学习各维属性之间的依赖关系；

7、步骤5：选取不同的属性组合，然后随机选取属性对应的属性值，构成提示词；

8、步骤6：大模型根据步骤5生成的提示词来生成相关文本d``；

9、步骤7：使用步骤1、2和6中的文本用来训练垂直领域的语言模型。

10、步骤1中所述的高质量的文本来源包括人工生成或网络爬取经过人工挑选的文本，将人工生成和人工挑选爬取后的文本记为数据集d。

11、所述的步骤2中使用预训练语言模型对步骤1中的数据集d进行泛化，得到泛化后的文本数据集d`，具体实现是加载预训练语言模型，将d作为预训练语言模型的输入，通过预训练语言模型的前向计算，预训练语言模型的输出为d`。

12、所述的步骤3中使用潜在狄利克雷分配主题模型对步骤2中的数据集d进行建模，自动学习垂直领域数据集的主题分布；主题视为属性维度，每个主题下的高频关键词作为该主题的属性值。

13、所述的步骤3具体过程如下：

14、步骤31：假设每个文档都由多个主题构成，每个主题都由一系列关键词表示；

15、步骤32：使用dirichlet先验分布建模文档-主题分布和主题-词分布，使得每个文档可以用不同比例的多个主题表示，每个主题以不同概率包含各个词；

16、步骤33：通过贝叶斯推理和迭代求解，反向收敛文档-主题分布和主题-词分布。主要包括：根据文档-主题分布随机采样主题，再根据主题-词分布随机采样词，合成文档；根据合成文档优化文档-主题分布和主题-词分布的参数；重复上述步骤，直到收敛得到稳定的文档-主题分布和主题-词分布；

17、步骤34：最终每个文档都表示为多个主题的分布，每个主题表示为词的分布，自动发现文档集合的主题信息；其中主题就是所需要的属性，每个主题对应的词就是属性所对应的属性值。

18、所述步骤4中将属性作为transformer模型的输入序列，将各维属性通过嵌入转化为固定长度的向量，捕捉到不同属性之间的依赖关系，并给出每个属性对输出预测的注意力权重，将基于transformer模型的学习结果自动生成属性组合配置，组合配置的规则由模型根据输入数据自动学习得到。

19、所述步骤5中根据步骤3主题模型学习的主题-词分布，为每个主题随机选择若干高频关键词，作为主题的属性值；根据步骤4生成的最佳属性组合，为每个属性随机选取属性值，过滤掉矛盾的搭配，然后将属性及属性值插入提示模板，生成完整的属性提示。

20、所述步骤7中将步骤1、2和6中得到的d、d`和d``文本数据通过数据清洗、分词、序列化等步骤整理为适合语言模型训练的格式数据d```，在基础模型的基础上，使用整理后的数据d```对模型进行微调，然后，分别使用验证集和测试集对模型进行验证和评估，以验证模型的性能，并根据需要对模型进行调整优化。

21、一种提升垂直领域语言模型性能的系统，包括文本生成模块，泛化模块，主题建模模块，transformer模块，提示词模块及训练模块；

22、所述的文本生成模块针对垂直领域收集相关的高质量的文本，所述的高质量的文本来源包括人工生成或网络爬取经过人工挑选的文本，将人工生成和人工挑选爬取后的文本记为数据集d；

23、所述的泛化模块对数据集d进行泛化，得到泛化后的文本数据集d`，具体实现是加载预训练语言模型，将d作为预训练语言模型的输入，通过预训练语言模型的前向计算，预训练语言模型的输出为d`；

24、所述的主题建模模块使用潜在狄利克雷分配主题模型对数据集d进行建模，自动学习垂直领域数据集的主题分布；主题视为属性维度，每个主题下的高频关键词作为该主题的属性值，其具体如下：

25、假设每个文档都由多个主题构成，每个主题都由一系列关键词表示；

26、使用dirichlet先验分布建模文档-主题分布和主题-词分布，使得每个文档可以用不同比例的多个主题表示，每个主题以不同概率包含各个词；

27、通过贝叶斯推理和迭代求解，反向收敛文档-主题分布和主题-词分布。主要包括：根据文档-主题分布随机采样主题，再根据主题-词分布随机采样词，合成文档；根据合成文档优化文档-主题分布和主题-词分布的参数；重复上述步骤，直到收敛得到稳定的文档-主题分布和主题-词分布；

28、最终每个文档都表示为多个主题的分布，每个主题表示为词的分布，自本文档来自技高网...

【技术保护点】

1.一种提升垂直领域语言模型性能的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：步骤1中所述的高质量的文本来源包括人工生成或网络爬取经过人工挑选的文本，将人工生成和人工挑选爬取后的文本记为数据集D。

3.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述的步骤2中使用预训练语言模型对步骤1中的数据集D进行泛化，得到泛化后的文本数据集D`，具体实现是加载预训练语言模型，将D作为预训练语言模型的输入，通过预训练语言模型的前向计算，预训练语言模型的输出为D`。

4.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述的步骤3中使用潜在狄利克雷分配主题模型对步骤2中的数据集D进行建模，自动学习垂直领域数据集的主题分布；主题视为属性维度，每个主题下的高频关键词作为该主题的属性值。

5.如权利要求4所述的一种提升垂直领域语言模型性能的方法，其特征在于，所述的步骤3具体过程如下：

6.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其

7.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述步骤5中根据步骤3主题模型学习的主题-词分布，为每个主题随机选择若干高频关键词，作为主题的属性值；根据步骤4生成的最佳属性组合，为每个属性随机选取属性值，过滤掉矛盾的搭配，然后将属性及属性值插入提示模板，生成完整的属性提示。

8.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述步骤7中将步骤1、2和6中得到的D、D`和D``文本数据通过数据清洗、分词、序列化等步骤整理为适合语言模型训练的格式数据D```，在基础模型的基础上，使用整理后的数据D```对模型进行微调，然后，分别使用验证集和测试集对模型进行验证和评估，以验证模型的性能，并根据需要对模型进行调整优化。

9.一种提升垂直领域语言模型性能的系统，其特征在于：包括文本生成模块，泛化模块，主题建模模块，Transformer模块，提示词模块及训练模块；

...

【技术特征摘要】

1.一种提升垂直领域语言模型性能的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：步骤1中所述的高质量的文本来源包括人工生成或网络爬取经过人工挑选的文本，将人工生成和人工挑选爬取后的文本记为数据集d。

3.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述的步骤2中使用预训练语言模型对步骤1中的数据集d进行泛化，得到泛化后的文本数据集d`，具体实现是加载预训练语言模型，将d作为预训练语言模型的输入，通过预训练语言模型的前向计算，预训练语言模型的输出为d`。

4.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述的步骤3中使用潜在狄利克雷分配主题模型对步骤2中的数据集d进行建模，自动学习垂直领域数据集的主题分布；主题视为属性维度，每个主题下的高频关键词作为该主题的属性值。

5.如权利要求4所述的一种提升垂直领域语言模型性能的方法，其特征在于，所述的步骤3具体过程如下：

6.如权利要求1所述的一种提升垂直领域语言模型性能的方法，其特征在于：所述步骤4中将属性作为transformer模型的输入序列，...

【专利技术属性】
技术研发人员：李静，司玉景，李全忠，蒲瑶，何国涛，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人