一种大型预训练语言模型的网络结构优化微调方法技术

技术编号：39406692 阅读：18 留言：0更新日期：2023-11-19 15:58

本发明专利技术提供了一种大型预训练语言模型的网络结构优化微调方法，收集电话电销的语音营销的对话数据和文字营销的对话数据，进行数据清洗及预处理；对收集的对话数据进行标注，指定部分对话数据为营销失败，并对营销失败原因进行分类和标注；对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法；使用LoRA低秩适应方法对优化后的大型预训练语言模型进行微调；对微调后的大型预训练语言模型进行验证并迭代训练。有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析，通过将大模型分解为低秩矩阵和基模型，减少计算复杂度和内存消耗，保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。效率和成功率。效率和成功率。

全部详细技术资料下载

【技术实现步骤摘要】
一种大型预训练语言模型的网络结构优化微调方法

[0001]本专利技术属于语言模型处理
，具体涉及一种大型预训练语言模型的网络结构优化微调方法。

技术介绍

[0002]在电销和文字营销等应用中，理解和预测营销失败的原因至关重要。然而，大型预训练语言模型的微调和部署需要大量计算和存储资源，在微调期间的计算复杂度较高，并且消耗大量内存，使得大模型微调的成本较高。并且微调的过程中容易导致大模型退化，使得理解和预测营销失败的原因的大模型发生灾难遗忘。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种大型预训练语言模型的网络结构优化微调方法，包括以下步骤：S1：收集电话电销的语音营销的对话数据和文字营销的对话数据，进行数据清洗及预处理；S2：对S1中收集的对话数据进行标注，指定部分对话数据为营销失败，并对营销失败原因进行分类和标注； S3：对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法；S4：使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调；S5：对S4中微调后的大型预训练语言模型进行验证并进行迭代训练，持续优化。
[0004]进一步地，S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。
[0005]进一步地，S1中数据清洗及预处理包括移除噪音，具体为移除停用词、标点符号、非相关的背景对话。
[0006]进一步地，S2中对营销失败原因进行分类和标注，分类及标注具体为：产品问题、价格问题、交流技巧问题。
>[0007]进一步地，S3中对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法具体步骤为：S31：进行词典缩减，只保留频率最高和信息增益最大的词；S32：根据资源和性能需求，选择适当的大型预训练语言模型的层数；进一步地，S3中对大型预训练语言模型进行优化的具体方法还包括参数共享：在大型预训练语言模型的不同部分共享参数，以减少模型的总参数数量；量化：将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数；剪枝：去除模型中不重要的参数或神经元。
[0008]进一步地，S4中使用LoRA低秩适应方法进行微调的具体为：将大型预训练语言模型分解为低秩矩阵ΔW和基模型，LoRA低秩适应方法的约
束公式为：，∈Rd
×
k，B∈Rd
×
r ，A∈Rr
×
k ，r
≪
min(d,k) ；其中，r为秩，x 代表原模型的输入，是电话电销的对话数据，ΔW代表模型权重的改变，代表原始模型的权重，大小为d
×
k，其中d代表模型的输入维度，k代表模型的输出维度，B和A代表低秩矩阵，其中B∈Rd
×
r的B代表模型输入到中间层的权重，Rr
×
k 的A代表中间层到模型输出的权重，而r<<min(d,k)则表示中间层的维度远小于输入和输出层。
[0009]进一步地，S4中使用LoRA低秩适应方法进行微调的具体步骤为：S41：初始化B和A；S42：固定A，更新B以最小化重构误差；S43：固定B，更新A以最小化重构误差；S44：重复步骤S42和S43直到收敛；S45：使用B和A替换模型中的ΔW，结合实际的电话电销对话数据进行实验和优化，以达到最佳的模型性能。
[0010]进一步地，S5中对微调后的大型预训练语言模型进行验证并进行迭代训练具体包括以下步骤：S51：使用新收集的电话电销的语音营销的对话数据和文字营销的对话数据，通过大型预训练语言模型进行预测；S52：对S51中的预测结果通过优化后的大型预训练语言模型进行验证；S53：根据S52中的验证结果对S51中的预测结果进行纠正，将同样的对话数据，在原始的大型预训练语言模型以及经过优化后的大型预训练语言模型、人为判定三种环境因素下共同验证，并将纠正后的数据返回优化后的大型预训练语言模型中继续训练优化，进行迭代训练，最终达到优化后的大型预训练语言模型的效果超越原始的大型预训练语言模型。
[0011]本专利技术的有益效果在于：本专利技术提供的方法可以有效地在资源有限的环境中进行大型预训练语言模型的失败原因分析，通过将大模型分解为低秩矩阵和基模型,在微调期间减少计算复杂度和内存消耗。在使用低秩约束的同时保留高模型性能。低秩性反映神经网络中信息的紧凑性和结构性。低秩矩阵可以由较少的特征向量或奇异值表示,并且用于数据压缩、降维和分析。总之,LoRA 中的低秩矩阵在保持高性能的同时减少了微调大模型的成本。帮助提升电销和文字营销的效率和成功率。同时，也保护了用户的隐私和数据安全。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0013]图1为一种大型预训练语言模型的网络结构优化微调方法的流程图。
实施方式
[0014]下面将结合本专利技术实施例，对本专利技术实施例中的技术方案进行清除、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0015]如图1所示，本专利技术提供了一种大型预训练语言模型的网络结构优化微调方法，具体的：首先进行数据收集和处理：首先，收集电话电销的语音数据和直接的文字营销对话数据。对于语音数据，需要通过语音识别技术将其转换为文本。数据清洗和预处理也在这个阶段进行，以移除噪音，如停用词、标点符号、非相关的背景对话等。保护用户隐私和数据：在处理用户数据时，必须遵守所有适用的隐私和数据保护法规。这可能包括获取用户的明确同意、匿名化数据，以及确保数据的安全存储和传输。
[0016]然后进行数据标注：对收集的数据进行标注，指定哪些对话或交谈结果为营销失败，并对失败原因进行分类和标注。这些标签可以包括产品问题、价格问题、交流技巧问题等。标注的数据用于后续的模型训练。
[0017]然后进行Transformer模型结构优化：使用词典缩减和网络层数缩减等方法对Transformer模型进行优化，以减小模型的存储和计算需求，同时尽可能保持模型的性能。
[0018]首先，进行词典缩减（Transformer模型通常使用一个大型词典进行文本编码。我们可以减小词典的大小，以减少模型的存储需求和运行时间。这可以通过词频统计、信息增益等方法，选出对模型性能最重要的词，只保留这些词在词典中。注意，这可能需要重新训练模型，因为词典的改变会影响输入的编码），只保留频率最高和信息增益最大的词。然后，根据资源和性能需求，选择适当的Transformer层数。参数共享：我们可以在模型的不同部分共享参数，以减少模型的总参数数量。例如，我们可以在所有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大型预训练语言模型的网络结构优化微调方法，其特征在于，包括以下步骤：S1：收集电话电销的语音营销的对话数据和文字营销的对话数据，进行数据清洗及预处理；S2：对S1中收集的对话数据进行标注，指定部分对话数据为营销失败，并对营销失败原因进行分类和标注； S3：对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法；S4：使用LoRA低秩适应方法对S3中优化后的大型预训练语言模型进行微调；S5：对S4中微调后的大型预训练语言模型进行验证并进行迭代训练，持续优化。2.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S1中收集电话电销的语音营销的对话数据还需要通过语音识别技术进行文本转换。3.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S1中数据清洗及预处理包括移除噪音，具体为移除停用词、标点符号、非相关的背景对话。4.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S2中对营销失败原因进行分类和标注，分类及标注具体为：产品问题、价格问题、交流技巧问题。5.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S3中对大型预训练语言模型进行优化，包括使用词典缩减和网络层数缩减方法具体步骤为： S31：进行词典缩减，只保留频率最高和信息增益最大的词；S32 ：根据资源和性能需求，选择适当的大型预训练语言模型的层数。6.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S3中对大型预训练语言模型进行优化的具体方法还包括参数共享：在大型预训练语言模型的不同部分共享参数，以减少模型的总参数数量；量化：将大型预训练语言模型的浮点数参数转换为更小范围或更低精度的数；剪枝：去除模型中不重要的参数或神经元。7.根据权利要求1所述的一种大型预训练语言模型的网络结构优化微调方法，其特征在于，S4中使用LoRA低秩适应方法进行微调的具体为：将大型预训练语言模型分解为低秩矩阵ΔW...

【专利技术属性】
技术研发人员：朱宇光，
申请(专利权)人：江苏微皓智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人