一种大语言模型超参数优化方法及系统技术方案

技术编号:39729272 阅读:10 留言:0更新日期:2023-12-17 23:33
本发明专利技术提供了一种大语言模型超参数优化方法及系统

【技术实现步骤摘要】
一种大语言模型超参数优化方法及系统


[0001]本专利技术涉及人工智能
,特别涉及一种大语言模型超参数优化方法及系统


技术介绍

[0002]在人工智能和自然语言处理领域中,大语言模型(如基于
transformer
的模型)在各种应用场景中有着广泛的应用,包括但不限于文本生成

情感分析

语义理解和机器翻译等

然而,大语言模型通常具有庞大的参数空间和复杂的结构,这些因素使得模型训练和优化过程面临多种挑战

[0003]首先,选择适当的超参数(如学习速率

批次大小等)对模型性能有着显著的影响

不合适的超参数设置可能导致模型训练不稳定或者需要更多的训练时间

传统的超参数优化方法,如网格搜索或随机搜索,通常计算成本高昂,而且可能不能很好地适应大语言模型的特性

[0004]其次,模型的结构复杂度(如模型的连接密度或隐藏层数量)也是一个需要细致考虑的问题

简单的模型结构可能无法捕获数据中的复杂关系,而过于复杂的模型结构则可能导致过拟合,从而影响模型的泛化能力

[0005]最后,许多现有方法通常仅考虑模型的性能(例如准确性或召回率)而忽视模型的结构复杂度

这样做可能会导致训练出性能较好但计算成本极高的模型,这在实际应用中是不可取的

[0006]因此,研发一种新的大语言模型超参数优化方法及系统尤为迫切


技术实现思路

[0007]本申请提供一种大语言模型超参数优化方法及系统,以提高大语言模型的超参数优化效率

[0008]本申请提供一种大语言模型超参数优化方法,包括:
[0009](a) 初始化大语言模型及其超参数,所述超参数包括学习速率和批次大小;
[0010](b) 在处理每一批训练数据后,使用一个联合评估函数来对大语言模型的性能和复杂度进行综合评估,该联合评估函数考虑了大语言模型对数据的拟合程度以及大语言模型结构的复杂度;
[0011](c) 根据该联合评估函数的结果,通过预定算法动态地调整模型的超参数;
[0012](d) 以结构性动量为动态变量指标,对于大语言模型结构进行优化调整,该结构性动量考虑了大语言模型的连接密度以及隐藏层数量;
[0013](e) 循环执行步骤
(b)

(d)
,直到达到预设的大语言模型的性能指标或满足预设的终止条件,结束循环,完成大语言模型的超参数优化

[0014]更进一步地,所述联合评估函数由信息熵
H(x)
和大语言模型复杂度
M(t)
以及权衡因子组成,其具体表达式如下:
[0015][0016]其中,是
M(t)
可能达到的最大值;
x
是一批训练数据,
t
是当前时间点

[0017]更进一步地,所述预定算法用如下公式表示:
[0018][0019][0020]其中,和分别表示在时间
t
处的动态学习速率和批次大小;和分别是动态学习速率和批次大小的初始值;是联合评估函数的结果,用于评估大语言模型的性能和复杂度;是可能达到的最大值;参数和分别控制学习速率和批次大小随变化的敏感性

[0021]更进一步地,所述动态变量指标用如下公式表示:
[0022][0023]其中,是在时间点
t
的结构性动量;
D
是大语言模型的连接密度;
L
是大语言模型的隐藏层数量;
、、
和是可配置的权重因子;
t
是当前时间点;是一个预设的参考时间点

[0024]更进一步地,所述优化调整包括修改隐藏层数量以及改变连接密度

[0025]更进一步地,所述预设的大语言模型的性能指标包括模型的准确率和
/

F1
分数

[0026]更进一步地,所述预设的终止条件包括达到最大迭代次数或达到特定的时间限制

[0027]更进一步地,在步骤
(e) 中的预设的终止条件,包括早停机制

[0028]更进一步地,所述早停机制的执行过程包括:在每次执行步骤(
b
)后,计算一个基于联合评估函数和生成性文本的质量指标的综合早停评分
Z
,其具体公式如下:
[0029][0030]其中,是一个介于0和1之间的权重系数,用于权衡和的相对重要性
; 是生成性文本的质量指标
;
[0031]当所述综合早停评分在连续
N
个评估周期内的变化低于预设的生成性任务特定阈值时,自动触发早停,以终止步骤(
e
)的循环过程

[0032]更进一步地,所述权衡因子的确定方法,包括:通过交叉验证方法在不同的训练数据和验证数据的划分上进行多次实验,并计算每次实验的值对应的平均模型性能指标,然后选择使平均模型性能指标最优化的值作为最终确定的权衡因子

[0033]本申请提出一种大语言模型超参数优化系统,包括:
[0034]初始化模块,用于初始化大语言模型及所述大语言模型的超参数,所述超参数包括学习速率和批次大小;
[0035]评估模块,用于在处理每一批训练数据后,使用一个联合评估函数来对大语言模型的性能和复杂度进行综合评估,所述联合评估函数考虑了大语言模型对数据的拟合程度以及大语言模型结构的复杂度;
[0036]调整模块,用于根据所述联合评估函数的结果,通过预定算法动态地调整大语言模型的超参数;
[0037]优化模块,用于以结构性动量为动态变量指标,对大语言模型结构进行优化调整,所述结构性动量考虑了大语言模型的连接密度以及隐藏层数量;
[0038]循环执行模块,用于循环执行步骤
(b)

(d)
,直到达到预设的大语言模型的性能指标或满足预设的终止条件,结束循环,完成大语言模型的超参数优化

[0039]本申请提供的技术方案有如下有益的效果:
[0040](1)通过引入联合评估函数,能够在优化大语言模型的性能的同时,也考虑到模型的复杂度

这样的全面考量有助于实现在限定资源下获得最佳性能的大语言模型

[0041](2)根据联合评估函数的结果,超参数会被动态地调整

这意味着大语言模型能够在训练过程中自我优化,而不仅仅依赖于初始设置的静态参数

[0042](3)通过结构性动量这一动态变量指标,还涉及到大语言模型结构的优化<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大语言模型超参数优化方法,其特征在于,包括:
(a) 初始化大语言模型及所述大语言模型的超参数,所述超参数包括学习速率和批次大小;
(b) 在处理每一批训练数据后,使用一个联合评估函数来对大语言模型的性能和复杂度进行综合评估,所述联合评估函数考虑了大语言模型对数据的拟合程度以及大语言模型结构的复杂度;其中,所述联合评估函数由信息熵
H(x)
和大语言模型复杂度
M(t)
以及权衡因子组成,其具体表达式如下:;其中,是
M(t)
可能达到的最大值;
x
是一批训练数据,
t
是当前时间点;
(c) 根据所述联合评估函数的结果,通过预定算法动态地调整大语言模型的超参数;
(d) 以结构性动量为动态变量指标,对大语言模型结构进行优化调整,所述结构性动量考虑了大语言模型的连接密度以及隐藏层数量;
(e) 循环执行步骤
(b)

(d)
,直到达到预设的大语言模型的性能指标或满足预设的终止条件,结束循环,完成大语言模型的超参数优化
。2.
根据权利要求1所述的大语言模型超参数优化方法,其特征在于,所述预定算法用如下公式表示:;;其中,和分别表示在时间
t
处的动态学习速率和批次大小;和分别是动态学习速率和批次大小的初始值;是联合评估函数的结果,用于评估大语言模型的性能和复杂度;是可能达到的最大值;参数和分别控制学习速率和批次大小随变化的敏感性
。3.
根据权利要求1所述的大语言模型超参数优化方法,其特征在于,所述动态变量指标用如下公式表示:;其中,是在时间点
t
的结构性动量;
D
是大语言模型的连接密度;
L
是大语言模型的隐藏层数量;
、、
和是可配置的权重因子;
t
是当前时间点;是一个预设的参考时间点
。4.
根据权利要求1所述的大语言模型超参数优化方法,其特征在于,所述优化调整包括修改隐藏层数量以及改变连接密度

5.
根据权利要求1所述的大语言模型超参数优化方法,其特征在于,所述预设的大语言模型的性能指标包括模型的准确率和
/...

【专利技术属性】
技术研发人员:王亚赵策屠静苏岳李伟伟孙岩颉彬周勤民潘亮亮刘岩刘莎
申请(专利权)人:卓世科技海南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1