当前位置: 首页 > 专利查询>之江实验室专利>正文

蛋白质语言模型的量化方法、装置、设备和存储介质制造方法及图纸

技术编号:37677652 阅读:31 留言:0更新日期:2023-05-26 04:43
本申请涉及人工智能领域,特别是涉及一种蛋白质语言模型的量化方法、装置、设备和存储介质,所述方法包括:采用均匀对称量化方法对蛋白质语言模型的权重值进行量化;通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围,并将所述第一截断范围划分为多个量化区间;通过分段线性量化方法分别对所述多个量化区间的激活值进行量化;基于量化后的权重值以及量化后的激活值,配置得到量化后的蛋白质语言模型。本发明专利技术提出的量化方法降低了模型量化的精度损失,在保证量化后模型预测精度的同时,减少模型的内存占用,提升模型推理速度。提升模型推理速度。提升模型推理速度。

【技术实现步骤摘要】
蛋白质语言模型的量化方法、装置、设备和存储介质


[0001]本申请涉及人工智能领域,特别是涉及一种蛋白质语言模型的量化方法、装置、计算机设备和存储介质。

技术介绍

[0002]蛋白质被认为是生命的物质基础,承担着大部分的生命活动。有很多科学研究都是针对破译蛋白质结构来展开的。蛋白质独有的“序列

结构”关系(即蛋白质内部氨基酸的序列决定了蛋白质最终的结构),使得基于机器学习的蛋白质结构预测方法在最近几年取得了成功。蛋白质语言模型(PLM,例如ESM

2),在数千万到数十亿的蛋白质氨基酸序列上进行自监督的预训练之后,将会具备预测蛋白质结构的能力。
[0003]尽管蛋白质语言模型在从序列预测结构方面取得了显著成功,但预训练的蛋白质语言模型参数规模非常大,超过数十亿个参数。由于其巨大的内存占用和能耗,如何在资源受限的系统上高效部署这些模型已经成为一个重要的问题。解决这个问题的一个方法是神经网络量化。然而,神经网络量化会引入额外的噪声,传统的均匀量化方法在量化蛋白质语言模型的激活张量时会导致预测精度有显著的下降。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种蛋白质语言模型的量化方法、装置、计算机设备和存储介质。
[0005]第一方面,本专利技术实施例提出一种蛋白质语言模型的量化方法,所述方法包括:采用均匀对称量化方法对蛋白质语言模型的权重值进行量化;通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围,并将所述第一截断范围划分为多个量化区间;通过分段线性量化方法分别对所述多个量化区间的激活值进行量化;基于量化后的权重值以及量化后的激活值,配置得到量化后的蛋白质语言模型。
[0006]在一实施例中,所述通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围包括:选取校准数据集输入给蛋白质语言模型,以获取模型每一个张量对应激活值的第一截断范围[r
l
,r
u
];其中,;;其中,表示对应张量激活值最小topk的中位数,表示对应张量激活值最大topk的中位数,r表示对应张量激活值。
[0007]在一实施例中,所述将所述第一截断范围划分为多个量化区间包括:基于至少两个断点将所述第一截断范围划分为至少两个第一截断子范围;
基于各所述第一截断子范围的中心,将各所述第一截断子范围划分为至少两个量化区间。
[0008]在一实施例中,所述断点的数量为两个分别为第一断点p
l
和第二断点p
u
,所述第一断点p
l
的确定方式如下:;所述第二断点p
u
的确定方式如下:;其中,m和n表示超参数,r
l
表示第一截断范围的最小值,r
u
表示第一截断范围的最大值。
[0009]在一实施例中,所述通过分段线性量化方法分别对所述多个量化区间的激活值进行量化包括:;其中,b表示激活值量化的bits数,表示量化后又经过反量化的近似激活值。
[0010]在一实施例中,所述采用均匀对称量化方法对蛋白质语言模型的权重值进行量化包括:确定所述蛋白质语言模型的权重值的第二截断范围;针对所述第二截断范围,采用均匀对称量化方法对蛋白质语言模型的权重值进行量化。
[0011]在一实施例中,所述采用均匀对称量化方法对蛋白质语言模型的权重值进行量化包括:;;;;其中, 表示量化之后又反量化的近似权重值,表示蛋白质语言模型的权重值,b表示要量化到的bit数,N表示量化级别的数量,[r
l

,r
u

]表示第二截断范围,r
q
表示量化之后的权重值,clamp表示截断函数,s表示量化的比例因子,Z表示量化偏移值,表示取整函数,N代表量化级别的数量。
[0012]第二方面,本专利技术实施例提出一种蛋白质语言模型的量化装置,所述装置包括:第一量化模块,用于采用均匀对称量化方法对蛋白质语言模型的权重值进行量
化;第二量化模块,用于通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围,并将所述第一截断范围划分为多个量化区间;通过分段线性量化方法分别对所述多个量化区间的激活值进行量化;模型配置模块,用于基于量化后的权重值以及量化后的激活值,配置得到量化后的蛋白质语言模型。
[0013]第三方面,本专利技术实施例提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行第一方面所述的步骤。
[0014]第四方面,本专利技术实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的步骤。
[0015]相比于现有技术,上述方法、装置、计算机设备和存储介质,采用均匀对称量化方法对蛋白质语言模型的权重值进行量化,通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围,并将所述第一截断范围划分为多个量化区间,通过分段线性量化方法分别对所述多个量化区间的激活值进行量化;基于量化后的权重值以及量化后的激活值,配置得到量化后的蛋白质语言模型。本专利技术提出的量化方法降低了模型量化的精度损失,在保证量化后模型预测精度的同时,减少模型的内存占用,提升模型推理速度。
附图说明
[0016]图1为一实施例中终端的结构示意图;图2为一实施例中蛋白质语言模型的量化方法的流程示意图;图3为一实施例中权重值量化方法的流程示意图;图4为一实施例中量化区间确定方法的流程示意图;图5为一实施例中蛋白质语言模型的量化装置的模块连接示意图;图6为一实施例中计算机设备的结构示意图。
具体实施方式
[0017]为了更清楚地说明本专利技术的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本专利技术应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0018]如本专利技术和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
[0019]虽然本专利技术对根据本专利技术的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在计算设备和/或处理器上。模块仅是说明性的,并且系统和方法的不同方面可以使用不同模块。
[0020]应当理解的是,当单元或模块被描述为“连接”、“耦接”其它单元、模块或块时,其
可以指直接连接或耦接,或者与其它单元、模块或块通信,或者可以存在中间的单元、模块或块,除非上下文明确指明其它方式。本文所使用的术语“和/或”可包括一个或多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质语言模型的量化方法,其特征在于,所述方法包括:采用均匀对称量化方法对蛋白质语言模型的权重值进行量化;通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围,并将所述第一截断范围划分为多个量化区间;通过分段线性量化方法分别对所述多个量化区间的激活值进行量化;基于量化后的权重值以及量化后的激活值,配置得到量化后的蛋白质语言模型。2.根据权利要求1所述的方法,其特征在于,所述通过校准数据集确定所述蛋白质语言模型的激活值的第一截断范围包括:选取校准数据集输入给蛋白质语言模型,以获取模型每一个张量对应激活值的第一截断范围[r
l
,r
u
];其中,;;其中,表示对应张量激活值最小topk的中位数,表示对应张量激活值最大topk的中位数,r表示对应张量激活值。3.根据权利要求1所述的方法,其特征在于,所述将所述第一截断范围划分为多个量化区间包括:基于至少两个断点将所述第一截断范围划分为至少两个第一截断子范围;基于各所述第一截断子范围的中心,将各所述第一截断子范围划分为至少两个量化区间。4.根据权利要求3所述的方法,其特征在于,所述断点的数量为两个分别为第一断点p
l
和第二断点p
u
,所述第一断点p
l
的确定方式如下:;所述第二断点p
u
的确定方式如下:;其中,m和n表示超参数,r
l
表示第一截断范围的最小值,r
u
表示第一截断范围的最大值。5.根据权利要求4所述的方法,其特征在于,所述通过分段线性量化方法分别对所述多个量化区间的激活值进行量化包括:;其中,b表示激活值量化的b...

【专利技术属性】
技术研发人员:彭爽杨非张逸孙柠
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1