全连接层的数据处理方法及系统、电子设备及介质技术方案

技术编号:35266506 阅读:33 留言:0更新日期:2022-10-19 10:29
本发明专利技术公开了一种全连接层的数据处理方法及系统、电子设备及介质,该数据处理方法包括:获取BERT模型全连接层的输入数据;对输入数据进行K

【技术实现步骤摘要】
全连接层的数据处理方法及系统、电子设备及介质


[0001]本申请涉及数据处理领域,具体涉及一种全连接层的数据处理方法及系统、电子设备及介质。

技术介绍

[0002]如何加速BERT(Bidirectional Encoder Representation from Transformers,一种预训练的语言表征模型)模型的训练及推理速度是数据处理领域一直关注的问题。现在有很多方法致力于加速BERT模型的推理速度,除了可以利用量化、剪枝及蒸馏等方法将BERT模型压缩为小模型外,还可以从BERT模型本身的算子出发。在BERT模型中的全连接层其本质是矩阵乘法操作。矩阵乘法需要大量的乘加运算,导致消耗大量内存以使得矩阵乘法耗时较大,如果能加速矩阵乘法就能加速BERT模型的推理速度。
[0003]目前已经有很多加速矩阵乘法的方法,如构建高速矩阵乘法库,利用硬件加速特定矩阵的乘法运算,矩阵稀疏化,因子化等。但以上矩阵乘法算法通常是使用线性函数对矩阵A和矩阵B进行预处理,并将问题简化为低维空间中的精确矩阵乘法。这些方法基本是孤独地考虑每个矩阵并通常应用在大矩阵上,还是需要进行矩阵乘法的计算,加速效果有限。

技术实现思路

[0004]本专利技术要解决的技术问题是为了克服现有技术中加速BERT模型全连接层的数据处理速度存在困难的缺陷,提供一种全连接层的数据处理方法及系统、电子设备及介质。
[0005]本专利技术是通过下述技术方案来解决上述技术问题:
[0006]本专利技术提供了一种全连接层的数据处理方法,所述数据处理方法包括:
[0007]获取BERT模型全连接层的输入数据;
[0008]对所述输入数据进行K

means聚类,得到K个目标质心;
[0009]按照预设规则,依次从所述输入数据中选出一个向量作为第一目标向量,查找与所述第一目标向量最接近的目标质心,并将所述目标质心作为所述第一目标向量的近似值,所述近似值用于替代所述第一目标向量进行所述BERT模型全连接层的输出数据的计算,直到得到所述输入数据中每一个向量的近似值。
[0010]优选地,所述对所述输入数据进行K

means聚类,得到K个目标质心的步骤具体包括:
[0011]从所述输入数据中选取K个向量作为初始质心;
[0012]按照预设规则,依次从所述输入数据中选出一个向量作为第二目标向量,分别计算所述第二目标向量和每个所述初始质心之间的相似度,并将所述第二目标向量与和所述第二目标向量之间的相似度最小的初始质心分为一类,直到将所述输入数据分类完毕;
[0013]重新计算分类后的每类向量的质心,得到K个新的质心;
[0014]计算损失函数的值,判断是否满足停止迭代的条件,若满足,则将所述K个新的质心作为所述K个目标质心;若不满足,则按照预设规则,依次从所述输入数据中选出一个向
量作为第三目标向量,分别计算所述第三目标向量和每个所述新的质心之间的相似度,并将所述第三目标向量与和所述第三目标向量之间的相似度最小的新的质心分为一类,直到将所述输入数据分类完毕,并返回所述重新计算每类的质心,得到K个新的质心的步骤。
[0015]优选地,所述数据处理方法还包括:
[0016]计算所述K个目标质心与所述BERT模型全连接层的权重的点积值,得到对应于所述K个目标质心的点积值;
[0017]将对应于所述第一目标向量的近似值的点积值作为所述第一目标向量与所述BERT模型全连接层的权重的点积值,记为近似点积值;
[0018]将得到的所述近似点积值相加,作为所述BERT模型全连接层的输出数据。
[0019]优选地,所述数据处理方法中根据欧氏距离、闵可夫斯基距离、余弦距离、K

L距离、曼哈顿距离以及Pearson相似系数中的至少一种计算所述相似度。
[0020]优选地,所述重新计算每个所述类的质心,得到K个新的质心的步骤具体包括:
[0021]计算所述每类向量的平均向量,并将所述平均向量作为所述新的质心。
[0022]优选地,所述停止迭代的条件包括:
[0023]损失函数的值小于预设阈值;或,
[0024]迭代的次数达到预设次数。
[0025]优选地,所述数据处理方法还包括:
[0026]建立数值查找表,其中,所述数值查表表用于存储所述K个目标质心;
[0027]所述依次从所述输入数据中选出一个向量作为第一目标向量,查找与所述第一目标向量最接近的目标质心的步骤中从所述数值查找表中查找获取所述目标质心。
[0028]本专利技术还提供了一种全连接层的数据处理系统,所述数据处理系统包括:
[0029]输入数据获取模块,用于获取BERT模型全连接层的输入数据;
[0030]目标质心获取模块,用于对所述输入数据进行K

means聚类,得到K个目标质心;
[0031]近似值获取模块,用于按照预设规则,依次从所述输入数据中选出一个向量作为第一目标向量,查找与所述第一目标向量最接近的目标质心,并将所述目标质心作为所述第一目标向量的近似值,所述近似值用于替代所述第一目标向量进行所述BERT模型全连接层的输出数据的计算,直到得到所述输入数据中每一个向量的近似值。
[0032]优选地,所述目标质心获取模块包括:
[0033]初始质心选择单元,用于从所述输入数据中选取K个向量作为初始质心;
[0034]第一分类单元,用于按照预设规则,依次从所述输入数据中选出一个向量作为第二目标向量,分别计算所述第二目标向量和每个所述初始质心之间的相似度,并将所述第二目标向量与和所述第二目标向量之间的相似度最小的初始质心分为一类,直到将所述输入数据分类完毕;
[0035]质心计算单元,用于重新计算分类后的每类向量的质心,得到K个新的质心;
[0036]第二分类单元,用于计算损失函数的值,判断是否满足停止迭代的条件,若满足,则将所述K个新的质心作为所述K个目标质心;若不满足,则按照预设规则,依次从所述输入数据中选出一个向量作为第三目标向量,分别计算所述第三目标向量和每个所述新的质心之间的相似度,并将所述第三目标向量与和所述第三目标向量之间的相似度最小的新的质心分为一类,直到将所述输入数据分类完毕,并返回所述质心计算单元。
[0037]优选地,所述数据处理系统还包括:
[0038]点积值获取模块,用于计算所述K个目标质心与所述BERT模型全连接层的权重的点积值,得到对应于所述K个目标质心的点积值;
[0039]近似点积值获取模块,用于将对应于所述第一目标向量的近似值的点积值作为所述第一目标向量与所述BERT模型全连接层的权重的点积值,记为近似点积值;
[0040]输出数据获取模块,用于将得到的所述近似点积值相加,作为所述BERT模型全连接层的输出数据。
[0041]优选地,所述数据处理系统中根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种全连接层的数据处理方法,其特征在于,所述数据处理方法包括:获取BERT模型全连接层的输入数据;对所述输入数据进行K

means聚类,得到K个目标质心;按照预设规则,依次从所述输入数据中选出一个向量作为第一目标向量,查找与所述第一目标向量最接近的目标质心,并将所述目标质心作为所述第一目标向量的近似值,所述近似值用于替代所述第一目标向量进行所述BERT模型全连接层的输出数据的计算,直到得到所述输入数据中每一个向量的近似值。2.如权利要求1所述的全连接层的数据处理方法,其特征在于,所述对所述输入数据进行K

means聚类,得到K个目标质心的步骤具体包括:从所述输入数据中选取K个向量作为初始质心;按照预设规则,依次从所述输入数据中选出一个向量作为第二目标向量,分别计算所述第二目标向量和每个所述初始质心之间的相似度,并将所述第二目标向量与和所述第二目标向量之间的相似度最小的初始质心分为一类,直到将所述输入数据分类完毕;重新计算分类后的每类向量的质心,得到K个新的质心;计算损失函数的值,判断是否满足停止迭代的条件,若满足,则将所述K个新的质心作为所述K个目标质心;若不满足,则按照预设规则,依次从所述输入数据中选出一个向量作为第三目标向量,分别计算所述第三目标向量和每个所述新的质心之间的相似度,并将所述第三目标向量与和所述第三目标向量之间的相似度最小的新的质心分为一类,直到将所述输入数据分类完毕,并返回所述重新计算每类的质心,得到K个新的质心的步骤。3.如权利要求1所述的全连接层的数据处理方法,其特征在于,所述数据处理方法还包括:计算所述K个目标质心与所述BERT模型全连接层的权重的点积值,得到对应于所述K个目标质心的点积值;将对应于所述第一目标向量的近似值的点积值作为所述第一目标向量与所述BERT模型全连接层的权重的点积值,记为近似点积值;将得到的所述近似点积值相加,作为所述BERT模型全连接层的输出数据...

【专利技术属性】
技术研发人员:王嘉欣吴鹏李健
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1