基于机器学习的矩阵运算选择器的系统和方法技术方案

技术编号：40496913 阅读：9 留言：0更新日期：2024-02-26 19:25

公开了用于矩阵运算选择器的系统和方法。选择引擎接收矩阵作为输入，并从矩阵中提取一个或多个特征。机器学习模型基于一个或多个特征选择动作。该动作用于基于矩阵执行矩阵运算，并且被预测为满足关于奖励的标准。将该动作应用于矩阵运算，并且基于该动作的应用来计算奖励。基于该奖励重新训练机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】

根据本公开的实施例的一个或多个方面涉及矩阵运算，更具体地，涉及基于机器学习的矩阵运算选择器。

技术介绍

1、诸如机器学习、图形分析、图像处理、计算机视觉等的计算应用经常需要矩阵计算。随着计算应用变得越来越复杂并利用更大的数据集，矩阵计算的运行也变得复杂。

2、
技术介绍
部分中公开的上述信息仅用于增强对本公开的背景的理解，因此，其可能包含不构成现有技术的信息。

技术实现思路

1、本公开的实施例针对一种计算机实现的方法。该方法包括接收矩阵作为输入，并从该矩阵中提取一个或多个特征。机器学习模型基于一个或多个特征选择动作。该动作是用于基于矩阵执行矩阵运算，并且被预测为满足关于奖励(reward)的标准。将该动作应用于矩阵运算，并且基于该动作的应用来计算奖励。基于奖励重新训练机器学习模型。

2、在一些实施例中，矩阵是稀疏矩阵。

3、在一些实施例中，从矩阵中提取的一个或多个特征包括以下至少一个：行的数量(m)、列的数量(n)、非零值的数量(nnz)、对角线的数量(ndiags)、具有非零值的对角线与总对角线的比率(ntdiags_ratio)、每行非零值的平均数量(aver_rd)、每行非零值的最大数量(max_rd)、每行非零值的最小数量(min_rd)、每行非零值的数量的偏差(dev_rd)、对角线数据结构中非零值的比率(er_dia)、当矩阵的项以列主顺序存储在密集数组中时非零值的比率(er_ell)、行打包结构中非零值的比率(er_rd)、相邻行的nn

4、在一些实施例中，该动作包括为加速矩阵运算而要调用的计算内核。

5、在一些实施例中，机器学习模型被进一步训练以选择用于执行矩阵运算的超参数的值。

6、在一些实施例中，矩阵运算包括稀疏矩阵与密集矩阵乘法(spmm)。

7、在一些实施例中，矩阵运算包括通用矩阵乘法运算(gemm)。

8、在一些实施例中，机器学习模型包括深度强化学习模型。

9、在一些实施例中，奖励包括在对矩阵运算应用动作中实现的加速。

10、在一些实施例中，响应于密集矩阵运算比对矩阵运算应用动作更快，奖励是负奖励。

11、在一些实施例中，该标准是奖励的最大化。

12、本公开的实施例还涉及一种包括处理器和存储器的系统。存储器存储指令，当处理器执行这些指令时，使处理器：接收矩阵作为输入；从矩阵中提取一个或多个特征；基于所述一个或多个特征通过机器学习模型选择动作，其中所述动作是用于基于所述矩阵执行矩阵运算，其中所述动作被预测为满足关于奖励的标准；将所述动作应用于矩阵运算；基于所述动作的应用来计算奖励；并且基于奖励重新训练机器学习模型。

13、当参考以下详细描述、所附权利要求和附图考虑时，将更全面地理解本公开的实施例的这些和其他特征、方面和优点。当然，本专利技术的实际范围由所附权利要求来限定。

本文档来自技高网...

【技术保护点】

1.一种计算机实现的方法，包括：

2.根据权利要求1所述的方法，其中，所述矩阵是稀疏矩阵。

3.根据权利要求1所述的方法，其中，从所述矩阵提取的所述一个或多个特征包括以下中的至少一个：行的数量(M)、列的数量(N)、非零值的数量(NNZ)、对角线的数量(Ndiags)、具有非零值的对角线与总对角线的比率(NTdiags_ratio)、每行非零值的平均数量(aver_RD)、每行非零值的最大数量(max_RD)、每行非零值的最小数量(min_RD)、每行非零值的数量的偏差(dev_RD)、对角线数据结构中非零值的比率(ER_DIA)、当所述矩阵的项以列主顺序存储在密集数组中时非零值的比率(ER_ELL)、行打包结构中非零值的比率(ER_RD)、相邻行的NNZ之间的平均差(row_bounce)、相邻列的NNZ之间的平均差(col_bounce)、所述稀疏矩阵中非零值的密度(d)，或元素的非零邻居的平均数量(mean_neighbor)。

4.根据权利要求1所述的方法，其中，所述动作包括为加速所述矩阵运算而要调用的计算内核。

5.根据权

6.根据权利要求1所述的方法，其中，所述矩阵运算包括稀疏矩阵与密集矩阵乘法(SpMM)。

7.根据权利要求1所述的方法，其中，所述矩阵运算包括通用矩阵乘法运算(GeMM)。

8.根据权利要求1所述的方法，其中，所述机器学习模型包括深度强化学习模型。

9.根据权利要求1所述的方法，其中，所述奖励包括在对所述矩阵运算应用所述动作中实现的加速。

10.根据权利要求1所述的方法，其中，响应于密集矩阵运算比对所述矩阵运算应用所述动作更快，所述奖励是负奖励。

11.根据权利要求1所述的方法，其中，所述标准是所述奖励的最大化。

12.一种系统，包括：

13.根据权利要求12所述的系统，其中，从所述矩阵提取的所述一个或多个特征包括以下中的至少一个：行的数量(M)、列的数量(N)、非零值的数量(NNZ)、对角线的数量(Ndiags)、具有非零值的对角线与总对角线的比率(NTdiags_ratio)、每行非零值的平均数量(aver_RD)、每行非零值的最大数量(max_RD)、每行非零值的最小数量(min_RD)、每行非零值的数量的偏差(dev_RD)、对角线数据结构中非零值的比率(ER_DIA)、当所述矩阵的项以列主顺序存储在密集数组中时非零值的比率(ER_ELL)、行打包结构中非零值的比率(ER_RD)、相邻行的NNZ之间的平均差(row_bounce)、相邻列的NNZ之间的平均差(col_bounce)、所述稀疏矩阵中非零值的密度(d)，或元素的非零邻居的平均数量(mean_neighbor)。

14.根据权利要求12所述的系统，其中，所述动作包括为加速所述矩阵运算而要调用的计算内核。

15.根据权利要求12所述的系统，其中，所述机器学习模型被进一步训练以选择用于执行所述矩阵运算的超参数的值。

16.根据权利要求12所述的系统，其中，所述矩阵是稀疏矩阵，并且所述矩阵运算包括稀疏矩阵与密集矩阵乘法(SpMM)或通用矩阵乘法运算(GeMM)。

17.根据权利要求12所述的系统，其中，所述机器学习模型包括深度强化学习模型。

18.根据权利要求12所述的系统，其中，所述奖励包括在对所述矩阵运算应用所述动作中实现的加速。

19.根据权利要求12所述的系统，其中，响应于密集矩阵运算比对所述矩阵运算应用所述动作更快，所述奖励是负奖励。

20.根据权利要求12所述的系统，其中，所述标准是所述奖励的最大化。

...

【技术特征摘要】

1.一种计算机实现的方法，包括：

2.根据权利要求1所述的方法，其中，所述矩阵是稀疏矩阵。

3.根据权利要求1所述的方法，其中，从所述矩阵提取的所述一个或多个特征包括以下中的至少一个：行的数量(m)、列的数量(n)、非零值的数量(nnz)、对角线的数量(ndiags)、具有非零值的对角线与总对角线的比率(ntdiags_ratio)、每行非零值的平均数量(aver_rd)、每行非零值的最大数量(max_rd)、每行非零值的最小数量(min_rd)、每行非零值的数量的偏差(dev_rd)、对角线数据结构中非零值的比率(er_dia)、当所述矩阵的项以列主顺序存储在密集数组中时非零值的比率(er_ell)、行打包结构中非零值的比率(er_rd)、相邻行的nnz之间的平均差(row_bounce)、相邻列的nnz之间的平均差(col_bounce)、所述稀疏矩阵中非零值的密度(d)，或元素的非零邻居的平均数量(mean_neighbor)。

4.根据权利要求1所述的方法，其中，所述动作包括为加速所述矩阵运算而要调用的计算内核。

5.根据权利要求1所述的方法，其中，进一步训练所述机器学习模型以选择用于执行所述矩阵运算的超参数的值。

6.根据权利要求1所述的方法，其中，所述矩阵运算包括稀疏矩阵与密集矩阵乘法(spmm)。

7.根据权利要求1所述的方法，其中，所述矩阵运算包括通用矩阵乘法运算(gemm)。

8.根据权利要求1所述的方法，其中，所述机器学习模型包括深度强化学习模型。

9.根据权利要求1所述的方法，其中，所述奖励包括在对所述矩阵运算应用所述动作中实现的加速。

10.根据权利要求1所述的方法，其中，响应于密集矩阵运算比对所述矩阵运算应用所述动作更快，所述奖励是负奖励。

11.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：宋欣烜，D·索斯利，J·H·哈松，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人