数据处理装置、方法、电子设备和存储介质制造方法及图纸

技术编号:38204626 阅读:12 留言:0更新日期:2023-07-21 16:50
本公开提供了一种数据处理装置,涉及人工智能技术领域,尤其涉及芯片技术领域和深度学习技术领域,可以应用于信息推荐等场景下。该装置包括:内部存储单元,包括第一存储空间和第二存储空间;以及处理器,配置为:获取用于目标操作的第i嵌入表信息,其中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,N为与目标操作相对应的总处理批次;将第i

【技术实现步骤摘要】
数据处理装置、方法、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及芯片
和深度学习
,可以应用于信息推荐等场景下。更具体地,本公开提供了一种数据处理装置、方法、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,深度学习技术可以应用于视频推荐、购物搜索、广告推送等各种应用场景。

技术实现思路

[0003]本公开提供了一种数据处理装置、方法、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种数据处理装置,该装置包括:内部存储单元,包括第一存储空间和第二存储空间;以及处理器,配置为:获取用于目标操作的第i嵌入表信息,其中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i

1批次嵌入数据从第一存储空间加载至第二存储空间,以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间;以及从第二存储空间加载第i

1批次嵌入数据,以利用第i

1批次嵌入数据执行目标操作。
[0005]根据本公开的另一方面,提供了一种电子设备,包括本公开提供的数据处理装置。
[0006]根据本公开的另一方面,提供了一种数据处理方法,该方法包括:获取用于目标操作的第i嵌入表信息,其中,第i嵌入表信息表征了用于目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i

1批次嵌入数据从内部存储单元的第一存储空间加载至内部存储单元的第二存储空间,以及根据第i嵌入表信息,将第i批次嵌入数据从外部存储单元加载至第一存储空间;以及从第二存储空间加载第i

1批次嵌入数据,以利用第i

1批次嵌入数据执行目标操作。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开提供的方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开的一个实施例的数据处理装置的示意框图;
[0013]图2A和图2B是根据本公开的一个实施例的数据处理装置和外部存储单元的示意图;
[0014]图3是根据本公开的一个实施例的电子设备的示意图
[0015]图4是根据本公开的一个实施例的数据处理方法的流程图;以及
[0016]图5是根据本公开的一个实施例的可以应用数据处理方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在各种深度学习模型中,深度推荐模型(Deep Learning Recommendation Model,DLRM)可以应用于视频推荐、购物搜索和广告推荐等业务场景,可以提高用户体验,也可以实现业务价值。
[0019]可以将大量经用户授权的特征数据和业务场景相关的业务数据作为训练样本,频繁且迭代地根据不同的需求来训练深度推荐模型。在训练样本的数量较大的情况下,深度推荐模型的训练成本较高。在深度推荐模型运行过程中,可以在嵌入表(Embedding Table)中进行查表(1ookup),再进行之后的计算。在深度推荐模型所需的总存储空间中,嵌入表所需的存储空间例如可以占该总存储空间的99%以上。而在深度推荐模型的总运算量中,与嵌入表相关的运算量例如可以占该总运算量的1%。
[0020]图形处理器(Graphics Processing Unit,GPU)可以具有高速存储单元(High Bandwidth Memory)和较强的计算能力,可以作为训练深度推荐模型的主流硬件设备。然而,随着深度推荐模型的不断改进,嵌入表的数据量不断增加。图形处理器的高速存储单元容量可能会小于嵌入表所需的容量。
[0021]在一些实施例中,可以将深度推荐模型拆分,得到多个深度推荐子模型。将多个深度推荐子模型分别部署至多个硬件设备。由此,多个硬件设备可以分别存储嵌入表的一部分,以满足嵌入表所需的存储资源开销。然而,多个硬件设备的资源开销可能是很不均衡的。有些硬件设备的硬件资源被充分利用,有些硬件设备的硬件资源难以被充分利用。
[0022]在一些实施例中,可以利用中央处理器(Central Processing Unit,CPU)执行与嵌入表相关的操作。中央处理器获得的处理结果可以发送给图形处理器,以便图形处理器执行后续操作。然而,对于与嵌入表相关的操作,中央处理器的运算能力低于图形处理器。利用中央处理器和图形处理器共同执行深度推荐模型的相关操作,可能导致模型的性能较低。此外,中央处理器与图形处理器之间的数据传输也具有较高的通讯开销。
[0023]在一些实施例中,可以缓存嵌入表中的一些嵌入数据,使得图形处理器可以完成大部分的操作。然而,若模型的待处理数据未命中该嵌入数据,可以中断运算,从原嵌入表中读取待处理数据命中的目标嵌入数据,导致模型运行效率降低。
[0024]为了提高人工智能芯片或图形处理器的性能,本公开提供了一种数据处理装置,下面将进行说明。
[0025]图1是根据本公开的一个实施例的数据处理装置的示意框图。
[0026]如图1所示,装置100可以包括存储单元110和处理器120。
[0027]内部存储单元110,可以为图形处理器的显存单元,也可以是神经网络处理器(Neural network Processing Unit,NPU)的存储单元,也可以是昆仑芯(XPU)的存储单元。
[0028]在本公开实施例中,存储单元110可以包括第一存储空间和第二存储空间。第一存储空间和第二存储空间可以分别用于存储嵌入表的嵌入数据。
[0029]处理器120,可以为图形处理器,也可以为神经网络处理器等各种处理器。处理器120可以从第二存储空间加载嵌入数据来执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理装置,包括:内部存储单元,包括第一存储空间和第二存储空间;以及处理器,配置为:获取用于目标操作的第i嵌入表信息,其中,所述第i嵌入表信息表征了用于所述目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i

1批次嵌入数据从所述第一存储空间加载至所述第二存储空间,以及根据所述第i嵌入表信息,将所述第i批次嵌入数据从外部存储单元加载至所述第一存储空间;以及从所述第二存储空间加载所述第i

1批次嵌入数据,以利用第i

1批次嵌入数据执行所述目标操作。2.根据权利要求1所述的装置,其中,所述处理器还配置为:利用第i

1批次嵌入数据执行所述目标操作,得到第i

1处理结果;以及根据第1处理结果至第N处理结果,得到所述目标操作的处理结果。3.根据权利要求1所述的装置,其中,所述第一存储空间的容量与所述第二存储空间的容量相同。4.根据权利要求1所述的装置,其中,所述处理器还配置为:将第1批次嵌入数据从所述外部存储单元加载至所述第一存储空间。5.根据权利要求1至4中任一项所述的装置,其中,第i嵌入表信息包括至少一个第i嵌入表索引;所述处理器还配置为:在确定与所述目标操作相对应的N批次嵌入数据被存储至所述外部存储单元的情况下,将所述N批次嵌入数据中与所述至少一个第i嵌入表索引相对应的第i批次嵌入数据加载至所述第一存储空间。6.根据权利要求1所述的装置,其中,所述目标操作包括嵌入操作。7.一种电子设备,包括根据权利要求1至6中任一项所述的数据处理装置。8.一种数据处理方法,包括:获取用于目标操作的第i嵌入表信息,其中,所述第i嵌入表信息表征了用于所述目标操作的第i批次嵌入数据,i为大于1且小于或等于N的整数,N为与目标操作相对应的总处理批次;将第i

...

【专利技术属性】
技术研发人员:刘佳周保玉
申请(专利权)人:昆仑芯北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1