【技术实现步骤摘要】
本专利技术涉及集成电路,且特别涉及一种人工智能(artificialintelligence,ai)芯片及其归约方法。
技术介绍
1、在大模型训练和传统高性能计算(high performance computing,hpc)中存在着大量的归约(reduce)操作。归约是一种常见的算子,主要用于数据聚合和计算优化。它的核心作用是将多个计算节点上的数据进行归约(reduction),以减少数据传输量并提高计算效率。基于实际设计与应用,归约操作包括最大值归约、最小值归约、加总归约、均值归约或是其他归约算法。一般而言由于数据量大,归约操作需要较大的计算量、计算时间和数据交互。若将大量的数据全部交给单一个计算核进行归约操作,好处是可以极大减少不同计算核间数据交互的延迟(latency),但是其他计算核的计算资源不能被用来协助进行同一个归约操作,导致计算资源浪费和归约操作的计算时间加长。此外,传统归约结构是串行累加的,所以最后归约结果的数据累加精度会受串行累加的顺序的影响。传统归约没法保证顺序,所以会出现累加值随机波动的不稳定情况,这是人工智能训
...【技术保护点】
1.一种人工智能芯片,其特征在于,所述人工智能芯片包括:
2.根据权利要求1所述的人工智能芯片,其特征在于,所述归约单元包括:
3.根据权利要求2所述的人工智能芯片,其特征在于,所述累加器树以所述末层累加浮点数作为所述全局归约数据,以及所述累加器树将所述全局归约数据通过L2缓存回馈给所述多个计算核中的一个首计算核。
4.根据权利要求2所述的人工智能芯片,其特征在于,所述排序电路包括:
5.根据权利要求4所述的人工智能芯片,其特征在于,所述本地归约数据的每一个包括地址、本地归约浮点数与全局归约数据数量,所述排序控制器包括状
...【技术特征摘要】
1.一种人工智能芯片,其特征在于,所述人工智能芯片包括:
2.根据权利要求1所述的人工智能芯片,其特征在于,所述归约单元包括:
3.根据权利要求2所述的人工智能芯片,其特征在于,所述累加器树以所述末层累加浮点数作为所述全局归约数据,以及所述累加器树将所述全局归约数据通过l2缓存回馈给所述多个计算核中的一个首计算核。
4.根据权利要求2所述的人工智能芯片,其特征在于,所述排序电路包括:
5.根据权利要求4所述的人工智能芯片,其特征在于,所述本地归约数据的每一个包括地址、本地归约浮点数与全局归约数据数量,所述排序控制器包括状态表,所述状态表包括地址字段、全局归约数据数量字段与当下计数值字段,
6.根据权利要求5所述的人工智能芯片,其特征在于,所述状态表还包括数据掩码字段,
7.根据权利要求2所述的人工智能芯片,其特征在于,所述累加器树包括:
8.根据权利要求7所述的人工智能芯片,其特征在于,多个所述归约单元中的所述末层累加器将所述全局归约数据通过l2缓存回馈给所述多个计算核中的一个首计算核。
9.一种人工智能芯片的归约方法,其特征在于,所述归约方法包括:
10.根据权利要...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。