融合分支结构的装置、板卡、方法及可读存储介质制造方法及图纸

技术编号:33990330 阅读:18 留言:0更新日期:2022-07-02 09:31
本发明专利技术涉及根据融合策略动态融合神经网络的分支结构的装置、板卡、方法及可读存储介质,其中本发明专利技术的计算装置包括在集成电路装置中,该集成电路装置包括通用互联接口和其他处理装置。计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。集成电路装置还可以包括存储装置,存储装置分别与计算装置和其他处理装置连接,用于计算装置和其他处理装置的数据存储。的数据存储。的数据存储。

【技术实现步骤摘要】
融合分支结构的装置、板卡、方法及可读存储介质


[0001]本专利技术一般地涉及神经网络领域。更具体地,本专利技术涉及根据融合策略动态融合神经网络的分支结构的装置、板卡、方法及可读存储介质。

技术介绍

[0002]神经网络是按照一定规则连接起来的多个神经元系统,大致上是由以下四种层结构所组成:输入层、卷积层(convolution layer)、池化层(pooling layer)、全连接层(fully connected layer)。
[0003]输入层是自输入数据中截取部分信息,转化成特征矩阵方式呈现,其中载有对应该部分信息的特征。卷积层配置成接收来自输入层的特征矩阵,通过卷积操作对输入数据进行特征抽取。卷积层在实际运用时可以建制多层卷积层。池化层配置成对数据的某一个区域用一个值代替,这值通常是该区域所有数值里的最大值或平均值。通过池化,在不至于损失过多信息的前提下,可以缩减模型大小、提高计算速度。全连接层在整个卷积神经网络中起到分类器的作用,相当于特征空间变换,把前面所有有用的信息提取整合,基于不同的分类做信息比对,借以判断输入数据是否相似于比对的标的。
[0004]随着科技的发展,神经网络的层数越来越多,结构也越来越复杂,现今已经开发出许多带有分支结构的神经网络模型,例如ResNet模型。具有分支结构的模型在计算时会耗去大量资源,同时延迟运算时间。
[0005]因此,一种减少神经网络模型分支结构的输入/输出访问的机制是人工智能领域中迫切需要的。

技术实现思路

[0006]为了至少部分地解决
技术介绍
中提到的技术问题,本专利技术的方案提供了一种根据融合策略动态融合神经网络的分支结构的装置、板卡、方法及可读存储介质。
[0007]在一个方面中,本专利技术揭露一种根据融合策略动态融合神经网络的分支结构的集成电路装置,包括处理装置及计算装置。处理装置用以根据所述分支结构,建立拓扑序列,以所述拓扑序列的起始层为基准进行融合,排查所述融合策略内的规则,以建立模板融合单元。计算装置用以根据所述模板融合单元执行神经网络计算。
[0008]在另一个方面,本专利技术揭露一种板卡,包括根据前述的集成电路装置。
[0009]在另一个方面,本专利技术揭露一种根据融合策略动态融合神经网络的分支结构的方法,包括:根据所述分支结构,建立拓扑序列;以所述拓扑序列的起始层为基准进行融合,排查所述融合策略内的规则,以建立模板融合单元;以及根据所述模板融合单元执行神经网络计算。
[0010]另一个方面,本专利技术揭露一种计算机可读存储介质,其上存储有根据融合策略动态融合神经网络的分支结构的计算机程序代码,当所述计算机程序代码由处理装置运行时,执行前述的方法。
[0011]本专利技术对分支结构进行融合以产生模板融合单元,模板融合单元中首层的输入和末层的输出作为模板融合单元与片外内存的交互数据,期间各层的计算皆不需要访问片外内存,大大减少片上片外的输入/输出访问频率。
附图说明
[0012]通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,并且相同或对应的标号表示相同或对应的部分其中:
[0013]图1是示出本专利技术实施例的板卡的结构图;
[0014]图2是示出本专利技术实施例的集成电路装置的结构图;
[0015]图3是示出本专利技术实施例的计算装置的内部结构示意图;
[0016]图4是示出本专利技术实施例的处理器核的内部结构示意图;
[0017]图5是示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图;
[0018]图6是示出AlexNet模型的示意图;
[0019]图7是示出一种示例性地神经网络模型的示意图;
[0020]图8是示出本专利技术实施例的两个卷积层融合在一起的示意图;
[0021]图9是示出NCHW与NHWC的格式示意图;
[0022]图10是示出本专利技术实施例利用模板融合单元执行神经网络计算的流程图;
[0023]图11是示出本专利技术实施例根据融合策略动态融合神经网络的流程图;
[0024]图12是示出本专利技术实施例利用模板融合单元执行神经网络计算的流程图;
[0025]图13是示出示例性的神经网络模型片段;
[0026]图14是示出本专利技术实施例分支结构的拓扑序列的示意图;
[0027]图15是示出本专利技术实施例的长链结构还原成分支结构的示意图;
[0028]图16是示出另一种示例性的神经网络模型片段;
[0029]图17是示出本专利技术另一个实施例分支结构的拓扑序列的示意图;以及
[0030]图18是示出本专利技术另一个实施例融合神经网络的分支结构的流程图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]应当理解,本专利技术的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本专利技术的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0033]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本专利技术。如在本专利技术说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一
步理解,在本专利技术说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0034]如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
[0035]下面结合附图来详细描述本专利技术的具体实施方式。
[0036]神经网络是由输入层、卷积层、激活函数、池化层、全连接层所组成,少则数层,多则上百层,每层执行一个算子,例如卷积层执行卷积算子,有多少层便需要执行多少算子。在本专利技术中,当提及特定层时,便表示该层相对应的算子。
[0037]在进行神经网络计算时,输入信息和模型各层的输出结果在每次推理计算时是不同的,它们被视为变量数据,变量数据一般都是以特征图(矩阵)来表现的,在本专利技术中,整个神经网络模型的输入信息和模型各层的输入图统称为特征图,一旦特征图加载到片上存储器部件上,在本专利技术中称为片上单元图。训练网络模型的参数在训练稳定之后通常不会频繁改动,或是网络拓扑结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种根据融合策略动态融合神经网络的分支结构的集成电路装置,包括:处理装置,用以:根据所述分支结构,建立拓扑序列;以及以所述拓扑序列的起始层为基准进行融合,排查所述融合策略内的规则,以建立模板融合单元;以及计算装置,用以根据所述模板融合单元执行神经网络计算。2.根据权利要求1所述的集成电路装置,其中所述处理装置在建立所述拓扑序列时,用以识别所述分支结构的始点与终点,所述处理装置设定所述始点为所述起始层。3.根据权利要求2所述的集成电路装置,其中所述处理装置在建立所述拓扑序列时,还用以:设定所述分支结构的始点为所述拓扑序列的始点;设定所述分支结构的终点为所述拓扑序列的终点。4.根据权利要求3所述的集成电路装置,其中所述处理装置在建立所述拓扑序列时,还用以:判断所述分支结构是否存在子分支结构,如是,则:识别所述子分支结构的始点与终点;依特定顺序排列所述子分支结构中的始点、终点及层。5.根据权利要求4所述的集成电路装置,其中所述处理装置在依特定顺序排列所述子分支结构中的始点、终点及层时,还用以:比较所述子分支结构中的子分支上的层数;以及依层数数量由多至少排列所述子分支的层。6.根据权利要求4所述的集成电路装置,其中所述处理装置在依特定顺序排列所述子分支结构中的始点、终点及层时,还用以:比较所述子分支结构中的子分支上的层数;以及依层数数量由少至多排列所述子分支的层。7.根据权利要求4所述的集成电路装置,其中所述计算装置包括多个集群,每个集群包括共享存储单元,所述处理装置还用以判断所述模板融合单元是否包括所述子分支结构的终点;如否,所述计算装置将所述模板融合单元中,所述子分支结构中各子分支最末层的中间结果存储在所述共享存储单元中。8.根据权利要求4所述的集成电路装置,其中所述计算装置包括多个集群,每个集群包括多个处理器核,每个处理器核包括神经元存储单元,所述处理装置还用以判断所述模板融合单元是否包括所述子分支结构的终点;如否,所述计算装置将所述模板融合单元中,所述子分支结构中各子分支最末层的中间结果存储在所述神经元存储单元中。9.根据权利要求2所述的集成电路装置,其中所述计算装置包括多个集群,每个集群包括共享存储单元,所述处理装置还用以判断所述模板融合单元是否包括所述分支结构的终点;如否...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:中科寒武纪科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1