【技术实现步骤摘要】
运算单元架构、运算单元丛集及卷积运算的执行方法
[0001]本专利技术关于人工智能,且涉及一种运行深度神经网络的人工智能加速器。
技术介绍
[0002]深度神经网络(Deep Neural Network,DNN)近年来发展迅速。应用DNN进行影像辨识的精确度也逐渐提高,甚至比人类辨识得更为精准。为了配合DNN的计算需求,人工智能加速器(即运行DNN模型的处理器)必须提升硬件效能。从穿戴装置、行动通信装置以至于自驾车、云端服务器所用的人工智能系统,其所需的运算量随着装置规模而指数性成长。
[0003]一般而言,DNN专用的处理器须满足计算力与输入输出频宽两方面的需求。增加运算单元(Processing Element,PE)的数量理论上可提升运算力,然而也需要一个适用于大量运算单元的数据网络架构才能将输入数据实时地送入每一个运算单元。对于一个运算单元,其电路面积中占最大比例部分的是储存元件,其次才是控制逻辑与运算逻辑。考虑到大量运算单元所伴随的功耗与电路面积,如何设计良好的数据传输路径,借此减少储存元件的用量成为设计 ...
【技术保护点】
【技术特征摘要】
1.一种运算单元架构,适用于一卷积运算,该架构包括:多个运算单元,该些运算单元中具有一第一运算单元及一第二运算单元,该第一运算单元及该第二运算单元至少依据一共享数据进行该卷积运算;以及一延迟伫列,连接该第一运算单元及该第二运算单元,该延迟伫列接收该第一运算单元传送的该共享数据,并在接收该共享数据且经过一延迟周期后将该共享数据传送至该第二运算单元。2.如权利要求1所述的运算单元架构,其中,该些运算单元中具有另一第二运算单元,该第二运算单元及该另一第二运算单元至少依据该共享数据进行该卷积运算;以及该运算单元架构还包括另一延迟伫列,该另一延迟伫列连接该第二运算单元及该另一第二运算单元,该另一延迟伫列接收该第二运算单元传送的该共享数据,并在接收该共享数据且经过该延迟周期后将该共享数据传送至该另一第二运算单元。3.如权利要求1所述的运算单元架构,其中,该延迟伫列的储存空间不小于该卷积运算的步幅。4.一种运算单元丛集,适用于一卷积运算,该丛集包括:一第一运算群,具有多个第一运算单元;一第二运算群,具有多个第二运算单元;一汇流排,连接该第一运算群及该第二运算群,该汇流排提供多个共享数据至每一该些第一运算单元;以及多个延迟伫列,该些延迟伫列中的一者连接该些第一运算单元中的一者及该些第二运算单元中的一者,该些延迟伫列中的另一者连接该些第二运算单元的二者,且每一该些延迟伫列传递该些共享数据中的一者;其中该第一运算群中的每一该些第一...
【专利技术属性】
技术研发人员:陈耀华,严裕翔,谢宛珊,黄稚存,卢俊铭,刘靖家,
申请(专利权)人:财团法人工业技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。