System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及处理逻辑、微处理器和相关联的指令集架构的领域,更具体地涉及用于具有可变精度输入操作数的融合乘-加操作的指令。
技术介绍
1、深度学习是一类机器学习算法。诸如深度神经网络之类的深度学习架构已被应用于多个领域,诸如,计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学以及药物设计。
2、推断和训练(用于深度学习的两种工具)正趋于低精度算术。使深度学习算法和计算的吞吐量最大化可辅助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。
3、四虚拟神经网络指令(qvnni)是在深度学习上下文中有用的一类融合乘-加(fma)操作。期望低精度qvnni操作引起足够的训练性能,低精度qvnni操作诸如其中权重低至2位或4位的使用8位激活的那些操作。但是,传统的cpu和gpu指令集架构对所有操作遵守32位通道并要求对称的操作数:两个输入具有相同精度,这限制了通过转向2位权重和4位权重来获得性能优势的能力。
技术实现思路
【技术保护点】
1.一种处理器,包括:
2.如权利要求1所述的处理器,其中,所述第一元素宽度是所述第二元素宽度的两倍。
3.如权利要求1或2所述的处理器,其中,所述第一源向量具有第一位宽度,并且所述第二源向量具有小于所述第一位宽度的第二位宽度。
4.如权利要求3所述的处理器,其中,所述第一位宽度是至少128位。
5.如权利要求1至4中的任一项所述的处理器,进一步包括:
6.如权利要求1至5中的任一项所述的处理器,其中,如果所述结果数据元素大于最大值,则所述SIMD执行电路用于使所述结果数据元素饱和至预定义值。
7.如权利要求1至6中的任一项所述的处理器,其中,所述第一元素宽度和所述第二元素宽度由所述操作码的字段指示。
8.如权利要求1至7中的任一项所述的处理器,其中,当所述操作码的部分被设置为第一值时,所述第二元素宽度是第一宽度,并且当所述操作码的所述部分被设置为第二值时,所述第二元素宽度是更窄的第二宽度。
9.如权利要求1至8中的任一项所述的处理器,其中,所述累加数据元素具有大于所述第一元素宽度且大
10.一种计算机实现的方法,包括:
11.一种计算机程序,包括指令,当所述计算机程序由计算机执行时,所述指令使所述计算机执行如权利要求10所述的方法。
12.一种计算机可读介质,包括指令,所述指令在由计算机执行时使所述计算机执行如权利要求10所述的方法。
13.一种处理器核,包括:
14.如权利要求13所述的处理器核,其特征在于,所述向量单元是16宽向量处理单元(VPU),所述VPU执行整型、单精度浮点以及双精度浮点指令中的一个或多个。
15.如权利要求14所述的处理器核,其特征在于,所述VPU通过混合单元支持对寄存器输入的混合、通过数值转换单元支持数值转换,并通过复制单元支持对存储器输入的复制。
16.一种方法,包括:
...【技术特征摘要】
1.一种处理器,包括:
2.如权利要求1所述的处理器,其中,所述第一元素宽度是所述第二元素宽度的两倍。
3.如权利要求1或2所述的处理器,其中,所述第一源向量具有第一位宽度,并且所述第二源向量具有小于所述第一位宽度的第二位宽度。
4.如权利要求3所述的处理器,其中,所述第一位宽度是至少128位。
5.如权利要求1至4中的任一项所述的处理器,进一步包括:
6.如权利要求1至5中的任一项所述的处理器,其中,如果所述结果数据元素大于最大值,则所述simd执行电路用于使所述结果数据元素饱和至预定义值。
7.如权利要求1至6中的任一项所述的处理器,其中,所述第一元素宽度和所述第二元素宽度由所述操作码的字段指示。
8.如权利要求1至7中的任一项所述的处理器,其中,当所述操作码的部分被设置为第一值时,所述第二元素宽度是第一宽度,并且当所述操作码的所述部分被设置为第二值时,所述第二元素宽度...
【专利技术属性】
技术研发人员:D·达斯,N·K·梅勒普迪,M·杜塔,A·库马,D·穆迪盖雷,A·孔杜,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。