融合神经元模型、神经网络结构及训练、推理方法、存储介质和设备技术

技术编号:27744564 阅读:25 留言:0更新日期:2021-03-19 13:38
本发明专利技术涉及人工神经元及神经网络,具体涉及一种融合神经元模型、神经网络结构及其推理方法和训练方法、计算机可读存储介质及计算机设备,融合神经元模型的每个突触连接权值是任意一个连续可导的非线性的函数,在突触权值上实现线性到非线性的映射,神经网络结构以融合神经元模型作为基本组成单位,构成层次化结构,推理方法是将输入数据代入连接的非线性权值函数中,计算出连接加权结果,再将该神经元所有的加权结果求和,直接传递到下一级神经元,依次前向传递,最后得到识别结果,训练方法是通过反向传播算法和梯度下降算法来优化神经元模型的参数,计算机可读存储介质及计算机设备能够实现推理方法和训练方法的具体步骤。

【技术实现步骤摘要】
融合神经元模型、神经网络结构及训练、推理方法、存储介质和设备
本专利技术涉及人工神经元及神经网络,具体涉及一种融合神经元模型、神经网络结构及其推理方法和训练方法、计算机可读存储介质及计算机设备。
技术介绍
在新科技革命浪潮的推动下,智能化成为未来社会形态演进的必然趋势,人工智能技术在信息化时代中发挥着越来越重要的作用。以人工神经网络为核心的数据处理技术成为现今人工智能的主流方法,它以一种模拟人脑的机制解释数据,并通过组合低层特征形成更加抽象的高层属性。当前,人工神经网络技术在模式识别、图像处理、智能控制、组合优化、金融预测、通信、机器人以及专家系统等领域得到广泛的应用,发挥了基础性的作用,并创造了巨大的经济价值。人工神经网络是在现代神经科学的基础上提出和发展起来的,是一种反映人脑结构和功能的抽象数学模型。自1943年美国心理学家W.McCulloch和数学家W.Pitts提出形式神经元的抽象数学模型—MP模型以来,人工神经网络模型经过了50多年曲折的发展,相关的理论和方法已经发展成一门界于物理学、数学、计算机科学和神经生物学的交叉学科。所谓的神经网络是一类通过多层非线性变换对高复杂性数据建模的方法的合集,作为人工神经网络的基本组成单元,其中,人工神经元模型为包含三个基本要素:(1)权值wi,对应于生物神经元突触的一组连接,连接强度由各连接上的权值wi表示,其中,权值wi为正表示激活,权值wi为负表示抑制;(2)求和单元,用于求取多个输入信号的加权求和;(3)非线性激活函数,向神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,并将神经元输出幅度限制在一定范围。在执行神经网络推理或者训练计算时,突触连接的权值与输入数据的相乘运算、求和单元的相加运算是一种线性模型,因此,求和之后需要一个非线性激活函数将线性模型计算的值映射到非线性空间,增强神经网络的描述能力。如果没有非线性激活函数,则神经网络只能进行线性变换。这种基于线性模型+非线性激活的人工神经元及网络模型,在通用数字电子计算机中可以容易且快速的进行计算,但是,在光计算、DNA计算等模拟计算器件中却很难实现。由于数字电子计算机的通用性,对于线性乘加操作和非线性激活操作都可以转换为二进制的布尔逻辑形式,由CPU内部的逻辑运算单元完成计算操作。而在某些高能效的模拟计算结构中,实现该神经元模型却非常困难,例如,以光为载体的光子计算器件,在实现基于传统神经元模型的神经网络计算时需要两个过程:①利用光的非线性特性构建线性向量矩阵乘加结构,具体方法为将神经网络的权值矩阵采用SVD分解的方法分解成两个酉矩阵和一个对角阵,然后利用光传播过程中的自相似作用构造酉矩阵结构,并用强度调制器实现对角阵;②用电子计算机实现激活函数。采用模拟计算器件实现传统人工神经元及网络计算模型时主要存在两个问题:首先,利用模拟信号的非线性特性将多个非线性模拟信号叠加成为线性信号,从而基于模拟器件实现线性向量矩阵乘加,不仅需要大量器件的组合,而且较容易受到环境的干扰产生漂移;其次,模型中常用的Sigmod、Relu等激活函数很难用模拟器件实现,因此,需要用电子计算机处理该类操作,降低了模拟计算组件的计算速度和能效。
技术实现思路
本专利技术为解决目前采用模拟计算器件实现传统人工神经元及网络计算模型时,存在所需模拟器件组合数量大,容易受到环境干扰产生漂移,以及部分激活函数难以采用模拟器件实现,需要借助电子计算机处理,降低了模拟计算组件的计算速度和能效的技术问题,提供一种融合神经元模型、神经网络结构及其推理方法和训练方法、计算机可读存储介质及计算机设备。为实现上述目的,本专利技术提供如下技术方案:一种融合神经元模型,用于模拟计算器件实现人工神经元及网络计算,其特殊之处在于,每个突触连接的权值为连续可导的非线性函数φ(wi,xi);其中,i为神经元相应级数,为大于1的整数;xi为前一级i-1级神经元输入至当前级i级神经元突触连接的输入值;wi为训练参数,通过以下步骤获得:S1,为每一个突触的权值随机赋值,作为初始化训练参数wi′;S2,选取一个batch,代入神经元模型进行推理,得到推理结果;S3,依据推理结果,根据损失函数,计算相应损失值;S4,通过反向传播算法,根据权值非线性激活函数计算每一级权值的偏导数;S5,通过梯度下降法,根据每一级权值的偏导数,将步骤S3得到的损失值最小化,并根据该最小化结果更新初始化训练参数wi′;S6,重复执行步骤S2至步骤S5,直至所有batch均被代入神经元模型进行推理,最后一个batch执行步骤S2至步骤S5后,得到的更新后的初始化训练参数,即为wi。进一步地,步骤S2具体为:S2.1,选取一个batch,对该batch进行格式变换,形成一个一维向量;S2.2,将所述一维向量输入至神经网络的输入层和隐藏层之间的传递矩阵,所述传递矩阵采用连续可导的非线性函数作为元素值,得到一个结果矩阵;S2.3,将步骤S2.2得到的结果矩阵行向量依次相加,得到一个输出向量;S2.4,将步骤S2.3得到的输出向量赋值给步骤S2.1形成的一维向量;S2.5,重复执行S2.2至步骤S2.4,直至到达神经网络的输出层,推理结束,得到推理结果。本专利技术还提供了一种神经网络结构,所述神经网络为前馈网络或反馈网络,其特殊之处在于,包括输入层、隐藏层和输出层;所述输入层、隐藏层和输出层中每个层次均有至少一个神经元,所述神经元采用上述的融合神经元模型。另外,本专利技术还提供了一种基于上述神经网络结构的推理方法,其特殊之处在于,包括以下步骤:S1,对输入的batch进行格式变换,形成一个一维向量,输入至模拟计算器件;S2,通过模拟计算器件,将所述一维向量中的每一个元素,按照对应关系输入至神经网络的输入层和隐藏层之间的传递矩阵,所述传递矩阵采用连续可导非线性函数作为元素值,得到一个矩阵;S3,将步骤S2得到的矩阵行向量依次相加,得到一个输出向量;S4,将步骤S3得到的输出向量赋值给步骤S1形成的一维向量;S5,重复执行S2至步骤S4,直至到达神经网络的输出层,推理结束,得到推理输出结果。再者,本专利技术还提供了一种基于上述神经网络结构的训练方法,其特殊之处在于,包括以下步骤:S1,为神经网络结构中神经元的每一个突触连接的权值随机赋值;S2,通过推理得到每一个突触权值的初始化输出S2.1,选取batch进行格式变换,形成一个一维向量;S2.2,将所述一维向量输入至神经网络的输入层和隐藏层之间的传递矩阵,所述传递矩阵采用连续可导非线性函数作为元素值,得到一个矩阵;S2.3,将步骤S2.2得到的矩阵行向量依次相加,得到一个输出向量;S2.4,将步骤S2.3得到的输出向量赋值给步骤S2.1形成的一维向量;S2.5,重复执行S2.2至步骤S2.4,直至到达神经网络的本文档来自技高网
...

【技术保护点】
1.一种融合神经元模型,用于模拟计算器件实现人工神经元及网络计算,其特征在于:/n每个突触连接的权值为连续可导的非线性函数φ(w

【技术特征摘要】
1.一种融合神经元模型,用于模拟计算器件实现人工神经元及网络计算,其特征在于:
每个突触连接的权值为连续可导的非线性函数φ(wi,xi);
其中,i为神经元相应级数,为大于1的整数;xi为前一级i-1级神经元输入至当前级i级神经元突触连接的输入值;
wi为训练参数,通过以下步骤获得:
S1,为每一个突触的权值随机赋值,作为初始化训练参数wi′;
S2,选取一个batch,代入神经元模型进行推理,得到推理结果;
S3,依据推理结果,根据损失函数,计算相应损失值;
S4,通过反向传播算法,根据权值非线性激活函数计算每一级权值的偏导数;
S5,通过梯度下降法,根据每一级权值的偏导数,将步骤S3得到的损失值最小化,并根据该最小化结果更新初始化训练参数wi′;
S6,重复执行步骤S2至步骤S5,直至所有batch均被代入神经元模型进行推理,最后一个batch执行步骤S2至步骤S5后,得到的更新后的初始化训练参数,即为wi。


2.如权利要求1所述一种融合神经元模型,其特征在于:所述步骤S2具体为:
S2.1,选取一个batch,对该batch进行格式变换,形成一个一维向量;
S2.2,将所述一维向量输入至神经网络的输入层和隐藏层之间的传递矩阵,所述传递矩阵采用连续可导的非线性函数作为元素值,得到一个结果矩阵;
S2.3,将步骤S2.2得到的结果矩阵行向量依次相加,得到一个输出向量;
S2.4,将步骤S2.3得到的输出向量赋值给步骤S2.1形成的一维向量;
S2.5,重复执行S2.2至步骤S2.4,直至到达神经网络的输出层,推理结束,得到推理结果。


3.一种神经网络结构,所述神经网络为前馈网络或反馈网络,其特征在于:包括输入层、隐藏层和输出层;
所述输入层、隐藏层和输出层中每个层次均有至少一个神经元,所述神经元采用权利要求1或2所述的融合神经元模型。


4.一种基于权利要求3所述神经网络结构的推理方法,其特征在于,包括以下步骤:
S1,对输入的batch进行格式变换,形成一个一维向量,输入至模拟计算器件;
S2,通过模拟计算器件,将所述一维向量中的每一个元素,按照对应关系输入至神经网络的输入层和隐藏层之间的传递矩阵,所述传递矩阵采用连续可导非线性函数作为元素值,得到一个矩阵;
S3,将步骤S2得...

【专利技术属性】
技术研发人员:赵卫臧大伟程东杜炳政谢小平张佩珩谭光明姚宏鹏
申请(专利权)人:中国科学院西安光学精密机械研究所中国科学院计算技术研究所
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1