一种基于仿生神经网络的语音识别系统与方法技术方案

技术编号:35455704 阅读:11 留言:0更新日期:2022-11-03 12:13
一种基于仿生神经网络构建语音识别程序的系统,包括:语音感知模块、码序列翻译模块、文本输出模块。语音感知模块由序列分割、傅里叶变换、两层二维卷积神经网络构成,接收语音数据生成其时分频谱的特征向量序列。码序列翻译模块由四层仿生神经元构成的仿生神经网络组成,接收特征向量序列,经过稀疏的突触传递异步性和双极性的信号更新神经元状态来对应信息的处理,输出具有概率意义的编码序列。文本输出模块接收代表字母的编码序列,通过预设编码解码映射生成字母序列,得到语音识别的目标文本结果。本发明专利技术将仿生神经网络应用于语音识别问题,能够实现在较低的模型复杂度的前提下得到较好的可解释性和预测结果。下得到较好的可解释性和预测结果。下得到较好的可解释性和预测结果。

【技术实现步骤摘要】
一种基于仿生神经网络的语音识别系统与方法


[0001]本专利技术属于人工智能、脉冲神经网络
,特别涉及一种基于仿生神经网络的语音识别系统与方法。

技术介绍

[0002]在目前的语音识别领域,主要应用的方法多基于循环神经网络和自注意力机制的编码解码器等流行算法进行优化。但目前的深度学习算法模型的可解释性普遍不佳,同时泛化性能不稳定,其次由于全连接网络的结构导致模型的参数量较大、有所冗余,对计算资源的需求则较大,同时循环神经网络在时间维度上的数据采集可能过多,在短时依赖性的任务上则效率不高。目前第二代神经网络在上述问题的约束下无法在节能、硬件算力一般的前提下保证准确性、时效性、鲁棒性和可解释性。
[0003]第三代人工神经网络的脉冲神经网络则主要参考了仿生学的原理,对神经科学中的一些研究成果进行数学建模,结合机器学习的技术,将信息编码为神经元的膜电位和脉冲时延,利用脉冲来达到高效率低能耗的信息传递,同时采用稀疏的连接方式以贴近生物神经网络的结构。当前脉冲神经网络已经在数字识别、模式识别、自动驾驶等问题上得到广泛应用。

技术实现思路

[0004]为了克服上述现有技术的不足,本专利技术的目的在于提供一种基于仿生神经网络的语音识别系统与方法,可以减少模型的复杂度,降低对算力的需求,增强模型的可解释性和鲁棒性。
[0005]为了实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于仿生神经网络的语音识别系统,采用两层卷积神经网络和四层仿生神经网络堆砌的结构,包括:
[0007]语音感知模块,接收语音输入形成编码,经傅里叶变换生成时分频谱,再由卷积神经网络提取局部波形的数字特征,得到特征向量序列;
[0008]码序列翻译模块,为由感知层、中转层、控制层和驱动层四层仿生神经元依次构成的仿生神经网络,所述感知层接收语音感知模块输出的特征向量序列,所述中转层进行特征转义,所述控制层进行自循环时序信息的保存与决策,所述仿生神经网络创建仿生神经元并在仿生神经元之间建立突触,突触通过异步的信号传输和双极性的信号传递改变仿生神经元的状态,仿生神经元的状态的更新对应信息的处理,所述驱动层依据本身状态输出代表字母的数字编码序列;
[0009]文本输出模块,接收所述数字编码序列,通过预设编码逆映射生成字母序列,得到语音识别的目标文本结果。
[0010]优选地,所述语音感知模块包括模拟数字转换单元、序列分割单元、傅里叶变换单元和卷积神经网络;所述模拟数字转换单元将语音输入转换为数字信号,并经单声道固定
采样率采样存储为语音的时域量化文件;所述序列分割单元将所述时域量化文件切分为若干子序列,各子序列有部分重合;所述傅里叶变换单元对各子序列进行傅里叶变换,得到具有时间特性的时分频谱序列,每个时分频谱序列对应一个字母的读音特征;所述卷积神经网络为两层,每层包括多个二维卷积核,均使用非线性激活函数向前传递给下一层,每个时分频谱序列经过两层的卷积神经网络提取局部波形的数字特征,将各数字特征拼接得到特征向量序列。
[0011]优选地,所述仿生神经元使用膜电位表示状态,使用常微分方程更新状态,方程参数为具有非线性时变特性的神经元内参数,仿生神经元状态由当前状态和输入突触的影响共同更新,仿生神经元间突触仿照生物神经系统的突触建立进行设计,依照概率分布生成从源仿生神经元到目标仿生神经元的突触和突触极性,突触的权重和极性会直接影响对应连接的仿生神经元的状态更新,正极性的突触会使得目标仿生神经元膜电位上升,即状态的量化值增加,负极性的突触则会使目标仿生神经元膜电位下降,即状态的量化值减少,突触的强度体现突触对仿生神经元膜电位的影响,仿生神经元本身的实时膜电位随时间推移有负反馈性质的变化,神经元有向静息电位恢复的趋势。
[0012]优选地,所述仿生神经元对应的状态方程数学式如下:
[0013][0014]其中,V
j
和V
i
分别对应源仿生神经元和目标仿生神经元的状态,即膜电位;τ
i
为目标仿生神经元的时间常量,定义如下式:
[0015][0016]表示目标仿生神经元的膜电容,为目标仿生神经元的膜电导,w
ij
对应突触的权重,τ
i
在不同仿生神经元上值的不同保证了在相同计算迭代中各不相同的更新程度,从而实现了仿生神经元膜电位更新的异步性;
[0017]σ
i
(V
j
)为突触上的信号传递系数,代表了突触连通性,作为信号的因子影响信号的传递效率,与信号强度正相关,σ
i
(V
j
)定义如下式:
[0018][0019]γ
ij
为突触的极性系数,其正负代表突触的极性,和突触权重的正负相对应,μ
ij
对应传递阈值,σ
i
(V
j
)显示了源仿生神经元的膜电位对信号强弱的影响,通过作为信号强度的非线性因子间接影响目标仿生神经元的膜电位更新;
[0020]为目标神经元的静息电位,和时间常数τ
i
的分式体现了目标仿生神经元向静息电位恢复的趋势,E
ij
为突触两端相对电势的相反数,w
ij
σ
i
(V
j
)E
ij
代表对应突触上传播的信号,传给目标仿生神经元后,在目标仿生神经元的状态变化方程中既是其膜电位负反馈性更新系数的一部分,也是其膜电位直接线性叠加的一部分。
[0021]本微分方程满足了上述仿生神经元状态更新的条件要求,模拟了简单生物的神经系统中的脉冲传播过程。
[0022]优选地,所述感知层的仿生神经元数目等于所述特征向量序列的长度;中转层包括N
i
个仿生神经元;控制层包括N
c
个仿生神经元;驱动层包含N
m
个仿生神经元,其中N
m

1为识别问题中语言的基本字母表的长度,另外一个仿生神经元代表结束符,驱动层的N
m
个仿生神经元的输出值经顺序排列形成向量,该向量各分量大小对应码序列翻译模块接收的特征向量序列中一个特征向量被识别为各仿生神经元对应的字母的概率,该向量最大分量所对应的仿生神经元所对应的编码就是文本输出模块接收的编码序列的基本单位;相邻两层间建立稀疏的突触连接,突触的建立和极性存在随机性,通过向前传递异步地传输信号到下一层仿生神经元,除相邻层间地突触外,还包括从控制层到控制层地突触连接,即自循环突出结构,用于实现历史信息地积累,体现其记忆性。
[0023]优选地,采用概率论与数理统计的方法设计仿生神经网络的具体突触分布,建立如以下描述的突触创建规则:
[0024]1)N
s
、N
i
、N
c
、N
m
分别对应感知层、中转层、命令层和驱动层的仿生神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于仿生神经网络的语音识别系统,其特征在于,包括:语音感知模块,接收语音输入形成编码,经傅里叶变换生成时分频谱,再由卷积神经网络提取局部波形的数字特征,得到特征向量序列;码序列翻译模块,为由感知层、中转层、控制层和驱动层四层仿生神经元依次构成的仿生神经网络,所述感知层接收语音感知模块输出的特征向量序列,所述中转层进行特征转义,所述控制层进行自循环时序信息的保存与决策,所述仿生神经网络创建仿生神经元并在仿生神经元之间建立突触,突触通过异步的信号传输和双极性的信号传递改变仿生神经元的状态,仿生神经元的状态的更新对应信息的处理,所述驱动层依据本身状态输出代表字母的数字编码序列;文本输出模块,接收所述数字编码序列,通过预设编码逆映射生成字母序列,得到语音识别的目标文本结果。2.根据权利要求1所述基于仿生神经网络的语音识别系统,其特征在于,所述语音感知模块包括模拟数字转换单元、序列分割单元、傅里叶变换单元和卷积神经网络;所述模拟数字转换单元将语音输入转换为数字信号,并经单声道固定采样率采样存储为语音的时域量化文件;所述序列分割单元将所述时域量化文件切分为若干子序列,各子序列有部分重合;所述傅里叶变换单元对各子序列进行傅里叶变换,得到具有时间特性的时分频谱序列,每个时分频谱序列对应一个字母的读音特征;所述卷积神经网络为两层,每层包括多个二维卷积核,均使用非线性激活函数向前传递给下一层,每个时分频谱序列经过两层的卷积神经网络提取局部波形的数字特征,将各数字特征拼接得到特征向量序列。3.根据权利要求1所述基于仿生神经网络的语音识别系统,其特征在于,所述仿生神经元使用膜电位表示状态,使用常微分方程更新状态,方程参数为具有非线性时变特性的神经元内参数,仿生神经元状态由当前状态和输入突触的影响共同更新,仿生神经元间突触仿照生物神经系统的突触建立进行设计,依照概率分布生成从源仿生神经元到目标仿生神经元的突触和突触极性,突触的权重和极性会直接影响对应连接的仿生神经元的状态更新,正极性的突触会使得目标仿生神经元膜电位上升,即状态的量化值增加,负极性的突触则会使目标仿生神经元膜电位下降,即状态的量化值减少,突触的强度体现突触对仿生神经元膜电位的影响,仿生神经元本身的实时膜电位随时间推移有负反馈性质的变化,神经元有向静息电位恢复的趋势。4.根据权利要求3所述基于仿生神经网络的语音识别系统,其特征在于,所述仿生神经元对应的状态方程数学式如下:其中,V
j
和V
i
分别对应源仿生神经元和目标仿生神经元的状态,即膜电位;τ
i
为目标仿生神经元的时间常量,定义如下式:
表示目标仿生神经元的膜电容,为目标仿生神经元的膜电导,w
ij
对应突触的权重,τ
i
在不同仿生神经元上值的不同保证了在相同计算迭代中各不相同的更新程度,从而实现了仿生神经元膜电位更新的异步性;σ
i
(V
j
)为突触上的信号传递系数,代表了突触连通性,作为信号的因子影响信号的传递效率,与信号强度正相关,σ
i
(V
j
)定义如下式:γ
ij
为突触的极性系数,其正负代表突触的极性,和突触权重的正负相对应,μ
ij
对应传递阈值,σ
i
(V
j
)显示了源仿生神经元的膜电位对信号强弱的影响,通过作为信号强度的非线性因子间接影响目标仿生神经元的膜电位更新;为目标神经元的静息电位,和时间常数τ
i
的分式体现了目标仿生神经元向静息电位恢复的趋势,E
ij
为突触两端相对电势的相反数,w
ij
σ
i
(V
j
)E
ij
代表对应突触上传播的信号,传给目标仿生神经元后,在目标仿生神经元的状态变化方程中既是其膜电位负反馈性更新系数的一部分,也是其膜电位直接线性叠加的一部分。5.根据权利4所述基于仿生神经网络的语音识别系统,其特征在于,所述感知层的仿生神经元数目等于所述特征向量序列的长度;中转层包括N
i
个仿生神经元;控制层包括N
c
个仿生神经元;驱动层包含N
m
个仿生神经元,其中N
m

1为识别问题中语言的基本字母表的长度,另外一个仿生神经元代表结束符,驱动层的N
m
个仿生神经元的输出值经顺序排列形成向量,该向量各分量大小对应码序列翻译模块接收的特征向量序列中一个特征向量被识别为各仿生神经元对应的字母的概率,该向量最大分量所对应的仿生神经元所对应的编码就是文本输出模块接收的编码序列的基本单位;相邻两层间建立稀疏的突触连接,突触的建立和极性存在随机性,通过向前传递异步地传输信号到下一层仿生神经元,除相邻层间地突触外,还包括从控制层到控制层地突触连接,即自循环突出结构,用于实现历史信息地积累,体现其记忆性;所述突触的创建规则如下:1)N
s
、N
i
、N
c
、N
m
分别对应感知层、中转层、命令层和驱动层的仿生神经元数目,对所有的相邻两层,对于所有的源仿生神经元,插入n
s

t...

【专利技术属性】
技术研发人员:杨旭张禹雷云霖朱艺菲王淼蔡建
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1