一种基于神经网络的声音识别方法技术

技术编号:20244441 阅读:27 留言:0更新日期:2019-01-29 23:54
本发明专利技术公开了一种基于神经网络的声音识别方法,该方法包括以下步骤:首先使用通常声音采样方式对声音进行功率谱变换,插入、采样等滤波算法后得到标准格式的声音样本;根据声音识别指令,确定待识别的目标声音特征;针对预先获得的查找表集合中每个查找表,将目标声音采样的每个采样点与该查找表的每个表项进行匹配,查找表集合包含多个具有不同内容的参考声音对应的查找表,每个查找表基于神经网络结构建立,每个查找表中的表项为神经网络结构的神经元;根据匹配结果,确定目标声音。应用本发明专利技术实施例所提供的技术方案,基于神经网络结构进行声音识别,模拟了人脑的学习能力,使得声音识别更加准确。

【技术实现步骤摘要】
一种基于神经网络的声音识别方法
本专利技术涉及声音识别技术,特别是涉及一种基于神经网络的声音识别方法。
技术介绍
随着计算机应用技术的快速发展,语音或者其他类型声音识别技术的应用越来越广泛,对声音识别的需求也越来越多。比如在语音控中,或者在特定场景声音事件触发中,都需要进行声音识别。随着对人脑结构和神经网络的研究,现已经了解并逐渐探索出人脑对信息的处理及工作方式。但基于神经网络结构如何进行声音的准确识别,是目前本领域技术人员亟需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种基于神经网络的声音识别方法,以基于神经网络结构对声音进行准确识别。为解决上述技术问题,本专利技术提供如下技术方案:一种基于神经网络的声音识别方法,包括:对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。所述预处理包括:对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。所述短时傅里叶变换为:其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表,包括:如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录。所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过。所述如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1。所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。所述深度deep为该节点所在层的层号。学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有变化,则删除该当前索引值index对应的表项内容。本专利技术具有以下有益效果及优点:1.本专利技术可以模糊声音长度进行比较匹配,在预处理算法中实现。2.本专利技术可以任意配置神经网络节点矩阵的长度(对应频率谱采样数)与深度(对应学习深度)及每个节点表项的地址深度(对应可以学习的声音含义数)。3.本专利技术有模拟人脑对记忆行为的模拟,可以根据表项中是timestamp时间戳进行缓慢遗忘。4.本专利技术也可单独运用于集成电路,使用FPGA或设计成专用ASIC芯片。5.本专利技术可以接入在多种系统总线,实现多种系统的硬件异构加速处理。附图说明图1为本专利技术的一种基于神经网络的声音识别方法流程图;图2为本专利技术预处理中将音频采样信号从波形图转换为频率谱图;图3为本专利技术中一种声音处理指令数据结构示意图;图4为神经网络节点深度迭代示意图;图5为神经网络节点表项矩阵图;图6为本专利技术每个神经网络节点表项数据结构示意图;图7为本专利技术实施实例中样本学习流程图;图8为本专利技术实施实例中样本查找流程图;图9为本专利技术中一种声音识别系统结构示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步的详细说明。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。如图1所示,为本专利技术实施例所提供的一种基于神经网络结构的声音识别方法的实施流程图,具体实施流程如下:S110:根据声音识别指令,确定待识别的目标图像。在本专利技术实施例中,控制单元可以通过前端接口单元接收声音学习或者识别指令,如图2所示。图像识别指令中可以携带待识别的目标声音样本。根据声音识别指令,可以确定待识别的目标声音。如图3所示,opcode代表操作指令,可以指示该学习或者识别指令;index代表索引,在学习指令时指定要写入表项的地址;deep代表查找的深度,在识别指令时返回查找到的深度,pvalue为频率谱信号值。在接收到声音识别指令时,可以通过计算单元先对声音识别指令中的目标声音样本进行预处理,以达到加速及更加准确识别的目的。比如,可以对有限个时间识别样本进行插入样本或抽取样本的操作,使目标样本与本专利技术的查找表矩阵L0一层深度的节点数相匹配。同时使用短时傅里叶变换算法,将声音样本变换至频率谱,使声音特征区分更加明显,如图2所示。本专利技术实施例所基于的神经网络结构如图4所示,为矩阵结构,矩阵的二维坐标系分别为Sn×Ln,其中每一个节点为一个神经元。在图4中,如果目标声音能量谱频率分辨率为64大小,则其每一个频率坐标可以对应[S0]至[S63]相应位置的神经元。如图5所示,如果声音能量频率谱分辨率为64大小,则可以在L0层每一个频率坐标可以对应[S0]至[S63]相应位置的神经元,每一个神经元节点建立一张深度为N的查找表项,每一张表项如图6所示,矩阵深度Ln可以灵活配置,深度越深,代表可以容纳学习的次数越多,识别越准确。S120:若判断声音处理指令opcode为学习指令,将目标所携带的数据按照索引index位置,将表项valid位设置成有效;将指令中pvalue的值与表项中pvalue的值进行迭代累加;同时可以向相邻两个神经网络节点的值进行有权值的迭代累加,如图3所示;并向表项内的学习次数study_num值+1;同时刷新timestamp,如图6流程所示。S130:在步骤S120执行后,读取深度一层的神经网络节点表项,判断其表项vali本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的声音识别方法,其特征在于,包括:对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。

【技术特征摘要】
1.一种基于神经网络的声音识别方法,其特征在于,包括:对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。2.根据权利要求1所述的一种基于神经网络的声音识别方法,其特征在于所述预处理包括:对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。3.根据权利要求2所述的一种基于神经网络的声音识别方法,其特征在于所述短时傅里叶变换为:其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。4.按照权利要求1所述一种基于神经网络的声音识别方法,其特征在于所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表,包括:如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录。5.按照权利要求4所述一种基于神经网络的声音识别方法,其特征在于所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间...

【专利技术属性】
技术研发人员:丁岩牛英山王爽费顺超
申请(专利权)人:中国电子科技集团公司第四十七研究所
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1