婴儿啼哭识别的大数据算法、系统、装置及存储介质制造方法及图纸

技术编号:36110284 阅读:9 留言:0更新日期:2022-12-28 14:12
本发明专利技术公开了婴儿啼哭识别的大数据算法、系统、装置及存储介质,本发明专利技术解决其技术问题所采用的技术方案是:一种婴儿啼哭识别的大数据算法,步骤一:获取婴儿啼哭大数据库中的婴儿啼哭数据;步骤二:建立卷积神经网络识别模型并对其进行训练;步骤三:根据训练好的模型对婴儿啼哭音频数据进行意图识别;本方法降低了大量的运算压力,使其能在单片机内运算实现。现。现。

【技术实现步骤摘要】
婴儿啼哭识别的大数据算法、系统、装置及存储介质


[0001]本专利技术涉及语音识别领域,特别涉及婴儿啼哭识别的大数据算法、系统、装置及存储介质。

技术介绍

[0002]随着人工智能的反正,让婴儿哭声意图识别成为了可能,目前的语音分类算法,大多数要用GPU,至少也是PC端类CPU(八核2.0G以上主频),无法在嵌入式系统内运行,且传统的网络为VGG、Resnet等,GG、Resnet等传统网络耗费资源非常大,比如Resnet50需要3.53G的浮点乘法,参数为25.56M个,因此无法在单片机上运行的。

技术实现思路

[0003]本专利技术解决的技术问题是提供一种可降低大量运算的婴儿啼哭识别的大数据算法。
[0004]本专利技术解决其技术问题所采用的技术方案是:一种婴儿啼哭识别的大数据算法,
[0005]步骤一:获取婴儿啼哭大数据库中的婴儿啼哭数据;
[0006]步骤二:建立卷积神经网络识别模型并对其进行训练;
[0007]步骤三:根据训练好的模型对婴儿啼哭音频数据进行意图识别;
[0008]其中,神经网络识别模型包括依次连接的输入层、第一卷积层、第二卷积层、第一最大池化层、轴置换层、第三卷积层、第二最大池化层、第四卷积层、第五卷积层、第三最大池化层、第六卷积层、第七卷积层、第四最大池化层、第八卷积层、第九卷积层、第五最大池化层、第十卷积层、第十一卷积层、第六最大池化层、第十二卷积层、数据展平层、全连接层和输出层。
[0009]进一步的是:所述输入层用于接收经过LPC线性预测编码后的婴儿啼哭数据。
[0010]进一步的是:所述第一卷积层的核尺寸为1*7,步进为1*3,过滤层数为4层;
[0011]所述第二卷积层的核尺寸为1*5,步进为1*4,过滤层数为16层;
[0012]所述第一最大池化层的核尺寸为1*26,步进为1*26;
[0013]所述第三卷积层的核尺寸为3*3,步进为1*1,过滤层数为12层;
[0014]所述第二最大池化层的核尺寸为2*2,步进为2*2;
[0015]所述第四卷积层的核尺寸为3*3,步进为1*1,过滤层数为16层;
[0016]所述第五卷积层的核尺寸为3*3,步进为1*1,过滤层数为24层;
[0017]所述第三最大池化层的核尺寸为2*2,步进为2*2;
[0018]所述第六卷积层的核尺寸为3*3,步进为1*1,过滤层数为30层;
[0019]所述第七卷积层的核尺寸为3*3,步进为1*1,过滤层数为36层;
[0020]所述第四最大池化层的核尺寸为2*2,步进为2*2;
[0021]所述第八卷积层的核尺寸为3*3,步进为1*1,过滤层数为45层;
[0022]所述第九卷积层的核尺寸为3*3,步进为1*1,过滤层数为54层;
[0023]所述第五最大池化层的核尺寸为2*2,步进为2*2;
[0024]所述第十卷积层的核尺寸为3*3,步进为1*1,过滤层数为64层;
[0025]所述第十一卷积层的核尺寸为3*3,步进为1*1,过滤层数为72层;
[0026]所述第六最大池化层的核尺寸为1*2,步进为1*2;
[0027]所述第十二卷积层的核尺寸为1*1,步进为1*1,过滤层数为64层;
[0028]各卷积层完成卷积操作后,进行batch normal和ReLu操作。
[0029]进一步的是:所述输出层的激活函数为Softmax函数。
[0030]进一步的是:在经过第六最大池化层的最大池化操作后,对数据进行随机丢弃,丢弃率为20%,并将丢弃后的数据传入第十二卷积层。
[0031]本专利技术还公开了可进行边缘运算的婴儿啼哭大数据计算系统,包括上述所述的婴儿啼哭识别的大数据算法,包括:
[0032]数据获取单元,所述数据获取单元用于获取婴儿啼哭数据;
[0033]数据处理单元,所述数据处理单元用于根据婴儿啼哭数据建立卷积神经网络识别模型。
[0034]本专利技术还公开了一种计算机装置,包括:处理器、存储器、通信接口和通信总线,所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述所述的婴儿啼哭识别的大数据算法对应的操作。
[0035]本专利技术还公开了一种计算机存储介质,所述计算机存储介质中存储有至少一个可执行指令,所述可执行指令使处理器执行如上述所述的婴儿啼哭识别的大数据算法对应的操作。
[0036]本专利技术的有益效果是:此架框与传统VGG、Resnet等网络相比,少了99%以上的浮点运算,99%的参数。综合认为以cortex

M4架构为例,只需要80~120MHz的主频即可满足运算(不同的RTOS系统消耗部分资源)。
[0037]1、此处输入层没有进行FFT的预处理,直接用实域值进行计算1D卷积(见卷积1和2),降低了大量的运算压力;
[0038]2、多头的卷积也提取了相当的特征参数,所以最大池化1此处用了大胆的26步进值,大大减少了数据的冗余度;
[0039]3、利用轴置换,将1D卷积变为2D卷积,将语音特征上升到图形特征,通过升维更好的提取特异性特征,并减少参数。
附图说明
[0040]图1为本申请实施例的婴儿啼哭识别的大数据算法的网络框架实例图。
具体实施方式
[0041]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施例的限制。
[0042]需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
[0043]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0044]如图1所示,本申请的实施例工开了一种婴儿啼哭识别的大数据算法,
[0045]步骤一:获取婴儿啼哭大数据库中的婴儿啼哭数据;
[0046]步骤二:建立卷积神经网络识别模型并对其进行训练;
[0047]步骤三:根据训练好的模型对婴儿啼哭音频数据进行意图识别;
[0048]其中,神经网络识别模型包括依次连接的输入层、第一卷积层、第二卷积层、第一最大池化层、轴置换层、第三卷积层、第二最大池化层、第四卷积层、第五卷积层、第三最大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种婴儿啼哭识别的大数据算法,其特征在于:步骤一:获取婴儿啼哭大数据库中的婴儿啼哭音频数据;步骤二:建立卷积神经网络识别模型并对其进行训练;步骤三:根据训练好的模型对婴儿啼哭音频数据进行意图识别;其中,神经网络识别模型包括依次连接的输入层、第一卷积层、第二卷积层、第一最大池化层、轴置换层、第三卷积层、第二最大池化层、第四卷积层、第五卷积层、第三最大池化层、第六卷积层、第七卷积层、第四最大池化层、第八卷积层、第九卷积层、第五最大池化层、第十卷积层、第十一卷积层、第六最大池化层、第十二卷积层、数据展平层、全连接层和输出层。所述输入层用于接收经过LPC线性预测编码后的婴儿啼哭数据。2.如权利要求1所述的婴儿啼哭识别的大数据算法,其特征在于:所述第一卷积层的核尺寸为1*7,步进为1*3,过滤层数为4层;所述第二卷积层的核尺寸为1*5,步进为1*4,过滤层数为16层;所述第一最大池化层的核尺寸为1*26,步进为1*26;所述第三卷积层的核尺寸为3*3,步进为1*1,过滤层数为12层;所述第二最大池化层的核尺寸为2*2,步进为2*2;所述第四卷积层的核尺寸为3*3,步进为1*1,过滤层数为16层;所述第五卷积层的核尺寸为3*3,步进为1*1,过滤层数为24层;所述第三最大池化层的核尺寸为2*2,步进为2*2;所述第六卷积层的核尺寸为3*3,步进为1*1,过滤层数为30层;所述第七卷积层的核尺寸为3*3,步进为1*1,过滤层数为36层;所述第四最大池化层的核尺寸为2*2,步进为2*2;所述第八卷积层的核尺寸为3*3,步进为1*1,过滤层数为45层;所述第九卷积层的核...

【专利技术属性】
技术研发人员:赵可成吴衡
申请(专利权)人:苏州辰逸新声电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1