一种基于语音和图像特征的算力均衡执行方法及芯片技术

技术编号:35583511 阅读:10 留言:0更新日期:2022-11-12 16:16
本发明专利技术公开了一种基于语音和图像特征的算力均衡执行方法及芯片,涉及负载均衡技术领域,包括以下步骤:接收待处理的数据,包括语音数据与图像数据;对待处理的数据进行预处理,预处理包括A/D转换、快速傅里叶变换,生成第一特征图;提取第一特征图的频带宽度数据,判别其对应的输入信号类型,传送至第一任务池或者第二任务池中进行下一步处理;分别进行对应任务的处理,输出处理结果。通过对数据信号进行预处理,将不同的信号传送至相应的神经网络进行下一步处理,可以差别设计各神经网络的运算量,提高芯片内神经网络模块处理的效率;在对信号处理实时性要求较高的场合,可有效减小语音信号和图像信号处理的时延,提高运行速度。提高运行速度。提高运行速度。

【技术实现步骤摘要】
一种基于语音和图像特征的算力均衡执行方法及芯片


[0001]本专利技术涉及负载均衡
,特别涉及一种基于语音和图像特征的算力均衡执行方法及芯片。

技术介绍

[0002]语音识别和图像识别在模式识别中分类器的设计方面有很多相似之处,例如神经网络、SVM(Support Vector Machine,支持向量机)以及Deep Learning(深度学习)等典型的分类器在两者的识别中都可以使用,因此主要区别在于特征提取算法的不同。
[0003]语音采样频率相对于采样时长而言是很高,而且考虑到声波的震动特性与持续性,语音信号在有声区域是一种稠密信号,因此一段语音信号中的局部信息,或者说相邻的某几个采样点的信息量是很少的,因此在语音特征提取通常采用窗口模式,对窗口内的信号的统计特性进行分析,基于频域变换的特征提取算法十分常见。图像的空间频率相对于图像大小而言并不高,而且图像中存在大量的平滑区域,特征分布相对稀疏,局部特征的价值也就更加重要。近几年来广泛得到应用的SIFT(尺度不变特征变换)、HOG(梯度方向直方图)、稀疏编码等都是基于这一理念。图像特征更加强调旋转、缩放、光照等方面的不变性,相对于语音信号,图像特征的模式一般来讲更加复杂,冗余信息的分离难度也比较大。
[0004]对于需要同时处理语音信息和图像信息的芯片,由于语音识别和图像识别采用的特征提取算法的不同,导致其特征提取的运算量也产生不同,因此,合理分配不同识别任务至相应神经网络处理单元,可有效提升神经网络的运行效率。
[0005]现有技术中基于AI芯片的算力调度主要是基于多个所述算子分别对应的运算信息以及算子执行设备的算力信息来计算算力资源。或是将运算任务的运算量进行预设,若判断新运算任务满足预设的目标算力,则将任务分配至该算力目标上。但是,由于不同神经网络处理模块处理的指令以及任务不同,无法简单根据算子的算力信息来计算算力资源,上述负载均衡方案不适合不同神经网络处理模块之间的任务调度,因此需要专门设计适用于不同神经网络处理模块之间的任务调度、负载均衡执行方法。

技术实现思路

[0006]本专利技术提供一种基于语音和图像特征的算力均衡执行方法及芯片,旨在解决现有技术中需要同时处理语音信息和图像信息的神经网络模块之间的任务调度问题。
[0007]为解决上述技术问题,本专利技术的具体方案如下:一种基于语音和图像特征的算力均衡执行方法,包括以下步骤:接收待处理的数据,所述待处理的数据包括语音数据与图像数据;对所述待处理的数据进行预处理,所述预处理包括A/D转换、快速傅里叶变换,生成第一特征图;提取第一特征图的频带宽度数据,判别其对应的输入信号类型,传送至第一任务池或者第二任务池中进行下一步处理;
第一任务池和第二任务池分别进行对应任务的处理,输出处理结果,供后续任务使用。
[0008]优选地,所述A/D转换包括抽样、量化和编码,将输入的模拟量信号转换为数字信号。
[0009]优选地,所述快速傅里叶变换为硬件电路实现,采用基于流水线的快速傅里叶变换方法。
[0010]优选地,所述第一任务池进行语音数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
[0011]优选地,所述第二任务池进行图像数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
[0012]优选地,所述第一任务池为语音神经网络模型,特征提取具体步骤包括:端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列;分帧和加窗,对所述加重语音序列按设定的时间间隔进行分段,然后利用带通滤波器过滤信号,以减小信号的误差,得到依赖于时间的帧序列;预加重,增加所述有效语音序列的高频能量,提高信噪比,得到加重语音序列;快速傅里叶变换,将所述帧序列输入快速傅里叶变换硬件电路,把时域图转换为各帧的频谱;特征向量提取,使用感知线性预测技术提取所述频谱的特征向量,生成语音特征参数;神经网络识别,将语音特征参数输入神经网络模型,输出语音识别结果。
[0013]优选地,所述第二任务池为图像神经网络模型,提取的特征包括:方向梯度直方图特征,首先将图像分成小的连通区域,然后采集联通区域中各像素点的梯度和边缘的方向,构成方向梯度直方图特征;局部二值模式特征,用来描述图片区域的纹理信息,通过将检测窗口分成16x16的cell,对每个cell中的一个像素与周围8个像素进行比较,计算每个cell的直方图,最后将得到的每个cell的统计直方图进行连接成为局部二值模式特征;Harr特征,用于图像中的人脸表示,在出现人脸的图像中,提取Harr特征用于人脸检测。
[0014]优选地,所述语音神经网络包括卷积神经网络和循环神经网络,所述卷积神经网络包括依序连接的第一卷积层、池化层和第二卷积层:第一卷积层为128个大小为1
×
9的过滤器,横向步长设置为2,通道设置为1;池化层为大小为1
×
3的最大池化层,步长设置为1;第二卷积层为256个大小为1
×
4的过滤器,横向步长设置为1,通道设置为64;优选地,所述循环神经网络采用长短期记忆结构和基于神经网络的时序类分类进行语音识别。
[0015]一种基于语音和图像特征的算力均衡执行芯片,所述执行芯片包括通用处理器和神经网络处理器,所述神经网络处理器用于执行上述基于语音和图像特征的算力均衡执行方法。
中读出数据,经过计算得到的中间结果仍然存入相同的数据存储 RAM 去,覆盖输入的数据,直到整个这一级的蝶形因子全部运算结束,将最后结果输出到下一级。
[0023]第一任务池进行语音数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。第二任务池进行图像数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。
[0024]第一任务池为语音神经网络模型,特征提取具体步骤包括:端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列。对语音信号进行时域分析,可以明显辨别出原始语音信息包含有声段、无声段和浊音段,端点检测通过区分以上不同段的信号以找到语音信号的起始点和结束点。本实施例中的端点检测方法采用双门限法,通过计算语音能量的方式来判断语音的端点,预先设置双门的门限能量,然后分别计算每个时刻的语音能量,若,则生成门限序列为1;若,则生成门限序列为0;从而得到门限序列,将门限序列点乘原始语音序列,得到有效语音序列。
[0025]端点检测方法优选为双门限法,其中语音能量的计算公式为:其中,为检测点的语音能量,为第点的语音广义分贝值,为所有检测点的数量。
[0026]预加重,增加有效语音序列的高频能量,提高信噪比,得到加重语音序列。语音信息往往夹杂着环境中的各种其他声音信息,由于人类发音的特性,语音信息经过频率转换后往往大部分集中于低频带,从而使得低频能量过高,高频能量过低,难以有效提取高频语音信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音和图像特征的算力均衡执行方法,其特征在于,包括以下步骤:接收待处理的数据,所述待处理的数据包括语音数据与图像数据;对所述待处理的数据进行预处理,所述预处理包括A/D转换、快速傅里叶变换,生成第一特征图;提取第一特征图的频带宽度数据,判别其对应的输入信号类型,将语音信号传送至第一任务池,同时将图像信号传送至第二任务池中进行下一步处理;第一任务池和第二任务池分别进行对应任务的处理,输出处理结果,供后续任务使用;所述第一任务池采用训练好的语音神经网络模型,所述语音神经网络模型包括卷积神经网络与循环神经网络,所述循环神经网络通过双向长短期记忆记录语音序列的时序特征;所述第二任务池采用训练好的图像神经网络模型,所述图像神经网络模型提取图像的HOG特征、LBP特征以及Harr特征。2.根据权利要求1所述的一种基于语音和图像特征的算力均衡执行方法,其特征在于,所述A/D转换包括抽样、量化和编码,将输入的模拟量信号转换为数字信号。3.根据权利要求1所述的一种基于语音和图像特征的算力均衡执行方法,其特征在于,所述快速傅里叶变换为硬件电路实现,采用基于流水线的快速傅里叶变换方法。4.根据权利要求1所述的一种基于语音和图像特征的算力均衡执行方法,其特征在于,所述第一任务池进行语音数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。5.根据权利要求1所述的一种基于语音和图像特征的算力均衡执行方法,其特征在于,所述第二任务池进行图像数据的处理,通过训练神经网络模型,对输入的第一特征图进行识别处理,输出处理结果。6.根据权利要求4所述的一种基于语音和图像特征的算力均衡执行方法,其特征在于,所述第一任务池为语音神经网络模型,特征提取具体步骤包括:端点检测,通过区分有声段、无声段和浊音段的信号以区划语句的开头与结尾,得到有效语音序列;预加重,增加所述有效语音序列的高频能量,提高信噪比,得到加重语音序列;分帧和加窗,对所述加重语音序列按设定的时间间隔进行分...

【专利技术属性】
技术研发人员:王嘉诚张少仲张栩
申请(专利权)人:中诚华隆计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1