当前位置: 首页 > 专利查询>张峰专利>正文

一种语音和图像识别芯片及其识别算法制造技术

技术编号:34734375 阅读:51 留言:0更新日期:2022-08-31 18:24
本发明专利技术公开了一种语音和图像识别芯片及其识别算法,用于语音和图像的识别监测,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题,包括:信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;识别寄存器,提取识别结果,反馈识别结果;本发明专利技术实施例设置了信息识别模块和信息采集模块,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度。从而提高了芯片的识别精准度。从而提高了芯片的识别精准度。

【技术实现步骤摘要】
一种语音和图像识别芯片及其识别算法


[0001]本专利技术具体涉及一种语音和图像识别芯片及其识别算法。

技术介绍

[0002]联网监控主要是为了保护人们财产和生命的安全,根据实际的监控需要,一般联网监控都会在建筑周边、大门、办公楼、室内等重点部位安装用于安全监控的设备,为了集中管控上述安全监测设备的监测情况,一般会集中上述设备的数据上传至云端,而芯片是监控设备的核心组件,决定了监控设备数据交互的及时性和稳定性。
[0003]中国专利CN213844757U公开了一种智能语音、图像识别交互装置,包括外壳、设置在外壳内部的主控电路板、输入组件、电源模块和输出组件。本专利技术的智能语音、图像识别交互装置的输入组件不仅设有麦克风,能够通过语音与用户进行交互,还设有摄像头,使得高集成芯片能够通过摄像头手机用户的图像信息,识别用户提供的图像甚至手势,上传到云端服务器并获得相应的反馈,然后根据反馈输相应的信息,实现与用户通过语音和图像识别进行交互,能够获取用户无法通过语音提供的信息;但是现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差,基于此,我们提出一种语音和图像识别芯片及其识别算法。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足之处,提供一种语音和图像识别芯片及其识别算法,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
[0005]本专利技术是这样实现的,一种语音和图像识别芯片,用于语音和图像的识别监测,所述语音和图像识别芯片包括:
[0006]信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
[0007]信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;
[0008]识别寄存器,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果;
[0009]在芯片架构设计中设置识别寄存器、CPU服务器,其中,识别寄存器用于存储反向识别数据,识别寄存器与CPU服务器通信连接。
[0010]优选地,所述信息采集模块包括:
[0011]采集响应单元,用于响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元,以实现信息的传递和交互;
[0012]信息预处理单元,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;
[0013]预识别信息提取单元,用于获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。
[0014]优选地,所述基于随机森林模型,训练随机森林分类器,构建分类树的方法,具体包括:
[0015]获取语音信息和图像信息,抽取语音信息和图像信息作为原始信息训练集;
[0016]基于基尼指数作为构建准则构建多组分类树,提取原始信息训练集,通过基尼指数最小特征对多组分类树进行分裂,以获取分裂后的若干分类树,构成随机森林模型;
[0017]以语音信息和图像信息为输入,执行随机森林模型,根据随机森林模型的产生一个信息分类结果,实现对语音信息和图像信息的分类筛选,获取可识别的语音信息和图像信息。
[0018]优选地,所述预识别信息提取单元包括:
[0019]可识别结果获取模块,用于获取语音信息和图像信息的预识别结果;
[0020]可识别结果降噪模块,提取语音信息和图像信息的预识别结果,分别对语音信息和图像信息进行降噪处理,其中,降噪处理基于芯片加密降噪规则进行,以获取降噪后的可识别结果;
[0021]特征点提取单元,基于降噪后的可识别结果,提取可识别结果的特征点,形成特征点数据集,对特征点数据集进行加密赋码处理,以实现快速通信交互。
[0022]优选地,所述芯片加密降噪规则的算法,具体包括:
[0023]提取语音信息和图像信息的预识别结果,基于已知方差的高斯分布中采样得到噪声属性,以噪声属性为输入,构造降噪训练集以及验证数据集;
[0024]基于卷积神经网络作为Boosting单元,基于SOS算法搭建噪声去除模型,得到降噪的预识别结果。
[0025]优选地,基于SOS算法搭建噪声去除模型过程中,去除了显示的减法约束,且通过迭代算法展开成一次级联数量为m的后向传播算法,以有噪声的预识别结果p为输入,得到降噪的预识别结果f
m
,其中计算降噪的预识别结果f
m
的公式表示为:
[0026][0027]其中,表示膨胀稠密混合卷积神经网络的累加值,下标1、2...m

1、m表示卷积神经网络中后向传播过程中单组级联单元对应的唯一序号,i表示预识别结果的序号,α表示所有可训练的噪声去除模型参数。
[0028]优选地,所述信息识别模块包括:
[0029]赋码提取单元,提取缓存赋码的特征点数据集,根据芯片加密规则对赋码的特征点数据集进行转码;
[0030]特征点同步单元,获取转码后的特征点数据集,搜索特征点数据集对应的特征点密码书,基于密码书的内容和地址变换,得到量化的合成特征点数据集合;
[0031]识别格式转换单元,用于提取量化的合成特征点数据集合,对量化的合成特征点数据集合进行滤波处理,实现二次降噪,并将滤波后的合成特征点数据集合进行格式转换,
转换为可识别的数据集合模式。
[0032]优选地,所述信息识别模块还包括:
[0033]识别数据库建立单元,获取识别样本信息,基于识别样本信息建立并训练数据库;
[0034]识别计算单元,基于识别数据库以及获取的特征点数据集合,对特征点数据集合进行识别判断,获取识别结果。
[0035]优选地,所述识别计算单元包括:
[0036]识别点获取模块,用于获取特征点数据,确定特征点数据的类型,其中,特征点数据的类型包括语音识别以及图像识别;
[0037]特征点匹配模块,提取识别数据库中标准识别点,遍历特征点数据,匹配待识别的特征点数据,获取匹配结果;
[0038]关联概率计算模块,获取匹配的特征点数据,筛除已匹配的特征点数据,得到关联特征点,基于高斯概率分布函数计算关联特征点与识别数据库中标准识别点的匹配概率,判断关联特征点与识别数据库中标准识别点的匹配概率是否大于预设阈值,若大于预设阈值,则匹配关联特征点;
[0039]匹配结果整合模块,整合关联特征点以及已匹配的特征点数据,获取识别结果。
[0040]一种基于所述语音和图像识别芯片的语音和图像识别算法,其特征在于:所述语音和图像识别算法包括:
[0041]采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
[0042]获取待识别的信息,识别判断采集到的信息,获取识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音和图像识别芯片,用于语音和图像的识别监测,其特征在于,所述语音和图像识别芯片包括:信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;识别寄存器,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果;在芯片架构设计中设置识别寄存器、CPU服务器,其中,识别寄存器用于存储反向识别数据,识别寄存器与CPU服务器通信连接。2.如权利要求1所述的语音和图像识别芯片,其特征在于:所述信息采集模块包括:采集响应单元,用于响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元,以实现信息的传递和交互;信息预处理单元,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;预识别信息提取单元,用于获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。3.如权利要求2所述的语音和图像识别芯片,其特征在于:所述基于随机森林模型,训练随机森林分类器,构建分类树的方法,具体包括:获取语音信息和图像信息,抽取语音信息和图像信息作为原始信息训练集;基于基尼指数作为构建准则构建多组分类树,提取原始信息训练集,通过基尼指数最小特征对多组分类树进行分裂,以获取分裂后的若干分类树,构成随机森林模型;以语音信息和图像信息为输入,执行随机森林模型,根据随机森林模型的产生一个信息分类结果,实现对语音信息和图像信息的分类筛选,获取可识别的语音信息和图像信息。4.如权利要求3所述的语音和图像识别芯片,其特征在于:所述预识别信息提取单元包括:可识别结果获取模块,用于获取语音信息和图像信息的预识别结果;可识别结果降噪模块,提取语音信息和图像信息的预识别结果,分别对语音信息和图像信息进行降噪处理,其中,降噪处理基于芯片加密降噪规则进行,以获取降噪后的可识别结果;特征点提取单元,基于降噪后的可识别结果,提取可识别结果的特征点,形成特征点数据集,对特征点数据集进行加密赋码处理,以实现快速通信交互。5.如权利要求4所述的语音和图像识别芯片,其特征在于:所述芯片加密降噪规则的算法,具体包括:提取语音信息和图像信息的预识别结果,基于已知方差的高斯分布中采样得到噪声属性,以噪声属性为输入,构造降噪训练集以及验证数据集;基于卷积神经网络作为Boosting单元,基于SOS算法搭建噪声去除模型,得到降噪的预识别结果。6.如权利要求5所述的语音和图...

【专利技术属性】
技术研发人员:张峰
申请(专利权)人:张峰
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1