本发明专利技术提供了一种声源识别优化方法,该方法:步骤S1、采集不同人语音时的视频,并调用语音识别抓取文字,形成多个人的样本数据;步骤S2、通过建立神经网络模型,将所述样本数据输入神经网络模型,获得最优的声母、韵母、以及完整拼音数据,形成神经网络模型参数组1;步骤S3、通过手持设备摄像头拍摄会议各个成员面部,通过opencv获取各个人脸序列,通过神经网络模型将人脸序列代入神经网络模型参数组1中,输出对应的拼音音节;步骤S4、通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置;降低声源识别的成本。别的成本。别的成本。
【技术实现步骤摘要】
一种声源识别优化方法及其系统
[0001]本专利技术涉及声源识别
,特别是一种声源识别优化方法及其系统。
技术介绍
[0002]噪声源识别的方法很多,应用时要根据实际对象和条件采用一种或几种合理的方法。噪声源识别技术的发展是与噪声测试技术的进步紧密相连的,随着数字信号处理和计算机技术的出现和发展,噪声源识别技术在近数十年里有了很大的进步,新的识别技术和仪器设备不断出现,目前声源识别技术是通过麦克风阵列定位声音来源的方向,但是,麦克风阵列成本高,或者很多设备本身只有单麦克风就无法确定声音来源。
技术实现思路
[0003]为克服上述问题,本专利技术的目的是提供一种声源识别优化方法,能准确识别出会议中发言人的位置。
[0004]本专利技术采用以下方案实现:一种声源识别优化方法,所述方法包括如下步骤:
[0005]步骤S1、采集不同人语音时的视频,并调用语音识别抓取文字,将文字转为拼音声母、韵母和完整拼音,标记视频中图片连续帧和完整拼音的对应关系,形成多个人的样本数据;
[0006]步骤S2、通过建立神经网络模型,将所述样本数据输入神经网络模型,获得最优的声母、韵母、以及完整拼音数据,形成神经网络模型参数组1;
[0007]步骤S3、通过手持设备摄像头拍摄会议各个成员面部,通过opencv获取各个人脸序列,通过神经网络模型将人脸序列代入神经网络模型参数组1中,输出对应的拼音音节;
[0008]步骤S4、通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置。
[0009]进一步的,所述步骤S1中通过一文件进行记录视频中图片连续帧和完整拼音的对应关系,其中记录的是视频中第i个帧到第j个帧的图片连续帧是属于对应的一个完整拼音;其中,i、j是整数,j>i,标记后,对图片进行亮度和颜色调整最后形成多个人的样本数据。
[0010]进一步的,所述方法通过采集大量的样本数据,样本数据包含人脸序列及每个人脸序列对应的拼音;通过建立卷积神经网络和LSTM网络,将人脸序列每一帧通过卷积神经网络训练出的参数再传入LSTM网络中,最终结果与通过语音识别转换出的拼音数据做比对,将神经网络模型使用开源深度学习框架tensorflow进行卷积神经网络中的参数和LSTM网络中的参数取到最优值,即得到神经网络模型参数组1。
[0011]进一步的,所述步骤S3中通过opencv获取到每一帧人脸的位置信息,然后,把每一帧的人脸位置信息根据时间序列穿起来,得到人脸序列。
[0012]本专利技术提供了一种声源识别优化系统,所述系统包括:样本数据生成模块、神经网络训练模块、人脸预测拼音模块、以及声源判定模块;
[0013]所述样本数据生成模块,采集不同人语音时的视频,并调用语音识别抓取文字,将文字转为拼音声母、韵母和完整拼音,标记视频中图片连续帧和完整拼音的对应关系,形成多个人的样本数据;
[0014]所述神经网络训练模块,通过建立神经网络模型,将所述样本数据输入神经网络模型,获得最优的声母、韵母、以及完整拼音数据,形成神经网络模型参数组1;
[0015]所述人脸预测拼音模块,通过手持设备摄像头拍摄会议各个成员面部,通过opencv获取各个人脸序列,通过神经网络模型将人脸序列代入神经网络模型参数组1中,输出对应的拼音音节;
[0016]所述声源判定模块,通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置。
[0017]进一步的,所述样本数据生成模块中通过一文件进行记录视频中图片连续帧和完整拼音的对应关系,其中记录的是视频中第i个帧到第j个帧的图片连续帧是属于对应的一个完整拼音;其中,i、j是整数,j>i,标记后,对图片进行亮度和颜色调整最后形成多个人的样本数据。
[0018]进一步的,所述系统通过采集大量的样本数据,样本数据包含人脸序列及每个人脸序列对应的拼音;通过建立卷积神经网络和LSTM网络,将人脸序列每一帧通过卷积神经网络训练出的参数再传入LSTM网络中,最终结果与通过语音识别转换出的拼音数据做比对,将神经网络模型使用开源深度学习框架tensorflow进行卷积神经网络中的参数和LSTM网络中的参数取到最优值,即得到神经网络模型参数组1。
[0019]进一步的,所述人脸预测拼音模块中通过opencv获取到每一帧人脸的位置信息,然后,把每一帧的人脸位置信息根据时间序列穿起来,得到人脸序列。
[0020]本专利技术的有益效果在于:通过神经网络模型对样本数据进行训练,在通过人脸识别将人脸序列代入神经网络模型进行输出拼音音节,通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置;这样在没有麦克风阵列的设备,也能准确识别出会议中发言人的位置;降低了识别成本。
附图说明
[0021]图1是本专利技术的方法流程示意图。
[0022]图2是本专利技术的系统原理框图。
具体实施方式
[0023]下面结合附图对本专利技术做进一步说明。
[0024]请参阅图1所示,本专利技术的一种声源识别优化方法,所述方法包括如下步骤:
[0025]步骤S1、采集不同人语音时的视频,并调用语音识别抓取文字,将文字转为拼音声母、韵母和完整拼音,标记视频中图片连续帧和完整拼音的对应关系,形成多个人的样本数据;
[0026]步骤S2、通过建立神经网络模型,将所述样本数据输入神经网络模型,获得最优的声母、韵母、以及完整拼音数据,形成神经网络模型参数组1;
[0027]步骤S3、通过手持设备摄像头拍摄会议各个成员面部,通过opencv获取各个人脸序列,通过神经网络模型将人脸序列代入神经网络模型参数组1中,输出对应的拼音音节;
[0028]步骤S4、通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置。
[0029]下面结合一具体实施例对本专利技术做进一步说明:
[0030]1.通过调用现有的语音识别,将语音抓取文字,然后将文字转为拼音声母和韵母,和完整拼音的视频关键帧图片,标记图片连续帧和拼音的对应关系,通过对图片亮度,颜色调整,生成更多样本。
[0031]例如:调用科大讯飞api,将”你好”的语音转为你好,然后再转为拼音ni hao。
[0032]通过现有技术人脸检测,提取出样本视频中的说”你好”,对应的人脸序列,将人脸序列进行数据增强(改变每一帧图片亮度,颜色,随机调整人脸序列速率),以及对应的拼音为ni hao。其中,通过一文件进行记录视频中图片连续帧和完整拼音的对应关系,其中记录的是视频中第i个帧到第j个帧的图片连续帧是属于对应的一个完整拼音;其中,i、j是整数,j>i,标记后,对图本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种声源识别优化方法,其特征在于:所述方法包括如下步骤:步骤S1、采集不同人语音时的视频,并调用语音识别抓取文字,将文字转为拼音声母、韵母和完整拼音,标记视频中图片连续帧和完整拼音的对应关系,形成多个人的样本数据;步骤S2、通过建立神经网络模型,将所述样本数据输入神经网络模型,获得最优的声母、韵母、以及完整拼音数据,形成神经网络模型参数组1;步骤S3、通过手持设备摄像头拍摄会议各个成员面部,通过opencv获取各个人脸序列,通过神经网络模型将人脸序列代入神经网络模型参数组1中,输出对应的拼音音节;步骤S4、通过麦克风获取当前音频,得到预测拼音音节,将预测拼音音节与人脸得到的拼音音节比对,匹配对应的人脸,则当前声音来源即为人脸位置。2.根据权利要求1所述的一种声源识别优化方法,其特征在于:所述步骤S1中通过一文件进行记录视频中图片连续帧和完整拼音的对应关系,其中记录的是视频中第i个帧到第j个帧的图片连续帧是属于对应的一个完整拼音;其中,i、j是整数,j>i,标记后,对图片进行亮度和颜色调整最后形成多个人的样本数据。3.根据权利要求1所述的一种声源识别优化方法,其特征在于:所述方法通过采集大量的样本数据,样本数据包含人脸序列及每个人脸序列对应的拼音;通过建立卷积神经网络和LSTM网络,将人脸序列每一帧通过卷积神经网络训练出的参数再传入LSTM网络中,最终结果与通过语音识别转换出的拼音数据做比对,将神经网络模型使用开源深度学习框架tensorflow进行卷积神经网络中的参数和LSTM网络中的参数取到最优值,即得到神经网络模型参数组1。4.根据权利要求1所述的一种声源识别优化方法,其特征在于:所述步骤S3中通过opencv获取到每一帧人脸的位置信息,然后,把每一帧的人脸位置信息根据时间序列穿起来,得到人脸序列。5.一种声源识别优化系统,其特征在于:所述系统包括:样本数据生成模块、神经网...
【专利技术属性】
技术研发人员:刘德建,陈丛亮,李佳,
申请(专利权)人:福建天晴在线互动科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。