一种智能电视声控识别系统及其识别方法技术方案

技术编号:20007058 阅读:77 留言:0更新日期:2019-01-05 18:40
本发明专利技术公开了一种智能电视声控识别系统及其识别方法,所述系统包括功放模块、4个麦克风、功放音过滤模块、音频解码器、语音识别模块和指令控制模块,4个所述麦克风横向并列设置,4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号输入到功放音过滤模块;以功放声音信号作为参考信号,通过功放音过滤模块将环境声音信号中的功放声音信号进行消除,再经音频解码器解码后,语音识别模块对其进行识别,并将识别出的指令发送至指令控制模块,通过指令控制模块控制电视机进行操作;具有语音识别精度高、抗干扰能力强、语音识别速度快、功能丰富的优点。

An Intelligent Television Acoustic Control Recognition System and Its Recognition Method

The invention discloses an intelligent television sound control recognition system and its recognition method. The system includes power amplifier module, four microphones, power amplifier sound filter module, audio decoder, speech recognition module and instruction control module, four microphones are arranged in parallel horizontally, four environmental sound signals output by microphones and power amplifier sound signals output by power amplifier module are input to power. Audio amplifier filter module; with the amplifier sound signal as reference signal, the amplifier sound signal in the environmental sound signal is eliminated by the amplifier sound filter module, and then decoded by the audio decoder, the speech recognition module recognizes the amplifier sound signal, and sends the identified instructions to the instruction control module, which controls the television through the instruction control module for operation; with speech recognition. It has the advantages of high accuracy, strong anti-interference ability, fast speech recognition speed and abundant functions.

【技术实现步骤摘要】
一种智能电视声控识别系统及其识别方法
本专利技术涉及智能交互
,更具体地说,它涉及一种智能电视声控识别系统及其识别方法。
技术介绍
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。以电视机领域来说,也有着较久的交互技术发展历史。从最初的面板控制到后来的遥控器远程控制,随着时代及科技的发展,人们也追求着让电视听懂人说的话,通过语音控制电视机进行切换、操作。在公告号为CN104363545A的中国专利中公开了一种音频降噪电路、采用该音频降噪电路的智能终端机及教学方法,采用双麦克风阵列消除噪音,利用ICA算法进行盲源分析,实现对语音的提取和分离,提高嘈杂环境下的语音质量,使用户在嘈杂的环境下也可以得到清晰的语音通话或录制效果;该专利对于稳态噪声,通过在频域上进行功率谱的叠加,然后采用滤波消除;而对于非稳态噪声,通过不同位置上的两个麦克风,对接收到的信号进行处理,根据其相位,幅度,频率,信噪比等的不同特征,从而分离出所有不希望得到的稳态噪声和非稳态噪声,从而实现去噪。然而在面对电视机场景下的语音识别时,仍存在扬声器播放音乐、旁边人聊天等声音的干扰无法消除,会影响真正需要控制电视机操作的人的语音识别的准确度。其降噪技术需要进一步的改善。
技术实现思路
针对现有技术存在的不足,本专利技术的目的一在于提供一种智能电视声控识别系统,具有较强的抗噪声干扰能力、较为精准的语音识别精度。为实现上述目的,本专利技术提供了如下技术方案:一种智能电视声控识别系统,包括功放模块、4个麦克风、功放音过滤模块、音频解码器、语音识别模块和指令控制模块,4个所述麦克风横向并列设置,4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号输入到功放音过滤模块;以功放声音信号作为参考信号,通过功放音过滤模块将环境声音信号中的功放声音信号进行消除,再经音频解码器解码后,语音识别模块对其进行识别,并将识别出的指令发送至指令控制模块,通过指令控制模块控制电视机进行操作。通过采用上述技术方案,面对电视机的语音控制场景下,往往面对的是一长排沙发的人的语音控制,用来控制的语音发送源的来源面较广,而单麦克风的收音面比较短而窄,超出一定范围后收音的声音强度有较大减弱,本方案通过并排设置4个麦克风进行收音,协同叠加收音,可以较好地满足生活中看电视时的语音控制需求,达到较为灵敏的控制响应效果。同时在电视机播放电视节目时,在功放模块中会发出较大的声音,往往比看电视的人的语音控制的声音还大,而且功放模块的声源离麦克风的距离普遍还是较近。麦克风一起收进来的声音,会直接影响本系统的语音识别精度。而通过上述技术方案,通过功放音过滤模块接入功放模块的功放声音信号,系统可以知道了电视机正在播放什么,然后进一步的将这一部分声音从麦克风收进来的环境声音信号中过滤掉,去除了电视机声音对语音识别的干扰,较大地提高了语音识别的精度。进一步的,4个所述麦克风输出的环境声音信号和功放模块输出的功放声音信号通过8路I2S音频输入总线输入到所述功放音过滤模块中,8路I2S音频输入总线的其中4路接入口分别电连接着4个所述麦克风的信号输出口,8路I2S音频输入总线另外的4路接入口与所述功放模块的4个AV接口相电连接。通过采用上述技术方案,8路I2S音频输入总线为I2S(Inter—ICSound)总线,又称集成电路内置音频总线,是为数字音频设备之间的音频数据传输而制定的一种总线标准,该总线专门用于音频设备之间的数据传输,广泛应用于各种多媒体系统。它采用了沿独立的导线传输时钟与数据信号的设计,通过将数据和时钟信号分离,避免了因时差诱发的失真,为用户节省了购买抵抗音频抖动的专业设备的费用。在将8路I2S音频输入总线与电视机的功放模块进行连接时,只需插入电视机固有的4个AV接口即可实现便捷连接。不要额外改装、操作便捷、安全。且可靠性高,声音传输稳定性较强。进一步的,4个所述麦克风所处的竖直平面位于所述功放模块所在竖直平面的前方。通过采用上述技术方案,使得功放模块位于麦克风后方,由于麦克风的收音范围较窄,可以较大地降低麦克风收进来的功放模块放出的声音,使得人发出语音声音更加突出,防止完全盖住人的语音声音,在此基础上,再以功放声音信号以一定的权重比去消除环境声音信号中的功放模块的声音,可以更加容易剥离出人的语音信号,达到了较为精准的语音识别的效果。进一步的,还包括背景音过滤模块,背景音过滤模块耦接在功放音过滤模块和音频解码器之间,在功放音过滤模块将环境声音信号中的功放声音信号消除后,背景音过滤模块再将环境声音信号中的背景音进行过滤,得到语音信号,再将语音信号传至音频解码器处解码;其中,所述背景音过滤模块在对环境声音信号进行过滤时,先对声音信号的位置进行判断,将环境声音信号中在一控制区域外的位置的声音过滤掉。进一步的,所述背景音过滤模块根据比较4个麦克风传来的环境声音信号的声音强度的比例关系以及4个麦克风之间的间距测算出环境声音信号中声音的位置。通过采用上述技术方案,因为在实际家庭生活环境中,当坐在沙发上看电视的人发出控制电视操作的语音时,在一旁聊天的人说话的声音也会收入到麦克风中就会造成语音指令的误识别,通过上述技术方案的设置,由于采用的4个麦克风并排设置的设计,不同位置发出声音到达各麦克风的强度、相位都存在着一定的差别,且与其所在的位置呈比例关系,依据此可以在空间中建立一套坐标,可以划定位于电视机前方的一定区域为控制区域,只有这个区域内发出的声源可以被识别,其他位置的声源可以直接过滤掉,可以到达较为精准的语音识别的效果,降低了误识别的情景发生,实现了定向识别。进一步的,还包括摄像头以及与所述摄像头相耦接的人脸识别模块,摄像头将其拍摄的画面发送至所述人脸识别模块,所述人脸识别模块对其进行识别,并将识别出的结果发送至与其相耦接的指令控制模块处,通过指令控制模块控制电视机进行操作。通过采用上述技术方案,为了满足现在人们对于智能电视的不断增高的要求,本技术方案中增加了拍摄以及人脸识别的功能,配合着降噪作用的麦克风,可以满足高质量的视频通话功能,且也可以作为支付、游戏等场景下的人物身份的识别功能,更加多元化,多功能化。进一步的,还包括耦接着所述人脸识别模块的红外传感器,当所述红外传感器感应到电视机前存在人时所述人脸识别模块再对所述摄像头发送来的画面进行人脸识别。通过采用上述技术方案,通过红外传感器确认摄像头前方的是人而不是照片后再进行人脸识别,可以减少资源损耗,节能,减少算法运作及反应速度,也避免了机器的误判断,比如镜头中的一个包装盒上的人脸就误识别成了人,在上述技术方案下就可以避免这种误判断,特别在某些支付场景下,可以增强安全性,避免账户资金被人用照片人脸识别盗走,设计上更加安全。进一步的,当所述人脸识别模块在控制区域内识别到人存在时,所述指令控制模块再执行语音识别模块识别出的指令。通过采用上述技术方案,在实际家庭生活环境中,在一旁聊天的人说话的声音也会收入到麦克风中就会造本文档来自技高网...

【技术保护点】
1.一种智能电视声控识别系统,其特征在于,包括功放模块(1)、4个麦克风、功放音过滤模块(3)、音频解码器(5)、语音识别模块(6)和指令控制模块(7),4个所述麦克风横向并列设置,4个所述麦克风输出的环境声音信号和功放模块(1)输出的功放声音信号输入到功放音过滤模块(3);以功放声音信号作为参考信号,通过功放音过滤模块(3)将环境声音信号中的功放声音信号进行消除,再经音频解码器(5)解码后,语音识别模块(6)对其进行识别,并将识别出的指令发送至指令控制模块(7),通过指令控制模块(7)控制电视机进行操作。

【技术特征摘要】
1.一种智能电视声控识别系统,其特征在于,包括功放模块(1)、4个麦克风、功放音过滤模块(3)、音频解码器(5)、语音识别模块(6)和指令控制模块(7),4个所述麦克风横向并列设置,4个所述麦克风输出的环境声音信号和功放模块(1)输出的功放声音信号输入到功放音过滤模块(3);以功放声音信号作为参考信号,通过功放音过滤模块(3)将环境声音信号中的功放声音信号进行消除,再经音频解码器(5)解码后,语音识别模块(6)对其进行识别,并将识别出的指令发送至指令控制模块(7),通过指令控制模块(7)控制电视机进行操作。2.根据权利要求1所述的一种智能电视声控识别系统,其特征在于,4个所述麦克风输出的环境声音信号和功放模块(1)输出的功放声音信号通过8路I2S音频输入总线(2)输入到所述功放音过滤模块(3)中,8路I2S音频输入总线(2)的其中4路接入口分别电连接着4个所述麦克风的信号输出口,8路I2S音频输入总线(2)另外的4路接入口与所述功放模块(1)的4个AV接口相电连接。3.根据权利要求1所述的一种智能电视声控识别系统,其特征在于,4个所述麦克风所处的竖直平面位于所述功放模块(1)所在竖直平面的前方。4.根据权利要求1所述的一种智能电视声控识别系统,其特征在于,还包括背景音过滤模块(4),背景音过滤模块(4)耦接在功放音过滤模块(3)和音频解码器(5)之间,在功放音过滤模块(3)将环境声音信号中的功放声音信号消除后,背景音过滤模块(4)再将环境声音信号中的背景音进行过滤,得到语音信号,再将语音信号传至音频解码器(5)处解码;其中,所述背景音过滤模块(4)在对环境声音信号进行过滤时,先对声音信号的位置进行判断,将环境声音信号中在一控制区域(12)外的位置的声音过滤掉。5.根据权利要求4所述的一种智能电视声控识别系统,其特征在于,所述背景音过滤模块(4)根据比较4个麦克风传来的环境声音信号的声音强度的比例关系...

【专利技术属性】
技术研发人员:张思芳刘屹
申请(专利权)人:深圳北极鸥半导体有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1