语音处理装置和语音处理方法制造方法及图纸

技术编号:10529090 阅读:102 留言:0更新日期:2014-10-15 11:05
一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

【技术实现步骤摘要】
【专利摘要】一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。【专利说明】
本专利技术涉及一种,特别是涉及分辨来自使用者的语 音和环境噪音。
技术介绍
语音识别(speech recognition)的技术,是在麦克风接收使用者的语音指令后, 利用处理器将指令的声音讯号与内建数据库比对,输出最接近的结果。 目前语音识别的技术,在无环境噪音的情况下,能够正确识别语音指令。问题是接 收的声音无法控制,也就是说,不管是使用者的指令或者环境噪音,都会被接收而识别。如 图1所示,电视120可通过麦克风130接收使用者140的语音指令145。但是麦克风130不 仅接收使用者140的语音指令145,也接收电视120本身发出的经由墙壁110反弹的声音讯 号125,以及路人150的语音155。电视120发出的声音讯号125和路人150的语音155都 是环境噪音。 在一般有环境噪音的情况下,语音指令可能受到环境噪音的混杂和干扰,是否能 识别还是未知数。尤其是路人的语音和使用者的语音指令更难以分辨,这也是造成识别错 误的主因之一。 可知环境噪音的干扰,在语音识别领域是亟待解决的重要问题。 【专
技术实现思路
】 本专利技术提供一种,可利用声音和影片定位语音来 源,以排除环境噪音的干扰,正确识别使用者的语音指令。 本专利技术的语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。 摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中 的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设 条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包 括上述语音起始时间和上述变动时间的误差小于一临界值。 本专利技术的语音处理方法包括下列步骤:接收声音讯号;取得声音讯号的语音起始 时间;拍摄影片;检测影片中的人脸;检测人脸的嘴型轮廓的变动时间;检验至少一个预设 条件;以及在上述至少一个预设条件全部成立时,对上述声音讯号进行语音识别。其中,上 述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。 为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并结合附图详细 说明如下。 【专利附图】【附图说明】 图1是现有的环境噪音的干扰示意图。 图2是依照本专利技术一实施例的一种语音处理装置的示意图。 图3、图4和图5是依照本专利技术一实施例的一种语音处理方法的流程图。 图6是依照本专利技术一实施例的判断声源方向的示意图。 图7是依照本专利技术一实施例的一种语音处理方法的流程图。 图8是依照本专利技术一实施例的检测嘴型轮廓变动的示意图。 附图符号说明 110:墙壁 120:电视 125 :声音讯号 130 :麦克风 140:使用者 145 :语音指令 150 :路人 155 :语音 200 :语音处理装置 210 :收音器 215:声音讯号 220 :摄影机 225 :影片 230 :处理器 310 ?340、410 ?440、510 ?560 :方法步骤 610 :画面 620 :人脸 630 :使用者 631、632 :声首讯号 635:时间差或相位差 636:方向角度 650 :语音处理装置的前方表面 651、652:麦克风 710?780 :方法步骤 810、820 :画面 830 :人脸 832 :嘴型轮廓 834 :外接四边形 【具体实施方式】 图2是依照本专利技术一实施例的一种语音处理装置200的示意图。语音处理装置 200可以是任何一种可接受使用者的语音指令操作的电子装置,例如智能型手机、个人数字 助理(PDA:personal digital assistant)、平板计算机(tablet computer)、笔记型计算 机、个人计算机、或各种智能型家电。语音处理装置200包括收音器210、摄影机220、以及 处理器230。处理器230耦接收音器210和摄影机220。 图3是依照本专利技术一实施例的一种语音处理方法的流程图,此方法可由语音处理 装置200执行。收音器210在步骤310接收声音讯号215。摄影机220在步骤320拍摄一 段影片225。处理器230在步骤330检验至少一个预设条件,这些预设条件和声音讯号215 以及影片225相关。如果上述的至少一个预设条件全部成立,则处理器230在步骤340对 声音讯号215进行语音识别。 图4是依照本专利技术一实施例的一种语音处理方法的流程图。图4的方法流程是步 骤330的预设条件其中之一的检验流程,图4的方法流程所检验的预设条件是声音讯号215 必须来自预设方向。步骤330可包括图4的方法流程,图4的方法流程可由处理器230执 行。 以下说明图4的方法流程。首先,在步骤410判断声音讯号215的声源方向(或称 为方向角度),至于如何判断声源方向,在图6有进一步说明。在步骤420检查声源方向是 否符合预设方向。如果符合,则在步骤430判定图4的方法流程所检验的预设条件成立,反 之,则在步骤440判定图4的方法流程所检验的预设条件不成立。 此处的预设方向,是根据预想中使用者操作语音处理装置200时所在的位置。例 如,当语音处理装置200是一台电视,则进行操作的使用者会在电视前面,因此上述的预设 方向可设定为电视正前方。上述的符合是指声音讯号215的声源方向和上述预设方向的角 度误差必须小于一个临界值,例如上述的角度误差必须小于五度。这个角度误差的限制条 件可以是步骤330所检验的预设条件其中之一。 图5是依照本专利技术一实施例的一种语音处理方法的流程图。图5的方法流程是步 骤330的预设条件其中之一的检验流程,图5的方法流程所检验的预设条件是声音讯号215 的声源方向必须符合使用者的人脸所在的方向。步骤330可包括图5的方法流程,图5的 方法流程可由处理器230执行。 以下说明图5的方法流程。首先,在步骤510判断声音讯号215的声源方向,至于 声源方向如何判断则如图6所示。声音讯号215来自使用者630,声音讯号215包括两个声 音讯号631和632。语音处理装置200的前方表面标不为650。收音器210包括两个麦克 风651和652,麦克风651和652分别接收声音讯号631和632。处理器230可根据声音讯 号631和632的时间差或相位差635判断声音讯号215的方向角度636。 例如,处理器230可将麦克风651和652所收到的声音讯号631和632作讯号平 移,检测声音讯号631和632其中两个最强讯号交迭的时间点,计算此时的平本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201310144427.html" title="语音处理装置和语音处理方法原文来自X技术">语音处理装置和语音处理方法</a>

【技术保护点】
一种语音处理装置,包括:一收音器,接收一声音讯号;一摄影机,拍摄一影片;以及一处理器,耦接该收音器和该摄影机,取得该声音讯号的一语音起始时间,检测该影片中的一人脸,检测该人脸的嘴型轮廓的变动时间,检验至少一预设条件,并且在该至少一预设条件全部成立时对该声音讯号进行语音识别,其中该至少一预设条件包括该语音起始时间和该变动时间的误差小于一第一临界值。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:萧希群魏守德
申请(专利权)人:纬创资通股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1