用于执行麦克风波束成型的方法和设备技术

技术编号:8688371 阅读:188 留言:0更新日期:2013-05-09 08:28
用于执行麦克风波束成型的方法和设备。该方法包括识别说话者的语音、搜索预先存储的与该说话者相关联的图像、基于该图像通过照相机搜索该说话者、识别该说话者的位置以及根据该说话者的位置执行麦克风波束成型。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于执行麦克风波束成型的方法和设备,并且尤其涉及用于执行根据说话者的位置适应性地改变波束成型的方向的麦克风波束成型的方法和设备。
技术介绍
在信息和通信技术中,语音识别的发展引人关注。为了准确识别说话者的语音,需要用于区分说话者的语音与环境噪声并且去除该噪声的技术。然而,由于说话者连续移动,所以难以准确区分说话者的语音与噪声。
技术实现思路
为了解决现有技术的上述缺陷,首要目的是提供一种用于适应性地执行麦克风波束成型的方法和设备。附图说明为了更完整地理解本公开及其优点,现在参考结合附图给出的以下说明,其中,在附图中相同的附图标记表示相同的部分:图1是示出根据本专利技术一实施例的执行麦克风波束成型的方法的流程图;图2是示出图1的方法中通过识别说话者的语音识别说话者的操作的流程图;图3是示出根据本专利技术另一实施例的执行麦克风波束成型的方法的流程图;图4a和图4b是用于解释根据本专利技术一实施例的、根据说话者的位置控制波束成型的方向的方法的视图;图5a和图5b是用于解释根据本专利技术另一实施例的、根据说话者的位置控制波束成型的方向的方法的视图;以及图6是示出根据本专利技术一实施例的用于执行麦克风波束成型的设备的框图。具体实施例方式根据本专利技术的一方面,提供一种执行麦克风波束成型的方法。该方法包括识别说话者的语音,并且搜索预先存储的与该说话者相关联的图像。该方法还包括基于该图像通过照相机搜索该说话者,并且识别该说话者的位置。该方法还包括根据该说话者的位置执行麦克风波束成型。识别该说话者的语音可以包括接收来自该说话者的语音信号,从该语音信号中提取包括预定语音信号的部分,并且基于该部分识别说话者。识别该说话者可以包括通过比较所述预定语音信号与预先从一个或多个说话者获取并且存储的语音信号来识别该说话者。搜索该说话者可以包括通过比较通过照相机获取的图像数据与预先存储的与一个或多个说话者相关联的图像数据,从通过照相机获取的图像数据中提取与说话者相对应的对象。识别所述位置可以包括基于与该对象有关的信息确定该说话者的位置是否改变到改变后的位置,其中执行麦克风波束成型包括,如果该说话者的位置改变到改变后的位置,则根据改变后的位置适应性地执行麦克风波束成型。执行麦克风波束成型可以包括放大多个区域当中该说话者所处的区域中产生的语音,并且降低其他区域中产生的语音。根据本专利技术的另一方面,提供一种用于执行麦克风波束成型的设备。该设备包括被配置为识别说话者的语音的语音识别单元。该设备还包括被配置为搜索预先存储的与该说话者相关联的图像的图像搜索单元。该设备进一步包括被配置为基于该图像通过照相机搜索该说话者的说话者搜索单元。该设备进一步包括被配置为识别该说话者的位置的位置识别单元。该设备还包括被配置为根据该说话者的位置执行麦克风波束成型的波束成型执行单元。在下面对本专利技术进行详细描述之前,给出在本专利文件中使用的单词和短语的定义可能是有利的:术语“包括”及其变体表示非限制性的包括;术语“或者”是包含性的,意思是和/或;短语“与…相关联”和“与其相关联”及其变体可以表示包括、被包括在…中、与…互联、包含、包含在…内、连接到…或者与…相连、可与…通信、与…合作、交错、并行、近似于…、绑定到…或者与…绑定、具有、具有…的属性等;术语“控制器”表示控制至少一个操作的任何装置、系统或者其部件,这种装置可以用硬件、固件或软件或者至少其中两者的某种组合来实现。应当指出的是,与任何具体控制器相关联的功能可以集中或分散在本地或远处。本专利文件中提供了某些单词和短语的定义,本领域的技术人员应当理解,在许多情况下,即使不是大多数情况下,这种定义适用于所定义的单词和短语的以前和将来的使用。下面讨论的图1至图6以及用于描述本专利文件中公开的原则的各种实施例仅是示例性的,并且绝不意味着限制本公开的范围。本领域的技术人员将会理解,本公开的原则可以用任何适当配置的装置来实现 。图1是示出根据本专利技术一实施例的执行麦克风波束成型的方法的流程图。在操作SllO中,通过识别说话者的语音来识别说话者。与一个或多个说话者的语音有关的特定信息可以存储在数据库中。例如,可以存储与一个或多个说话者的每个语音有关的平均频率、音调、平均带宽等。在一个实施例中,由一个或多个说话者预先定义的单词(例如,改变到语音识别模式的命令)可以被存储作为语音信号或者与语音信号有关的信息。在操作Slio中,通过从说话者输入的语音信号中提取预定部分(例如,包括预定命令的部分)并且比较该部分的语音信号与存储在数据库中的每个说话者的语音信号来识别说话者。将参照图2详细解释操作SI 10。在操作S120中,搜索与其语音被识别出的说话者相关联的图像。与一个或多个说话者相关联的图像数据可以存储在数据库中。在操作S120中,基于与在操作Slio中识别的说话者相关联的信息,搜索其中存储每个说话者的图像数据的数据库。每个说话者的图像数据可以存储在客户端的内部数据库中或者存储在预定服务器中。在后一情况下,可以通过使用搜索引擎来搜索存储在服务器中的数据库。在操作S130中,基于被搜索出的图像,通过照相机搜索说话者。可以通过比较通过照相机获取的图像数据与在操作S120中搜索出的图像数据,在通过照相机获取的图像数据中搜索与说话者相对应的对象。在操作S140中,识别说话者的位置。用于通过照相机识别说话者的位置的方法可以有多种。尽管下面将解释用于识别说话者的位置的三种方法,但是本实施例不局限于此。在第一方法中,通过比较通过照相机获取的图像数据和与在操作S120中搜索到的说话者相关联的图像数据,在通过照相机获取的图像数据中确认说话者的位置。使用一个图像数据难以准确检测说话者的位置。然而,即使当只使用一个图像数据时,由于可以计算在水平或垂直方向上说话者与基准轴(例如,穿过麦克风阵列中心的轴)的偏离角度,所以可以获取该角度作为位置信息。在第二方法中,通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据,在多个图像数据中确认说话者的位置。当在不同角度同时拍摄到同一对象时,可以计算该对象和照相机之间的距离。因此,在第二方法中,可以获取在水平或垂直方向上说话者与基准点(例如,多个麦克风当中位于中间的麦克风)的偏离角度和与该基准点的距离作为位置信息。在第三方法中,从通过麦克风阵列接收到的说话者的语音信号获取与说话者的位置相关联的第一信息,并且通过比较与在操作S120中搜索到的说话者相关联的图像数据和使用一个或多个照相机在不同角度拍摄的多个图像数据,获取与说话者的位置相关联的第二信息。通过结合第一信息和第二信息确定说话者的位置。如果使用麦克风阵列,则麦克风可以不同地识别从同一个源产生的一个语音信号。这是因为i)语音信号的增益随该语音信号入射到每个麦克风的角度而变化,并且ii)该语音信号被输入的时间点随语音信号和每个麦克风之间的距离而变化。因此,可以通过比较在每个麦克风接收到的语音信号的增益和接收该语音信号的时间点来获取与说话者的位置有关的第一信息。在操作S150中,根据说话者的位置执行麦克风波束成型。波束成型技术涉及选择使用多个麦克风接收语音信号的方向、只接收在所选择的方向上接收到的语音信号并且排除在其本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.09.13 KR 10-2010-00894691.一种执行麦克风波束成型的方法,该方法包括: 识别说话者的语音; 搜索预先存储的与所述说话者相关联的图像; 基于所述图像通过照相机搜索所述说话者; 识别所述说话者的位置;以及 根据所述说话者的位置执行麦克风波束成型。2.根据权利要求1所述的方法,其中,识别所述说话者的语音包括: 接收来自所述说话者的语音信号; 从所述语音信号中提 取包括预定语音信号的部分;以及 基于所述部分识别所述说话者。3.根据权利要求2所述的方法,其中,识别所述说话者包括:通过比较所述预定语音信号与预先从一个或多个说话者获取并存储的语音信号来识别所述说话者。4.根据权利要求1所述的方法,其中,搜索所述说话者包括:通过比较通过所述照相机获取的图像数据和预先存储的与一个或多个说话者相关联的图像数据,从通过所述照相机获取的图像数据中提取与所述说话者相对应的对象。5.根据权利要求4所述的方法,其中,识别所述位置包括:基于与所述对象有关的信息确定所述说话者的位置是否改变到改变后的位置, 其中,执行所述麦克风波束成型包括:如果所述说话者的位置改变到改变后的位置,则根据改变后的位置适应性地执行所述麦克风波束成型。6.根据权利要求1所述的方法,其中,执行所述麦克风波束成型包括:放大多个区域当中所述说话者所处的区域中产生的语音并且降低在其他区域中产生的语音。7.一种用于执行麦克风波束成型的设备,该设备包括: 语音识别单元,其被配置为识别说话者的语音; 图像搜索单元,其被配置为搜索预先存储的与所述说话者相关联的图像; 说话者搜索单元,其被配置为基于所述图像通过照相机搜索所述说话者; 位置识别单元,其被...

【专利技术属性】
技术研发人员:赵晟宰金炫树
申请(专利权)人:三星电子株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1