一种语音采集方法、装置、设备及存储介质制造方法及图纸

技术编号:23987998 阅读:22 留言:0更新日期:2020-04-29 14:31
本发明专利技术公开了一种语音采集方法、装置、设备及存储介质,用于提高语音采集的准确性。在方法中,先获得多个声源对象的图像信息以对多个声源对象进行有效识别,再按照预设确定规则从多个声源对象中确定目标声源对象,进而根据获得的图像信息确定目标声源对象的目标位置,然后再控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制,由于目标位置是目标声源对象所在的位置,相当于是对目标声源对象所发出的语音信号进行增强采集,同时通过抑制其它声源对象的语音信号的方式来提高对目标声源对象的语音信号采集的准确性和有效性,从而提高语音采集的准确性。

A voice acquisition method, device, equipment and storage medium

【技术实现步骤摘要】
一种语音采集方法、装置、设备及存储介质
本专利技术涉及信息处理
,尤其涉及一种语音采集方法、装置、设备及存储介质。
技术介绍
语音采集技术在现代社会中的应用越来越广泛,例如在教育、会议、家电控制等各个方面都有着广泛的应用,在语音识别、语音控制、智能交互等领域对语音采集技术有比较高的指标要求,要求采集的语音清晰、准确。然而,在嘈杂的环境中采集语音时,例如在包括多个声源(例如多个用户)的环境中采集到的语音通常是多个用户的混合语音信息,这样的话就难以对感兴趣的某个用户的语音进行准确的采集,也就是说,目前的在多声源的场景下语音采集的准确性较低,使得最终采集到的语音可能并不是最希望采集到的语音,例如在语音控制过程中,由于混合的语音信息还可能导致控制出错,用户体验较差。
技术实现思路
本专利技术实施例提供一种语音采集方法、装置、设备及存储介质,用于提高语音采集的准确性。第一方面,提供一种语音采集方法,所述方法包括:获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;根据所述图像信息,确定所述目标声源对象的目标位置;控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。可选的,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象。可选的,将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象,包括:将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,在将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。可选的,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:根据获取图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。可选的,在将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,所述方法还包括:获得每个声源对象与自身的声纹特征之间的关联对应关系。第二方面,提供一种语音采集装置,该语音采集装置包括:获取模块,用于获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;第一确定模块,用于按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;第二确定模块,用于根据所述图像信息,确定所述目标声源对象的目标位置;控制模块,用于控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。可选的,所述第一确定模块用于:对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象。可选的,所述第一确定模块用于:将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,在将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。可选的,所述第一确定模块用于:根据获得图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。可选的,所述语音采集装置还包括获得模块,用于:在所述第一确定模块将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,获得每个声源对象与自身的声纹特征之间的关联对应关系。第三方面,提供一种语音采集设备,该语音采集设备包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤;语音采集模块,用于根据所述处理器的控制进行语音采集。第四方面,提供一种存储介质,该存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。在本专利技术实施例中,在包括多声源对象的应用场景下,可以先获得多个声源对象的图像信息以对多个声源对象进行有效识别,并可以按照预设确定规则从多个声源对象中确定目标声源对象,进而可以根据获得的图像信息来确定目标声源对象的目标位置,然后再控制语音采集模块对目标位置的语音信号进行增强采集,以及对目标位置外的语音信号进行抑制,由于目标位置是目标声源对象所在的位置,相当于是对目标声源对象所发出的语音信号进行增强采集,同时通过抑制其它声源对象的语音信号的方式来提高对目标声源对象的语音信号采集的准确性和有效性,从而提高语音采集的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。图1为本专利技术实施例中的语音采集方法的流程图;图2为本专利技术实施例中的包括多个声源对象的图像信息的示意图;图3为本专利技术实施例中的一种麦克风阵列采集语音信号的示意图;图4为本专利技术实施例中的一种麦克风阵列采集语音信号的另一示意图;图5为本专利技术实施例中的语音采集装置的结构框图;图6为本专利技术实施例中的语音采集设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本专利技术的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例中,“多个”可以表示至少两个,例如可本文档来自技高网...

【技术保护点】
1.一种语音采集方法,其特征在于,所述方法包括:/n获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;/n按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;/n根据所述图像信息,确定所述目标声源对象的目标位置;/n控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。/n

【技术特征摘要】
1.一种语音采集方法,其特征在于,所述方法包括:
获取至少两个声源对象的图像信息,其中,每个声源对象为能够输出语音信息的对象;
按照预设确定规则,从所述至少两个声源对象中确定目标声源对象;
根据所述图像信息,确定所述目标声源对象的目标位置;
控制语音采集模块对所述目标位置的语音信号进行增强采集,以及对所述目标位置外的语音信号进行抑制。


2.如权利要求1所述的方法,其特征在于,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
对所述至少两个声源对象的语音信息分别进行语音识别,以获得每个声源对象对应的语音内容;
将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象。


3.如权利要求2所述的方法,其特征在于,将包括预设关键词的语音内容对应的声源对象确定为所述目标声源对象,包括:
将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象;或者,
在将最早包括所述预设关键词的语音内容对应的声源对象确定为所述目标声源对象之后,将所述目标声源对象更新为再次包括所述预设关键词的语音内容对应的声源对象。


4.如权利要求1所述的方法,其特征在于,按照预设确定规则,从所述至少两个声源对象中确定目标声源对象,包括:
根据获得图像信息对所述至少两个声源对象进行识别,并将属于预定对象集合的声源对象确定为所述目标声源对象;和/或,
对所述至少两个声源对象的语音信息进行声纹识别,并将声纹属于预定声纹集合的声源对象确定为所述目标声源对象。


5.如权利要求4所述的方法,其特征在于,在将声纹属于预定声纹集合的声源对象确定为所述目标声源对象之前,所述方法还包括:
...

【专利技术属性】
技术研发人员:洪泽
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1