声源定位方法、装置、智能设备及存储介质制造方法及图纸

技术编号:21032034 阅读:21 留言:0更新日期:2019-05-04 04:38
本发明专利技术涉及语音信号处理技术领域,公开了一种声源定位方法、装置、智能设备及存储介质,所述方法包括:根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;从触发定位操作的PCM数据中提取帧号;将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。本发明专利技术实施例提供的技术方案,提高了声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。

Sound Source Location Method, Device, Intelligent Equipment and Storage Media

The invention relates to the technical field of speech signal processing, and discloses a sound source location method, device, intelligent device and storage medium. The method includes: determining whether to trigger a positioning operation according to PCM data acquired from a speech acquisition device, each frame of PCM data carries a frame number; extracting a frame number from PCM data of trigger positioning operation; transmitting a frame number to a speech. The voice acquisition device makes the voice acquisition device calculate the sound source orientation according to the PCM data corresponding to the frame number. The technical scheme provided by the embodiment of the present invention improves the accuracy of sound source location, realizes far-field pickup, improves the quality of speech recognition and improves the user experience.

【技术实现步骤摘要】
声源定位方法、装置、智能设备及存储介质
本专利技术涉及语音信号处理
,尤其涉及一种声源定位方法、装置、智能设备及存储介质。
技术介绍
目前,市场上有越来越多的产品具有语音交互功能,例如智能音箱、机器人等智能设备。这些智能设备在接收到唤醒指令时,会从睡眠状态转为工作状态,并开始通过语音采集装置采集语音信号,进而可以对该语音信号进行识别和解析,从而响应该语音信号对应的交互指令。显然,在产品功能实现过程中,声源定位是非常重要的,只有准确地定位用户声源方位,才能准确地获取用户发出的语音信号,才能进行正确的响应行为。上述具有语音交互功能的智能设备在接收到唤醒指令后,由智能设备内的控制装置中安装的软件系统的SDK层将唤醒消息通过localsocket的方式发送给语音采集装置。由于消息的传递具有时延性,因此,语音采集装置在收到唤醒消息后,会往后回溯固定的时间以找到唤醒时刻用户的语音信息,并基于唤醒时刻用户的语音信息计算用户的方位,并将方位信息通过localsocket的方式反馈给SDK层。由于唤醒功能一般在智能设备中实现,而智能设备受限于成本等原因,硬件规格往往不高。当智能设备的CPU或内存的利用率较高时,会导致localsocket消息严重滞后,而此时语音采集装置仍通过回溯固定的时间查找语音信息,会导致查找到的语音信息并不是唤醒时刻的语音信息,影响声源定位的准确率。
技术实现思路
本专利技术实施例提供一种声源定位方法、装置、智能设备及存储介质,以解决现有技术中无法准确确定唤醒时刻,导致声源定位准确率低的问题。第一方面,本专利技术一实施例提供了一种声源定位方法,包括:根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;从触发定位操作的PCM数据中提取帧号;将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。第二方面,本专利技术一实施例提供了一种声源定位方法,包括:为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;接收控制装置发送的帧号;查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。第三方面,本专利技术一实施例提供了一种声源定位装置,包括:识别模块,用于根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;提取模块,用于从触发定位操作的PCM数据中提取帧号;发送模块,用于将帧号发送给语音采集装置,以使语音采集装置根据帧号对应的PCM数据计算声源方位。第四方面,本专利技术一实施例提供了一种声源定位装置,包括:帧号添加模块,用于为每一帧脉码编码调制PCM数据添加帧号并发送给智能设备的控制装置;接收模块,用于接收控制装置发送的帧号;定位模块,用于查找到帧号对应的PCM数据,并基于查找到的PCM数据计算声源方位。第五方面,本专利技术一实施例提供了一种智能设备的控制装置,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述第一方面中的任一种方法的步骤。第六方面,本专利技术一实施例提供了一种语音采集装置,包括多个麦克风、收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,收发机用于在处理器的控制下接收和发送数据,麦克风用于采集音频并得到音频对应的PCM数据,处理器执行程序时实现上述第二方面中的任一种方法的步骤。第七方面,本专利技术一实施例提供了一种智能设备,包括:上述第五方面中的控制装置以及如上述第六方面中的语音采集装置。第八方面,本专利技术一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。本专利技术实施例提供的技术方案,在语音采集装置生成的每一帧PCM数据中增加帧号,以区分不同时刻的PCM数据,智能设备的控制装置从语音采集装置中获取带有帧号的PCM数据,根据PCM数据分析是否进行声源定位,将触发定位操作的PCM数据中的帧号发送给语音采集装置,使得语音采集装置能够根据接收到的帧号准确地查找到触发定位操作的PCM数据,以提高声源定位的准确性,从而实现远场拾音,提高语音识别的质量,提升用户体验。此外,在几乎不影响声音识别的前提下,将帧号隐藏在原有PCM数据中,实现方法简单高效,不会增加额外的资源开销。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的声源定位方法的应用场景示意图;图2为本专利技术一实施例提供的声源定位方法的流程示意图;图3为本专利技术一实施例提供的声源定位方法的流程示意图;图4为本专利技术一实施例提供的声源定位装置的结构示意图;图5为本专利技术一实施例提供的声源定位装置的结构示意图;图6为本专利技术一实施例提供的智能设备的控制装置的结构示意图;图7为本专利技术一实施例提供的语音采集装置的结构示意图;图8为本专利技术一实施例提供的智能设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。为了方便理解,下面对本专利技术实施例中涉及的名词进行解释:PCM(PulseCodeModulation)也被称为脉码编码调制。PCM中的声音数据没有被压缩,如果是单声道的文件,采样数据按时间的先后顺序依次存入。一般情况下,将8毫秒的PCM数据作为一帧PCM数据,一帧PCM数据为128short。1short=2byte(字节)=16bit(位)。麦克风阵列(MicrophoneArray),由一定数目的声学传感器(一般是麦克风)组成的用来对声场的空间特性进行采样并处理的系统,通过麦克风阵列可实现声源定位。附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。在具体实践过程中,由智能设备内的控制装置中安装的软件系统的SDK层将唤醒消息通过localsocket的方式发送给语音采集装置,由于消息的传递具有时延性,因此,语音采集装置在收到唤醒消息后,会往后回溯固定的时间以找到唤醒时刻用户的语音信息,并基于唤醒时刻用户的语音信息计算用户的方位。但是,当智能设备的CPU或内存的利用率较高时,会导致localsocket消息严重滞后,而此时语音采集装置仍通过回溯固定的时间查找语音信息,会导致查找到的语音信息并不是唤醒时刻的语音信息,影响声源定位的准确率。为此,本专利技术的专利技术人考虑到,语音采集装置在生成的每一帧PCM数据中增加帧号,以区分不同时刻的PCM数据。由智能设备的控制装置从语音采集装置中获取带有帧号的PCM数据,根据PCM数据分析是否收到唤醒指令,在确定收到唤醒指令后,将PCM数据中的帧号发送给语音采集装置,使得语音采集装置能够根据控制装置发送的帧号精准地查到唤醒时刻的PCM数据,并基于查找到的PCM数据精准地判断声源方位,提高声源定位的准确性。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。首先参考图1,其本文档来自技高网...

【技术保护点】
1.一种声源定位方法,其特征在于,包括:根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;从触发定位操作的PCM数据中提取帧号;将所述帧号发送给所述语音采集装置,以使所述语音采集装置根据所述帧号对应的PCM数据计算声源方位。

【技术特征摘要】
1.一种声源定位方法,其特征在于,包括:根据从语音采集装置获取的脉码编码调制PCM数据确定是否触发定位操作,每一帧PCM数据携带有帧号;从触发定位操作的PCM数据中提取帧号;将所述帧号发送给所述语音采集装置,以使所述语音采集装置根据所述帧号对应的PCM数据计算声源方位。2.根据权利要求1所述的方法,其特征在于,所述从触发定位操作的PCM数据中提取帧号,包括:从触发定位操作的每一帧PCM数据中提取第一预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的帧号。3.根据权利要求1或2所述的方法,其特征在于,所述每一帧PCM数据携带有校验号;在从触发定位操作的PCM数据中提取帧号之前,还包括:从触发定位操作的PCM数据中提取校验号,并验证提取的校验号与预设校验号是否相同;所述从触发定位操作的PCM数据中提取帧号,包括:若提取的校验号与预设校验号相同,则从触发定位操作的PCM数据中提取帧号。4.根据权利要求3所述的方法,其特征在于,所述从触发定位操作的PCM数据中提取校验号,包括:从触发定位操作的每一帧PCM数据中提取第二预设位置处的音频数据的最后一位数据;按预设顺序连接提取的最后一位数据得到所述每一帧PCM数据的校验号。5.一种声源定位方法,其特征在于,包括:为每一帧脉码编码调制PCM数据添加帧号...

【专利技术属性】
技术研发人员:郑垦
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1