语音数据处理方法、装置及智能车辆制造方法及图纸

技术编号:26422424 阅读:30 留言:0更新日期:2020-11-20 14:18
本申请公开了一种语音数据处理方法、装置及智能车辆,涉及数据处理技术领域中的语音数据处理技术领域、自然语言处理技术领域、语音交互技术领域以及自动驾驶技术领域等。具体实现方案为:当多个麦克风采集的多路语音数据中都包括唤醒词,将多路语音数据中能量最大的语音数据对应的麦克风作为目标麦克风,并在后续通过目标麦克风采集的语音数据识别其中的指令。从而在终端设备在唤醒后,选择能量最大的语音数据对应的麦克风对语音数据中指令进行识别,防止使用其他麦克风无法识别指令或者识别错误指令的情况,提高车载终端对语音数据处理时识别的准确性。

【技术实现步骤摘要】
语音数据处理方法、装置及智能车辆
本申请涉及数据处理技术中的语音数据处理
、自然语言处理
、语音交互
以及自动驾驶
等,尤其涉及一种语音数据处理方法、装置及智能车辆。
技术介绍
目前,随着语音识别技术的不断发展,一些智能车辆上设置的车载终端可以接收麦克风采集车辆内人员说话时的语音数据,并通过语音识别技术确定语音数据中人员的指令,并执行该指令,从而实现了车辆内人员通过语音方式对车载终端进行控制,提高了车辆的智能化程度。现有技术中,由于对语音数据中指令进行识别的算法复杂度较高,车载终端为了避免资源浪费,在接收到麦克风采集的语音数据后,首先对语音数据中的唤醒词进行识别,只有在识别到语音数据中包括唤醒词的情况下,才会识别唤醒词之后的语音数据中的指令,从而提高车载终端的工作效率。但是,当车辆内设置多个麦克风时,多个麦克风都可能接收到语音数据并识别出唤醒词,由于识别唤醒词的算法精度较低,无法准确地确定出后续应该对哪一个麦克风的语音数据中的指令进行识别,进而导致语音数据中指令识别不准确,甚至识别出错误的指令,降低语音数据的处理准确性。
技术实现思路
本申请提供了语音数据处理方法、装置及智能车辆,用于解决现有技术中语音数据处理时准确性较差的技术问题。本申请第一方面提供一种语音数据处理方法,包括:当第一时间段的语音数据包括目标词汇,确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风;其中,所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集;获取所述目标麦克风在第二时间段采集的第二语音数据;其中,所述第二时间段位于所述第一时间段之后;识别所述第二语音数据中包括的指令。综上,本实施例提供的语音数据处理方法,能够在车载终端被第一语音数据内的唤醒词唤醒后,选择能量最大的语音数据对应的目标麦克风的第二语音数据,对指令进行识别,由于该目标麦克风距离用户较近故能量较大,通过所采集的第二语音数据能够更准确地识别出用户所说出的指令,进而防止使用其他麦克风无法识别指令或者识别错误指令的情况,提高车载终端对语音数据处理时识别的准确性。在本申请第一方面一实施例中,所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风,包括:从所述多路第一语音数据中,确定包括所述目标词汇的一路或多路候选第一语音数据;从所述一路或多路候选第一语音数据中,确定能量最大的第一语音数据对应的麦克风为目标麦克风。具体地,本实施例提供的语音数据处理方法中,由于多路第一语音数据中检测到了目标词汇,而可能并不是所有第一语音数据中都包括目标词汇,因此,车载终端在多路第一语音数据中包括目标词汇后,再将实际包括目标词汇的一路或多路第一语音数据的能量进行比较,而不是将所有第一语音数据的能量进行比较,从而减少了车载终端在对语音数据进行处理,确定目标麦克风时所需的计算量,进一步提高了车载终端对语音数据进行处理的效率。在本申请第一方面一实施例中,所述从所述一路或多路候选第一语音数据中,确定能量最大的第一语音数据对应的麦克风为目标麦克风,包括:从存储模块中,获取所述一路或多路候选第一语音数据在所述第一时间段的能量;其中,所述存储模块用于存储所述多个麦克风采集的语音数据的能量;根据所述一路或多路候选第一语音数据能量,确定能量最大的第一语音数据对应的麦克风为目标麦克风。具体地,本实施例提供的语音数据处理方法中,由于车载终端接收到第一语音数据后都进行存储,则车载终端确定多路第一语音数据包括目标词汇后,通过回溯的方式,从存储设备中直接读取所存储的能量,从而能够更快地对多路第一语音数据的能量值进行比较,进而提高了车载终端对语音数据进行处理的效率。在本申请第一方面一实施例中,所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风之前,还包括:获取所述多个麦克风在所述第一时间段采集的多路第一语音数据;计算所述多路第一语音数据在所述第一时间段的能量;将所述多路第一语音数据在所述第一时间段的能量存入存储模块。具体地,本实施例提供的语音数据处理方法中,对于车载终端,可以将麦克风实时采集的第一时间段的多路第一语音数据先计算能量后,将计算得到的能量值存入存储设备中,使得后续若通过唤醒模型识别出多路第一语音数据中包括目标词汇,同样可以从存储设备中直接读取所存储的能量,从而能够更快地对多路第一语音数据的能量值进行比较,也能够提高车载终端对语音数据进行处理的效率。在本申请第一方面一实施例中,对于任一个第一语音数据,所述计算所述第一语音数据在所述第一时间段的能量,包括:按照预设时间窗口,对所述第一语音数据在所述第一时间段内进行加窗分帧处理,得到所述第一语音数据在所述第一时间段的多个频域特征;将所述多个频域特征的频域能量平均值,作为所述第一语音数据在所述第一时间段的能量。具体地,本实施例提供的语音数据处理方法中,通过加窗分帧的处理方式,对第一语音数据的能量进行表示,由于频域特征更能体现信号中不同分量尤其是人发出的语音数据的特征,因此能够更好地对语音数据的能量进行表示,进一步提高了确定目标麦克风时的准确性,进而提高了对语音数据进行识别时的准确性。在本申请第一方面一实施例中,作为执行主体的语音数据处理装置可以在获取第二语音数据后,直接识别第二语音数据中的指令;或者,还可以将第二数据发送给网络设备,由网络设备对第二语音数据中的指令识别后,语音数据处理装置可以直接接收网络设备发送的第二语音数据中的指令。使得本实施例能够应用在不同的识别场景中,并且在运算能力不足时,可以依靠网络设备的识别来提高对语音数据的处理效率;而在语音数据处理装置的运算能力支持的情况下,依靠自身对第二语音数据中的指令进行识别,还可以减少与网络设备的数据交互。本申请第二方面提供一种语音数据处理装置,可用于执行如本申请第一方面的语音数据处理方法,该装置包括;确定模块,用于当第一时间段的语音数据包括目标词汇,确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风;其中,所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集;获取模块,用于获取所述目标麦克风在第二时间段采集的第二语音数据;其中,所述第二时间段位于所述第一时间段之后;识别模块,用于识别所述第二语音数据中包括的指令。在本申请第二方面一实施例中,所述确定模块具体用于,从所述多路第一语音数据中,确定包括所述目标词汇的一路或多路候选第一语音数据;从所述一路或多路候选第一语音数据中,确定能量最大的第一语音数据对应的麦克风为目标麦克风。在本申请第二方面一实施例中,所述确定模块具体用于,从存储模块中,获取所述一路或多路候选第一语音数据在所述第一时间段的能量;其中,所述存储模块用于存储所述多个麦克风采集的语音数据的能量;根据所述一路或多路候选第一语音数据能量,确定能量最大的第一语音数据对应的麦克风为目标麦克风。在本申请第二方面一实施例中,所述语音数据处理装置还包括:计算模块和存储模块;所述获本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,其特征在于,包括:/n当第一时间段的语音数据包括目标词汇,确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风;其中,所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集;/n获取所述目标麦克风在第二时间段采集的第二语音数据;其中,所述第二时间段位于所述第一时间段之后;/n识别所述第二语音数据中包括的指令。/n

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,包括:
当第一时间段的语音数据包括目标词汇,确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风;其中,所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集;
获取所述目标麦克风在第二时间段采集的第二语音数据;其中,所述第二时间段位于所述第一时间段之后;
识别所述第二语音数据中包括的指令。


2.根据权利要求1所述的方法,其特征在于,所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风,包括:
从所述多路第一语音数据中,确定包括所述目标词汇的一路或多路候选第一语音数据;
从所述一路或多路候选第一语音数据中,确定能量最大的第一语音数据对应的麦克风为目标麦克风。


3.根据权利要求2所述的方法,其特征在于,所述从所述一路或多路候选第一语音数据中,确定能量最大的第一语音数据对应的麦克风为目标麦克风,包括:
从存储模块中,获取所述一路或多路候选第一语音数据在所述第一时间段的能量;其中,所述存储模块用于存储所述多个麦克风采集的语音数据的能量;
根据所述一路或多路候选第一语音数据能量,确定能量最大的第一语音数据对应的麦克风为目标麦克风。


4.根据权利要求3所述的方法,其特征在于,所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风之前,还包括:
获取所述多个麦克风在所述第一时间段采集的多路第一语音数据;
计算所述多路第一语音数据在所述第一时间段的能量;
将所述多路第一语音数据在所述第一时间段的能量存入存储模块。


5.根据权利要求4所述的方法,其特征在于,对于任一个第一语音数据,所述计算所述第一语音数据在所述第一时间段的能量,包括:
按照预设时间窗口,对所述第一语音数据在所述第一时间段内进行加窗分帧处理,得到所述第一语音数据在所述第一时间段的多个频域特征;
将所述多个频域特征的频域能量平均值,作为所述第一语音数据在所述第一时间段的能量。


6.根据权利要求1-5任一项所述的方法,其特征在于,识别所述第二语音数据中包括的指令,包括:
向网络设备发送所述第二语音数据;
接收所述网络设备发送的所述第二语音数据中包括的指令。


7.一种语音数据处理装置,其特征在于,包括;
确定模块,用于当第一时间段的语音数据包括目标词汇,确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风;其中,所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集;
获取模块,用于获取所述目标麦克风在第二时间段采集的第二语音数据;其中,所述第二时...

【专利技术属性】
技术研发人员:周毅左声勇殷切陈真
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1