一种语音数据处理方法及装置制造方法及图纸

技术编号:24712296 阅读:17 留言:0更新日期:2020-07-01 00:36
本申请实施例公开了一种语音数据处理方法及装置,当与会者通过多人会议系统发言时,会议系统可以采集到至少一路语音数据。然后在至少一路语音数据中确定活动语音数据,即确定发言人的语音数据。最后,对该活动语音数据进行语音识别,获得该活动语音数据对应的语音文本。即,本申请实施例在采集到语音数据时,可以自动确定活动语音数据,并进行语音识别获得该活动语音数据的语音文本,从而实现自动获取活动语音数据对应的语音文本,无需人工进行记录整理,提高获取语音文本的效率。

【技术实现步骤摘要】
一种语音数据处理方法及装置
本申请涉及数据处理
,具体涉及一种语音数据处理方法及装置。
技术介绍
多人会议系统是办公、会议等场景下的一种重要设备。在现有技术中,多人会议系统可以获取各个会议麦克风采集到的语音数据,并对语音数据进行扩音播放,以保证会议的顺利进行。在一些场景下,会议内容需要记录整理,在现有技术中,通常需要人工对各个与会者的语音进行记录整理,该记录过程可能不完整、不够准确,且需要耗费较多的人工成本。
技术实现思路
有鉴于此,本申请实施例提供一种音频数据处理方法及装置,以解决现有技术中会议记录需要耗费较多人工成本的技术问题。为解决上述问题,本申请实施例提供的技术方案如下:一种语音数据处理方法,所述方法包括:采集至少一路语音数据;在所述至少一路语音数据中确定活动语音数据;对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本。在一种可能的实现方式中,所述在所述至少一路语音数据中确定活动语音数据,包括:计算各路所述语音数据的声学特征参数;根据各路所述语音数据的声学特征参数,在所述至少一路语音数据中确定活动语音数据。在一种可能的实现方式中,所述计算各路所述语音数据的声学特征参数,包括:计算各路所述语音数据的信噪比以及声学响度特征值。在一种可能的实现方式中,所述根据各路所述语音数据的声学特征参数,在所述语音数据中确定活动语音数据,包括:对各路所述语音数据的信噪比以及声学响度特征值加权求和,生成各路所述语音数据的活动概率值;将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据。在一种可能的实现方式中,所述根据各路所述语音数据的声学特征参数,在各路所述语音数据中确定活动语音数据,包括:对各路所述语音数据的声学响度特征值进行排序生成第一排序结果,将所述第一排序结果符合第二预设条件的语音数据确定为待选语音数据;对所述待选语音数据的信噪比进行排序生成第二排序结果,将所述第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。在一种可能的实现方式中,在对所述活动语音数据进行语音识别之前,所述方法还包括:计算各个所述活动语音数据之间的互相关性;根据各个所述活动语音数据之间的互相关性判断是否存在属于同一音源的活动语音数据;如果存在属于同一音源的活动语音数据,根据所述活动语音数据的声学特征参数,在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据;在所述活动语音数据中剔除所述非主音源的活动语音数据。在一种可能的实现方式中,所述对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本,包括:将所述活动语音数据上传到语音识别服务器进行语音识别;从所述语音识别服务器获取所述活动语音数据对应的语音文本。在一种可能的实现方式中,所述方法还包括:对所述活动语音数据对应的采集设备的标识进行突出显示。在一种可能的实现方式中,所述在所述至少一路语音数据中确定活动语音数据,包括:获取输入的指定采集设备的标识,根据所述指定采集设备的标识确定指定采集设备;将所述指定采集设备采集的语音数据确定为活动语音数据。一种语音数据处理装置,所述装置包括:采集单元,用于采集至少一路语音数据;第一确定单元,在所述至少一路语音数据中确定活动语音数据;获取单元,用于对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本。在一种可能的实现方式中,所述第一确定单元,包括:计算子单元,用于计算各路所述语音数据的声学特征参数;第一确定子单元,用于根据各路所述语音数据的声学特征参数,在所述至少一路语音数据中确定活动语音数据。在一种可能的实现方式中,所述计算子单元,具体用于计算各路所述语音数据的信噪比以及声学响度特征值。在一种可能的实现方式中,所述第一确定子单元,包括:生成子单元,用于对各路所述语音数据的信噪比以及声学响度特征值加权求和,生成各路所述语音数据的活动概率值;第二确定子单元,用于将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据。在一种可能的实现方式中,所述第一确定子单元,包括:第三确定子单元,用于对各路所述语音数据的声学响度特征值进行排序生成第一排序结果,将所述第一排序结果符合第二预设条件的语音数据确定为待选语音数据;第四确定子单元,用于对所述待选语音数据的信噪比进行排序生成第二排序结果,将所述第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。在一种可能的实现方式中,所述装置还包括:计算单元,用于在执行所述获取单元对所述活动语音数据进行语音识别之前,计算各个所述活动语音数据之间的互相关性;判断单元,用于根据各个所述活动语音数据之间的互相关性判断是否存在属于同一音源的活动语音数据;第二确定单元,用于如果存在属于同一音源的活动语音数据,根据所述活动语音数据的声学特征参数,在所述属于同一音源的活动语音数据中确定非主音源的活动语音数据;剔除单元,用于在所述活动语音数据中剔除所述非主音源的活动语音数据。在一种可能的实现方式中,所述获取单元,包括:发送子单元,用于将所述活动语音数据上传到语音识别服务器进行语音识别;获取子单元,用于从所述语音识别服务器获取所述活动语音数据对应的语音文本。在一种可能的实现方式中,所述装置还包括:显示单元,用于对所述活动语音数据对应的采集设备的标识进行突出显示。在一种可能的实现方式中,所述第一确定单元包括:第五确定子单元,用于获取输入的指定采集设备的标识,根据所述指定采集设备的标识确定指定采集设备;第六确定子单元,用于将所述指定采集设备采集的语音数据确定为活动语音数据。一种测试对象识别装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:采集至少一路语音数据;在所述至少一路语音数据中确定活动语音数据;对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本。一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的语音数据处理方法。由此可见,本申请实施例具有如下有益效果:本申请实施例中,当与会者通过多人会议系统发言时,会议系统可以采集到至少一路语音数据。然后从获取的至少语音数据中确定活动语音数据,即确定发言人的语音数据。最后,对该活动语音数据进行语音识别,获得该活动语音数据对应的语音文本。即,本申请实施例在采集到语音数据时,可以确定活动语音数据,并对活动语音数据进行语音识别获得该活动语音数据的语音文本,从而实现自动获取活动语音数据对应的语音本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:/n采集至少一路语音数据;/n在所述至少一路语音数据中确定活动语音数据;/n对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本。/n

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:
采集至少一路语音数据;
在所述至少一路语音数据中确定活动语音数据;
对所述活动语音数据进行语音识别,获取所述活动语音数据对应的语音文本。


2.根据权利要求1所述的方法,其特征在于,所述在所述至少一路语音数据中确定活动语音数据,包括:
计算各路所述语音数据的声学特征参数;
根据各路所述语音数据的声学特征参数,在所述至少一路语音数据中确定活动语音数据。


3.根据权利要求2所述的方法,其特征在于,所述计算各路所述语音数据的声学特征参数,包括:
计算各路所述语音数据的信噪比以及声学响度特征值。


4.根据权利要求3所述的方法,其特征在于,所述根据各路所述语音数据的声学特征参数,在所述语音数据中确定活动语音数据,包括:
对各路所述语音数据的信噪比以及声学响度特征值加权求和,生成各路所述语音数据的活动概率值;
将所述活动概率值符合第一预设条件的语音数据确定为活动语音数据。


5.根据权利要求3所述的方法,其特征在于,所述根据各路所述语音数据的声学特征参数,在各路所述语音数据中确定活动语音数据,包括:
对各路所述语音数据的声学响度特征值进行排序生成第一排序结果,将所述第一排序结果符合第二预设条件的语音数据确定为待选语音数据;
对所述待选语音数据的信噪比进行排序生成第二排序结果,将所述第二排序结果符合第三预设条件的待选语音数据确定为活动语音数据。


6.根据权利要求1所述的方法,其特征在于,在对所述活动语音数据进行语音识别之...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1