语音数据的获取方法和装置制造方法及图纸

技术编号:26602186 阅读:36 留言:0更新日期:2020-12-04 21:25
本申请公开了语音数据的获取方法和装置,涉及深度学习技术领域和语音识别技术领域。具体实现方案为:响应于语音还原指令,获取与语音还原指令对应的压缩语音数据;获取与压缩语音数据对应的压缩倍数和下采样频率;根据压缩倍数对压缩语音数据解压缩,获取解压语音数据;计算与下采样频率对应的上采样频率,并根据上采样频率对解压语音数据上采样,获取与压缩语音数据对应的目标语音数据。由此,实现了低算力的语音数据还原,便于对语音数据的追溯。

【技术实现步骤摘要】
语音数据的获取方法和装置
本申请涉及深度学习
和语音识别
,尤其涉及一种语音数据的获取方法和装置。
技术介绍
随着计算机技术的发展,基于语音的识别技术也越发成熟,相关技术中,获取到语音数据后,基于语音数据提取语音特征,根据语音特征来进行语音控制指令的识别。然而,在实际应用中,例如获取语音数据的蓝牙耳机由于蓝牙芯片传输能力差,语音识别指令不准确等场景下,需要对获取到的语音指令进行追溯,而现有技术中缺少一种可以对语音数据还原的方式。
技术实现思路
本公开提供了一种语音数据的获取方法和装置,以解决现有技术中,语音数据无法追溯的技术问题。根据本公开的一方面,提供了一种语音数据的获取方法,包括:响应于语音还原指令,获取与所述语音还原指令对应的压缩语音数据;获取与所述压缩语音数据对应的压缩倍数和下采样频率;根据所述压缩倍数对所述压缩语音数据解压缩,获取解压语音数据;确定与所述下采样频率对应的上采样频率,并根据所述上采样频率对所述解压语音数据上采样,以获取与所述压缩语音数据对应的目标语音数据。根据本公开的另一方面,提供了一种语音数据的获取装置,包括:第一获取模块,用于响应于语音还原指令,获取与所述语音还原指令对应的压缩语音数据;第二获取模块,用于获取与所述压缩语音数据对应的压缩倍数和下采样频率;第三获取模块,用于根据所述压缩倍数对所述压缩语音数据解压缩,获取解压语音数据;第四获取模块,用于确定与所述下采样频率对应的上采样频率,并根据所述上采样频率对所述解压语音数据上采样,以获取与所述压缩语音数据对应的目标语音数据。根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述一方面实施例描述的语音数据的获取方法。根据本公开的还一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面实施例描述的语音数据的获取方法。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的语音数据的获取方法的流程示意图;图2是根据本申请第二实施例的语音数据的获取方法的流程示意图;图3是根据本申请第三实施例的语音数据的获取场景示意图;图4是根据本申请第四实施例的语音数据的获取方法的流程示意图;图5是根据本申请第五实施例的语音数据的获取装置的结构示意图;图6是根据本申请第六实施例的语音数据的获取装置的结构示意图;图7是根据本申请第八实施例的语音数据的获取装置的结构示意图;图8是用来实现本申请实施例的语音数据的获取的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。参考上述
技术介绍
的描述,在语音识别场景下,获取到语音数据的通常为蓝牙耳机等设备,而这些设备中的蓝牙芯片的传输能力差,若是直接将语音数上传至服务器等进行保存,用于后续直接调用语音数据来追溯,则会导致在上传语音数据时,蓝牙芯片负荷较大以及流量的浪费,因此,亟需一种低算力且实用性高的语音数据还原的方式。下面参考附图描述本申请实施例的语音数据的获取方法和装置,其中,本申请实施例的对语音数据的压缩的执行主体,可以是耳机等具有蓝牙芯片的语音数据获取设备、或者是单片机芯片等算力较低的设备。具体而言,图1是根据本申请一个实施例的语音数据的获取方法的流程图,如图1所示,该方法包括:步骤101,响应于语音还原指令,获取与语音还原指令对应的压缩语音数据。其中,语音还原指令可以为用户触发预设的控件后获取的,也可以是检测到用户的语音指令中包含了“还原播放”等关键词后获取的。需要说明的是,在不同的应用场景下,获取与语音还原指令对应的压缩语音数据的方式不同,示例如下:示例一:在本示例中,语音还原指令中包含压缩语音数据对应的标识信息,该标识信息可以为时间戳、压缩语音数据标号等可以唯一定位到压缩语音数据的信息。提取该语音还原指令,即可确定与语音还原指令对应的压缩语音数据,进而,在预设的存储位置获取该语音还原指令对应的压缩语音数据。其中,预设的存储位置可以是服务器等存储空间比较大的设备。示例二:在本示例中,获取与当前语音还原指令对应的设备标识,比如,通过检测该语音还原指令发出的设备,确定对应的设备标识等,进而,将该设备最近一次语音识别获取到的压缩语音数据,作为与该语音还原指令对应的压缩语音数据。步骤102,获取与压缩语音数据对应的压缩倍数和下采样频率。应当理解的是,本申请中的压缩语音数据采用了二次压缩,其中,根据下采样频率采样是第一次压缩,压缩倍数对应的是第二次压缩。需要说明的是,在不同的应用场景中,获取与压缩语音数据对应的压缩倍数和下采样频率的方式不同,示例说明如下:示例一:在本示例中,预先存储压缩语音数据与压缩倍数和下采样频率的对应关系,从而,查询该对应关系,即可获取对应的压缩倍数和下采样频率。示例二:在本示例中,提取压缩语音数据中每个采样点的采样时间点和幅度的压缩数据,其中,每个采样点的采样时间点可以理解为采样点的采集时间戳,该采集时间戳可以是采集时标记的,也可以理解为采样点在所有采样点中的顺序编号等可以位移定位出采样点的信息,幅度的压缩数据可以理解为压缩语音数据中的采样点的幅度值。进而,获取与每个采样点对应的幅度的原始数据,其中,幅度的原始数据可以是查询预设的数据库获取,该预设数据库中存储有采样点的标识信息(比如上述采样时间点)和幅度的原始数据的对应关系,基于该对应关系可以获取对应的幅度的原始数据,也可以是查询在预设的存储器中存储的与该压缩语音数据对应的原始语音数据,基于该原始语音数据来读取每个采样点的幅度的原始数据。在获取到幅度的原始数据后,计算每个采样点的幅度的原始数据和幅度的压缩数据的比值,获取压缩倍数,即以任意一个采样点的幅度的原始数据和幅度的压缩数据的比值作为压缩倍数,或者是,获取多个采样点的幅度的原始数据和幅度的压缩数据的比值后,将多个采样点对应的多个比值的均值作为压缩倍数。在本实施例中,计算相邻采样点的采样时间点的时间间隔,获取采样频率,在该实施例中,采样时间点即为采样点的时间戳,比如相邻采样点的时间间隔为a,则将a作为采样频率。本文档来自技高网
...

【技术保护点】
1.一种语音数据的获取方法,包括:/n响应于语音还原指令,获取与所述语音还原指令对应的压缩语音数据;/n获取与所述压缩语音数据对应的压缩倍数和下采样频率;/n根据所述压缩倍数对所述压缩语音数据解压缩,获取解压语音数据;/n确定与所述下采样频率对应的上采样频率,并根据所述上采样频率对所述解压语音数据上采样,以获取与所述压缩语音数据对应的目标语音数据。/n

【技术特征摘要】
1.一种语音数据的获取方法,包括:
响应于语音还原指令,获取与所述语音还原指令对应的压缩语音数据;
获取与所述压缩语音数据对应的压缩倍数和下采样频率;
根据所述压缩倍数对所述压缩语音数据解压缩,获取解压语音数据;
确定与所述下采样频率对应的上采样频率,并根据所述上采样频率对所述解压语音数据上采样,以获取与所述压缩语音数据对应的目标语音数据。


2.如权利要求1所述的方法,其中,所述获取与所述压缩语音数据对应的压缩倍数和下采样频率,包括:
提取所述压缩语音数据中每个采样点的采样时间点和幅度的压缩数据;
获取与所述每个采样点的幅度的原始数据;
计算所述每个采样点的所述幅度的原始数据和所述幅度的压缩数据的比值,获取所述压缩倍数;
计算相邻采样点的采样时间点的时间间隔,获取所述采样频率。


3.如权利要求1所述的方法,在所述获取与所述语音还原指令对应的压缩语音数据之前,还包括:
响应于采集到的语音数据,提取所述语音数据中属于预设频段的所述目标语音数据;
根据所述下采样频率对所述目标语音数据下采样,获取下采样语音数据;
根据预设的压缩策略对所述下采样语音数据压缩,获取所述压缩语音数据。


4.如权利要求3所述的方法,所述提取所述语音数据中属于预设频段的所述目标语音数据,包括:
获取与所述预设频段对应的第一滤波阶数和截止频率;
根据所述第一滤波阶数和所述截止频率设置第一低通滤波器,并根据所述第一低通滤波器对所述语音数据滤波获取所述目标语音数据。


5.如权利要求3所述的方法,其中,所述根据预设的压缩策略对所述下采样语音数据压缩,获取所述压缩语音数据,包括:
根据预设时长间隔将所述下采样语音数据划分为多个语音数据段;
在所述多个语音数据段中,确定与所述多个语音数据段中每个语音数据段对应的n个参考语音数据段,其中,n为大于等于1的自然数;
获取所述每个语音数据段和与所述每个语音数据段对应的n个参考语音数据段中包含的所有采样点的幅度值,根据所述所有采样点的幅度值确定基准幅度值;
根据预设的算法对所述基准幅度值和所述每个语音数据段中每个采样点的幅度值计算,获取与所述每个语音数据段中每个采样点的幅度的压缩数据;
根据所述幅度的压缩数据对所述每个语音数据段中每个采样点压缩,生成所述下采样语音数据压缩。


6.如权利要求5所述的方法,其中,所述根据所述所有采样点的幅度值确定基准幅度值,包括:
获取所述每个语音数据段中所有采样点的第一幅度值;
获取所述n个参考语音数据段中所有采样点的第二幅度值;
将所述第一幅度值和所述第二幅度值中的最大值,确定为所述基准幅度值。


7.如权利要求4所述的方法,其中,所述获取与所述压缩语音数据对应的目标语音数据,包括:
将所述上采样后的语音数据输入第二低通滤波器获取所述目标语音数据,所述第二低通滤波器的截止频率与所述第一低通滤波器的截止频率相同。


8.一种语音数据的获取装置,包括:
第一获取模块,用于响应于语音还原指令,获取与所述语音还原指令对应的压缩语音数据;
第二获取模块,用于获取与所述压缩语音数据对应的压缩倍数和下采样频率;
第三获取模块,用于根据所述压缩...

【专利技术属性】
技术研发人员:田超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1