一种远场语音模拟方法及装置制造方法及图纸

技术编号:28041878 阅读:14 留言:0更新日期:2021-04-09 23:25
本发明专利技术提供一种远场语音模拟方法及装置,该方法包括:获取近场语音数据和目标位置信息;将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。本发明专利技术实施例能够提高模拟出的远场语音数据的真实性。

【技术实现步骤摘要】
一种远场语音模拟方法及装置
本专利技术涉及语音处理
,尤其涉及一种远场语音模拟方法及装置。
技术介绍
目前,语音识别系统越来越广泛被应用于车载系统、智能手表、智能手机等领域,且随着智能音箱的兴起,远场语音识别技术得到很大的关注,现有的语音识别系统中,一般使用模拟远场语音来训练对齐模型,再使用对齐模型对数据进行对齐,来训练声学模型。远场语音数据和近场语音数据的区别主要体现在混响和噪音两个方面,现有技术中,通常是通过将近场语音和冲激响应做卷积操作来模仿混响效果,将噪声和近场语音相加来模仿噪音效果,但由于该方式较为简单,混响和噪音的样本丰富度较低,导致模拟出的远场语音不够真实,与真实远场语音存在较大差别。
技术实现思路
本专利技术实施例提供一种远场语音模拟方法及装置,以解决现有远场语音模拟方法模拟出的远场语音不够真实、与真实远场语音存在较大差别的问题。为解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种远场语音模拟方法,包括:获取近场语音数据和目标位置信息;将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。可选的,所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据,所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。可选的,所述模拟远场语音神经网络模型的训练过程,包括:将所述近场语音样本数据、所述噪声数据和所述录制位置信息作为神经网络的输入,将所述远场语音样本数据作为神经网络的输出,训练得到所述模拟远场语音神经网络模型。可选的,所述模拟远场语音神经网络模型的训练过程,包括:将所述近场语音样本数据、所述噪声数据和所述录制位置信息拼接后输入神经网络进行计算,得到所述神经网络的输出;根据所述远场语音样本数据和所述神经网络的输出,计算二者之间的相对熵;基于所述相对熵对所述神经网络的参数进行调整,得到所述模拟远场语音神经网络模型。可选的,所述神经网络共有M层,每层节点数为N个,且每层神经网络均为因子分解时延神经网络TDNN-F层,其中,M和N为大于1的整数。第二方面,本专利技术实施例提供一种远场语音模拟装置,包括:获取模块,用于获取近场语音数据和目标位置信息;模拟模块,用于将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。可选的,所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据,所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。可选的,所述模拟远场语音神经网络模型的训练过程,包括:将所述近场语音样本数据、所述噪声数据和所述录制位置信息作为神经网络的输入,将所述远场语音样本数据作为神经网络的输出,训练得到所述模拟远场语音神经网络模型。可选的,所述模拟远场语音神经网络模型的训练过程,包括:将所述近场语音样本数据、所述噪声数据和所述录制位置信息拼接后输入神经网络进行模拟,得到所述神经网络的输出;根据所述远场语音样本数据和所述神经网络的输出,计算二者之间的相对熵;基于所述相对熵对所述神经网络的参数进行调整,得到所述模拟远场语音神经网络模型。可选的,所述神经网络共有M层,每层节点数为N个,且每层神经网络均为因子分解时延神经网络TDNN-F层,其中,M和N为大于1的整数。第三方面,本专利技术实施例提供一种远场语音模拟装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述远场语音模拟方法中的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述远场语音模拟方法中的步骤。本专利技术实施例中,通过将近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,来得到与所述目标位置信息对应的远场语音数据,这样,由于所述模拟远场语音神经网络模型是采用真实采集的近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据训练生成的,从而能够提高模拟出的远场语音数据的真实性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种远场语音模拟方法的流程图;图2是本专利技术实施例提供的一种远场语音模拟装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,图1是本专利技术实施例提供的一种远场语音模拟方法的流程图,如图1所示,包括以下步骤:步骤101、获取近场语音数据和目标位置信息。上述近场语音数据可以是用户根据需要预先录制的,例如,用户需要对某条语音指令进行远场模拟,则可以利用录音设备(如麦克风)来录制该条语音指令,其中,录音设备可以靠近用户的发声位置处进行录制。上述目标位置信息可以是用户输入的期望获得的声源模拟距离信息,也就是期望声源的发声位置信息,其可以使用坐标位置(如x,y坐标)表示,例如,用户期望模拟前方3米处的声源发出的语音数据,则所述目标位置信息为前方3米处。本专利技术实施例中,所述目标位置信息可以是为模拟特定远场语音设置的远场距离、坐标等信息。如本领域技术人员所知,在语音
,存在远场和近场之分,远场的语音模型与近场的语音模型存在不同,不同不仅在于距离,还在于波形类型等。本专利技术实施例中,远场可以为普通人肢体不可直接触及的范围或为大于等于1-1.5米,相应的,近场可以为小于远场的距离范围如小于1-1.5米、或普通人手臂可触及的范围内。上述获取近场语音数据和目标位置信息,则可以是获取用户预先录制并存储的近场语音数据,以及获取用户输入的期望模拟的远场语音数据的目标位置信息。步骤102、将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远本文档来自技高网
...

【技术保护点】
1.一种远场语音模拟方法,其特征在于,包括:/n获取近场语音数据和目标位置信息;/n将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;/n其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。/n

【技术特征摘要】
1.一种远场语音模拟方法,其特征在于,包括:
获取近场语音数据和目标位置信息;
将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;
其中,所述模拟远场语音神经网络模型使用的训练样本包括:近场语音样本数据、远场语音样本数据、录制位置信息和噪声数据。


2.根据权利要求1所述的方法,其特征在于,所述远场语音样本数据包括不同位置的录音设备对同一声源录制的多条远场语音数据,所述录制位置信息包括每条远场语音数据的录音位置、声源位置和录音室内空间信息。


3.根据权利要求1所述的方法,其特征在于,所述模拟远场语音神经网络模型的训练过程,包括:
将所述近场语音样本数据、所述噪声数据和所述录制位置信息作为神经网络的输入,将所述远场语音样本数据作为神经网络的输出,训练得到所述模拟远场语音神经网络模型。


4.根据权利要求1所述的方法,其特征在于,所述模拟远场语音神经网络模型的训练过程,包括:
将所述近场语音样本数据、所述噪声数据和所述录制位置信息拼接后输入神经网络进行计算,得到所述神经网络的输出;
根据所述远场语音样本数据和所述神经网络的输出,计算二者之间的相对熵;
基于所述相对熵对所述神经网络的参数进行调整,得到所述模拟远场语音神经网络模型。


5.根据权利要求3或4所述的方法,其特征在于,所述神经网络共有M层,每层节点数为N个,且每层神经网络均为因子分解时延神经网络TDNN-F层,其中,M和N为大于1的整数。


6.一种远场语音模拟装置,其特征在于,包括:
获取模块,用于获取近场语音数据和目标位置信息;
模拟模块,用于将所述近场语音数据和目标位置信息输入至模拟远场语音神经网络模型进行模拟,以得到与所述目标位置信息对应的远场语音数据;

【专利技术属性】
技术研发人员:焦伟冯大航陈孝良常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1