语音数据重构方法、装置及电子设备制造方法及图纸

技术编号:23984752 阅读:76 留言:0更新日期:2020-04-29 12:59
本发明专利技术公开了一种语音数据重构方法,同时公开了一种语音数据重构装置,还公开了一种电子设备。本发明专利技术从语义和声音两方面进行数据重构,在尽可能地满足语义逻辑关系的同时,尽量还原发声者的声音状态,使得最终重构得到的数据能够比较准确、真实地还原缺失的信息,具有更加平滑、流畅和自然的播放效果。

Speech data reconstruction method, device and electronic equipment

【技术实现步骤摘要】
语音数据重构方法、装置及电子设备
本专利技术涉及一种语音数据重构方法,同时涉及一种语音数据重构装置,还涉及一种电子设备,属于语音处理

技术介绍
实时语音通话在即时通信、呼叫中心等领域都有广泛应用。网络阻塞、丢包和抖动等网络问题都是常见的、也是不可避免的,对语音通话质量产生负面影响,甚至是阻碍沟通。在基于IP的语音传输中,在丢包重传后,传统的处理方式为直接在缺失的数据部分插入白噪声,或者对缺失的数据的在前和在后数据进行拼接。这种方法无法还原真实的声音数据,且存在卡顿、信息缺失等问题。
技术实现思路
本专利技术所要解决的首要技术问题在于提供一种语音数据重构方法。本专利技术所要解决的另一技术问题在于提供一种语音数据重构装置。本专利技术所要解决的又一技术问题在于提供一种电子设备,用于实现语音数据重构。为实现上述的专利技术目的,本专利技术采用下述的技术方案:根据本专利技术实施例的第一方面,提供一种语音数据重构方法,包括如下步骤:根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。其中较优地,所述根据缺失数据的上下文,确定所述缺失数据的语义信息,包括如下步骤:获取所述缺失数据的在前数据和在后数据;基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。其中较优地,所述方法还包括:基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断;在二者的关系满足设定条件的情况下,基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换。其中较优地,所述方法还包括:在所述二者的关系不满足设定条件的情况下,用白噪声代替所述缺失数据,或,对所述在前数据和在后数据进行延展后拼接。其中较优地,所述二者的关系满足设定条件包括:m×w+n×q>k;其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为设定的阈值。其中较优地,所述方法还包括:基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。根据本专利技术实施例的第二方面,提供一种语音数据重构装置,包括:语义分析模块,用于根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;第一重构模块,用于基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。其中较优地,所述语义分析模块包括:数据获取子模块,用于获取所述缺失数据的在前数据和在后数据;语音识别子模块,用于基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。其中较优地,所述装置还包括:判断模块,用于基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断,并且在二者的关系满足设定条件的情况下,触发所述第一重构模块;在二者的关系不满足设定条件的情况下,触发第二重构模块;第二重构模块,用于对所述在前数据和在后数据进行延展后拼接,或用白噪声代替所述缺失数据。其中较优地,所述二者的关系满足设定条件包括:m×w+n×q>k;其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为阈值。其中较优地,所述装置还包括:模型训练模块,用于基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。根据本专利技术实施例的第三方面,提供一种电子设备,用于进行语音数据重构,所述电子设备包括:存储器,用于存储计算机指令;处理器,用于从所述存储器中调用和执行所述计算机指令,从而实现前文第一方面所提供的提供语音数据重构方法或其优选处理方式。与现有技术相比较,本专利技术通过上下文分析得到语义信息,能够在语义层面对丢包数据进行再造,尽可能地满足语义逻辑关系;通过利用发声者的声学模型对语义信息进行文本语音转换得到语音数据,从而还原音频数据;语义再造与语音还原相结合,最终重构得到的数据能够比较准确地还原缺失的信息且携带了更多特征信息,具有更加平滑、流畅和自然的播放效果。附图说明图1为本专利技术实施例提供的语音数据重构方法的流程示意图;图2为本专利技术实施例提供的语义分析方法的流程示意图;图3为本专利技术实施例提供的语音数据重构方法的流程示意图;图4为本专利技术实施例提供的语音数据重构装置的架构示意图;图5为本专利技术实施例提供的语音数据重构装置的架构示意图;图6为本专利技术实施例提供的电子设备的架构示意图。具体实施方式下面结合附图和具体实施例对本专利技术的
技术实现思路
进行详细具体的说明。在基于IP的语音传输技术中,面对语音数据丢包的问题,现有技术无法很好的还原声音数据,存在卡顿、信息缺失等问题。针对上述问题,本专利技术充分考虑到语义逻辑及声音特征对于在语音数据以及语音播报中的重要性,并提出了一种语音数据重构方法、装置及电子设备。首先,对本专利技术各个实施例中涉及或可能涉及的名词/术语进行简单解释:ASR:automaticspeechrecognition,语音识别。TTS:TextToSpeech,文字语音转换。ARM:AudioReconstructionModel,音频重构模型。FEC:ForwardErrorCorrection,前向纠错。NACK:ALostPacketRetransmitProtocol,一种丢包重传响应。HMM:HiddenMarkovModel,隐马尔可夫模型。GMM:GussianMixtureModel,高斯混合模型。AM:AcousticModel,声学模型。LM:LanguageModel,语言模型。图1是本专利技术实施例提供的语音数据重构方法的流程示意图,参照图1,所述方法包括:100:根据缺失数据的上下文,确定所述缺失数据的语义信息。所述缺失数据为发声者的语音数据中缺失的部分。例如,在连续的数据包中,中间第k个数据包丢失,该第k个数据包即为缺失数据。第k个数据包之前的一个或多个数据包以及第k个数据包之后的一个或多个数据包所包含的信息,即该缺失数据的上下文。需要说明的是,理论上,上下文信息越多,语义分析结果越准确但耗时越长。本领域技术人员可以根据其对于实时性和准确性的不同需求自行选取上下文的长度(即,数据包的数量),本专利技术实施例对此并不进行具体限制。102:基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。在本专利技术实施例中,发声者的声学模型可以通过预先训练获得,并且可以在实时语音处理中进行实时训练以完善声学模型。<本文档来自技高网
...

【技术保护点】
1.一种语音数据重构方法,其特征在于包括如下步骤:/n根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;/n基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。/n

【技术特征摘要】
1.一种语音数据重构方法,其特征在于包括如下步骤:
根据缺失数据的上下文,确定所述缺失数据的语义信息,所述缺失数据为发声者的语音数据中缺失的部分;
基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换,得到所述缺失数据的重构数据。


2.如权利要求1所述的语音数据重构方法,其特征在于所述根据缺失数据的上下文,确定所述缺失数据的语义信息,包括如下步骤:
获取所述缺失数据的在前数据和在后数据;
基于所述在前数据和在后数据进行语音识别计算,确定所述缺失数据对应的最高概率的音素。


3.如权利要求2所述的语音数据重构方法,其特征在于,所述方法还包括:
基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断;
在二者的关系满足设定条件的情况下,基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换;
在所述二者的关系不满足设定条件的情况下,用白噪声代替所述缺失数据,或,对所述在前数据和在后数据进行延展后拼接。


4.如权利要求3所述的语音数据重构方法,其特征在于,所述二者的关系满足设定条件包括:
m×w+n×q>k;
其中,w表示所述音素的概率,q表示所述缺失数据对应的文本的置信度,m表示w的权重,n表示q的权重,k为阈值。


5.如权利要求1所述的语音数据重构方法,其特征在于,所述方法还包括:
基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。
<...

【专利技术属性】
技术研发人员:黄启辉
申请(专利权)人:北京讯鸟软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1