语音数据重构方法、装置及电子设备制造方法及图纸

技术编号：23984752 阅读：76 留言：0更新日期：2020-04-29 12:59

本发明专利技术公开了一种语音数据重构方法，同时公开了一种语音数据重构装置，还公开了一种电子设备。本发明专利技术从语义和声音两方面进行数据重构，在尽可能地满足语义逻辑关系的同时，尽量还原发声者的声音状态，使得最终重构得到的数据能够比较准确、真实地还原缺失的信息，具有更加平滑、流畅和自然的播放效果。

Speech data reconstruction method, device and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音数据重构方法、装置及电子设备
本专利技术涉及一种语音数据重构方法，同时涉及一种语音数据重构装置，还涉及一种电子设备，属于语音处理

技术介绍
实时语音通话在即时通信、呼叫中心等领域都有广泛应用。网络阻塞、丢包和抖动等网络问题都是常见的、也是不可避免的，对语音通话质量产生负面影响，甚至是阻碍沟通。在基于IP的语音传输中，在丢包重传后，传统的处理方式为直接在缺失的数据部分插入白噪声，或者对缺失的数据的在前和在后数据进行拼接。这种方法无法还原真实的声音数据，且存在卡顿、信息缺失等问题。
技术实现思路
本专利技术所要解决的首要技术问题在于提供一种语音数据重构方法。本专利技术所要解决的另一技术问题在于提供一种语音数据重构装置。本专利技术所要解决的又一技术问题在于提供一种电子设备，用于实现语音数据重构。为实现上述的专利技术目的，本专利技术采用下述的技术方案：根据本专利技术实施例的第一方面，提供一种语音数据重构方法，包括如下步骤：根据缺失数据的上下文，确定所述缺失数据的语义信息，所述缺失数据为发声者的语音数据中缺失的部分；基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换，得到所述缺失数据的重构数据。其中较优地，所述根据缺失数据的上下文，确定所述缺失数据的语义信息，包括如下步骤：获取所述缺失数据的在前数据和在后数据；基于所述在前数据和在后数据进行语音识别计算，确定所述缺失数据对应的最高概率的音素。其...

【技术保护点】
1.一种语音数据重构方法，其特征在于包括如下步骤：/n根据缺失数据的上下文，确定所述缺失数据的语义信息，所述缺失数据为发声者的语音数据中缺失的部分；/n基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换，得到所述缺失数据的重构数据。/n

【技术特征摘要】
1.一种语音数据重构方法，其特征在于包括如下步骤：
根据缺失数据的上下文，确定所述缺失数据的语义信息，所述缺失数据为发声者的语音数据中缺失的部分；
基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换，得到所述缺失数据的重构数据。

2.如权利要求1所述的语音数据重构方法，其特征在于所述根据缺失数据的上下文，确定所述缺失数据的语义信息，包括如下步骤：
获取所述缺失数据的在前数据和在后数据；
基于所述在前数据和在后数据进行语音识别计算，确定所述缺失数据对应的最高概率的音素。

3.如权利要求2所述的语音数据重构方法，其特征在于，所述方法还包括：
基于所述音素的概率以及所述缺失数据对应的文本的置信度进行判断；
在二者的关系满足设定条件的情况下，基于所述发声者的声学模型对所述缺失数据的语义信息进行文本语音转换；
在所述二者的关系不满足设定条件的情况下，用白噪声代替所述缺失数据，或，对所述在前数据和在后数据进行延展后拼接。

4.如权利要求3所述的语音数据重构方法，其特征在于，所述二者的关系满足设定条件包括：
m×w+n×q＞k；
其中，w表示所述音素的概率，q表示所述缺失数据对应的文本的置信度，m表示w的权重，n表示q的权重，k为阈值。

5.如权利要求1所述的语音数据重构方法，其特征在于，所述方法还包括：
基于所述发声者的语音数据实时收集所述发声者的音素信息并实时训练所述发声者的声学模型。
<...

【专利技术属性】
技术研发人员：黄启辉，
申请(专利权)人：北京讯鸟软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人