语音转换方法、装置、存储介质及电子设备制造方法及图纸

技术编号：23364247 阅读：27 留言：0更新日期：2020-02-18 17:49

本申请实施例公开了一种语音转换方法、装置、存储介质及电子设备，属于语音处理领域。所述方法包括：采集用户的语音数据，提取所述语音数据的声学特征；将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型对应不同的语言类型；计算多个候选音素序列的概率，以及将概率最大的候选音素序列作为目标音素序列；基于文本转换模型将所述目标音素序列进行文本转换得到文本数据，实现对不同语言类型的语音数据的识别和文本转换，提供文本转换的准确率。

Voice conversion method, device, storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
语音转换方法、装置、存储介质及电子设备
本申请涉及语音处理领域，尤其涉及一种语音转换方法、装置、存储介质及电子设备。
技术介绍
随着社会的发展，越来越多的人会选择学习各种各样的知识来不断扩充自己。其中，由于传统的学生与教师面对面授课均需要双方在路上耗费大量的时间及精力。因此，随着互联网技术的发展，网络在线教育已被广大的用户所接受，网络在线教育是由身为教师的终端设备通过网络与学生通过各自的终端设备进行远程授课。在对用户进行语音识别时，需要接收用户的语音数据，并根据该语音的语言类型，选择对应的语音的声学模型对其进行文字识别，并输出对应的文字数据。例如：当语音数据的语言类型为中文时，选择中文声学模型对其进行文字识别，并输出对应的文字数据。当接收到的语音数据中存在中英文混合语音数据的情况时，利用传统的声学模型进行识别则会导致针对该语音数据的识别率不高的问题。
技术实现思路
本申请实施例提供了的语音转换方法、装置、存储介质及终端，可以解决对混合语音类型的语音数据进行文本转换的准确率不高的问题。所述技术方案如...

【技术保护点】
1.一种语音转换方法，其特征在于，所述方法包括：/n采集用户的语音数据，提取所述语音数据的声学特征；/n将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据；/n计算多个候选音素序列的概率，以及将概率最大的候选音素序列作为目标音素序列；/n基于文本转换模型将所述目标音素序列进行文本转换得到文本数据。/n

【技术特征摘要】
1.一种语音转换方法，其特征在于，所述方法包括：
采集用户的语音数据，提取所述语音数据的声学特征；
将声学特征输入到预设的多个声学模型各自得到一个候选音素序列；其中，多个声学模型包括第一声学模型、第二声学模型和第三声学模型，所述第一声学模型用于识别第一语音类型的语音数据，所述第二声学模型用于识别第二语音类型的语音数据，所述第三声学模型用于识别所述第一语音类型和所述第二语音类型的混合语音数据；
计算多个候选音素序列的概率，以及将概率最大的候选音素序列作为目标音素序列；
基于文本转换模型将所述目标音素序列进行文本转换得到文本数据。

2.根据权利要求2所述的方法，其特征在于，所述第一语音类型为中文，所述第二语音类型为英文。

3.根据权利要求1或2所述的方法，其特征在于，所述计算多个候选音素序列的概率包括：
基于贝叶斯算法计算多个候选音素序列的后验概率。

4.根据权利要求1所述的方法，其特征在于，所述将声学特征输入到预设的多个声学模型各自得到一个候选音素序列之前，还包括：
对所述语音数据进行声纹识别，识别出所述用户为预设用户。

5.根据权利要求4所述的方法，其特征在于，所述对所述语音数据进行声纹识别，包括：
将所述声学特征输入到预设的声纹识别模型进行识别。

6.根据权利要求4所述的方法，其特征在于，所述对所述语音数据进行声纹识别，包括：
计算所述声学特征和预设的模板声学特征之间的相似度；
在所述相似度大于预设阈...

【专利技术属性】
技术研发人员：舒景辰，张岱，史彩庆，谭星，胡凯，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人