语音处理方法及装置、计算机可读介质、电子设备制造方法及图纸

技术编号：27311196 阅读：21 留言：0更新日期：2021-02-10 09:34

本公开提供了一种语音处理方法及装置、计算机可读介质、电子设备，涉及人工智能领域。方法包括：获取具有变异音的语音信息，对语音信息进行预处理以获取语音特征信息；对语音特征信息进行特征提取，以获取与语音特征信息对应的状态信息；根据状态信息和多发音词典确定与语音信息对应的具有标准音的文本信息，其中多发音词典是根据具有标准音的第一词汇和与第一词汇具有相同语义且具有变异音的第二词汇构建的，第一词汇和第二词汇为拼音文字。本公开能够基于标准音音素和变异音音素之间的发音变异规则确定多发音词典，避免了大量标注语料，节省了标注成本和时间，并且能够根据多发音词典进行语音处理，提高了处理效率和精准度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法及装置、计算机可读介质、电子设备

[0001]本公开涉及人工智能
，具体而言，涉及一种语音处理方法、语音处理装置、计算机可读介质及电子设备。

技术介绍

[0002]语言是由词汇按一定的语法所构成的语音表义系统，世界各个民族都有自己的语言，即使是同一个民族也会衍生出多种不同的语言，并且各类语言中还会存在发音变异的现象，例如新疆维吾尔自治区有45％的居民是维吾尔族，维吾尔语是他们主要的沟通工具，目前维吾尔语方言分为中心方言、和田方言和罗布方言，其中中心方言对应标准音，是新疆通用的官方标准语，而和田方言和罗布方言对应变异音，只在局部地区被使用。
[0003]随着人工智能技术的发展，人们主要通过机器学习模型进行语音处理任务。在对机器学习模型进行训练时，通常需要对具有变异音的语料进行标注，然后再根据标注的语料进行标注建模，但是由于语料标注难度大，并且对标注者的语言能力要求高，因此使得人工标注周期长，成本高，同时由于语料库有限，导致训练后的模型性能一般，无法有效识别具有变异音的语音信息，进而降低了用户体验。
[0004]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的实施例提供了一种语音处理方法、语音处理装置、计算机可读介质及电子设备，进而至少在一定程度上可以基于语言规则直接建立具有标准音的语言和具有变异音的语言的发音变异规则，进而根据具有标准音的词汇和对应的...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，包括：获取具有变异音的语音信息，对所述语音信息进行预处理以获取语音特征信息；对所述语音特征信息进行特征提取，以获取与所述语音特征信息对应的状态信息；根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息，其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的，所述第一词汇和所述第二词汇为拼音文字。2.根据权利要求1所述的方法，其特征在于，在获取具有变异音的语音信息之前，所述方法还包括：获取所述具有标准音的第一词汇，并根据发音变异规则集确定与所述第一词汇对应的规则链，其中所述发音变异规则集是基于标准音音素和变异音音素之间的转换规则构建而成的；根据所述规则链对所述第一词汇中的音素进行转换，以获取与所述第一词汇对应的具有变异音的第二词汇；根据所述第一词汇和所述第二词汇构建多发音词典。3.根据权利要求2所述的方法，其特征在于，所述根据发音变异规则集确定与所述第一词汇对应的规则链，包括：获取组成所述第一词汇的元音音素和辅音音素；将所述元音音素和所述辅音音素分别与所述发音变异规则集中的标准音音素所包含的元音音素和辅音音素进行匹配；当所述发音变异规则集中存在与所述元音音素和所述辅音音素对应的目标元音音素和目标辅音音素时，获取与所述目标元音音素对应的第一发音变异规则和与所述目标辅音音素对应的第二发音变异规则，并根据所述第一发音变异规则和所述第二发音变异规则形成所述规则链。4.根据权利要求2所述的方法，其特征在于，所述根据发音变异规则集确定与所述第一词汇对应的规则链，包括：获取组成所述第一词汇的元音音素；将所述元音音素与所述发音转换规则集中标准音音素所包含的元音音素进行匹配；当所述发音变异规则集中存在与所述元音音素对应的目标元音音素时，获取与所述目标元音音素对应的发音变异规则，并根据所述发音变异规则形成所述规则链。5.根据权利要求3所述的方法，其特征在于，所述根据所述规则链对所述第一词汇中的音素进行转换，以获取与所述第一词汇对应的具有变异音的第二词汇，包括：将所述规则链中的发音变异规则进行组合以形成多个规则集，根据各所述规则集对所述第一词汇中的音素进行转换，并根据转换后的音素构建所述第二词汇。6.根据权利要求5所述的方法，其特征在于，所述规则集包括所述规则链中的一个或多个发音变异规则；所述根据各所述规则集对所述第一词汇中的音素进行转换，并根据转换后的音素构建所述第二词汇，包括：当所述规则集中包括所述规则链中的一个发音变异规则时，根据所述发音变异规则对所述第一词汇中与所述变异规则对应的音素进行转换，并根据转换后的音素构建所述第二
词汇；或者，当所述规则集中包括所述规则链中的多个发音变异规则时，确定所述第一词汇中与各所述发音变异规则对应的待转换音素；根据各所述发音变异规则对所述待转换音素进行多轮转换，并根据多轮转换后的待转换音素构建所述第二词汇。7.根据权利要求6所述的方法，其特征在于，所述根据各所述发音变异规则对所述待转换音素进行多轮转换，并根据多轮转换后的待转换音素构建所述第二词汇，包括：根据第N个发音变异规则对所述第一词汇中与所述第N个发音变异规则...

【专利技术属性】
技术研发人员：李应弟，刘洪，李丹，贾鹏飞，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人