语言的声学模型训练方法、装置、电子设备及计算机介质制造方法及图纸

技术编号：27659058 阅读：56 留言：0更新日期：2021-03-12 14:25

本申请提供了一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质，涉及语音识别领域。该方法包括：对所述目标语言的文本集进行拉丁化，得到所述目标语言的发音字典；基于所述发音字典和所述文本集生成目标语言语料库；根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型；基于所述目标语言的各种方言分别对应的方言语料，分别对所述语音识别模型再次训练，得到对所述各种方言进行识别的方言语音识别模型。本申请不需要人工标注，节省了大量的人力成本和时间成本；而且，针对目标语言不同分支的方言，通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型，提升了每种方言的识别率。

全部详细技术资料下载

【技术实现步骤摘要】
语言的声学模型训练方法、装置、电子设备及计算机介质
本申请涉及语音识别
，具体而言，本申请涉及一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质。
技术介绍
自动语音识别(AutomaticSpeechRecognition，ASR)是人工智能领域中较为活跃的研究课题。语音识别目的是将语音信号转变为对应的文本表示，其基本框架如图1所示。语音信号首先需要进行声学特征提取，将信息进行大幅度的压缩，转变为机器能更好划分的形式，然后将特征送入解码器解码出识别结果。而解码器则需要声学模型和语言模型以及发音字典的共同作用，才能对特征进行打分，得到最终的解码序列。声学模型的训练至关重要，而其中一项关键的工作就是选择合适的语料来训练，所选择的语料要尽可能的覆盖语言的发音现象，同时数据又不能太稀疏，而发音字典存储字到发音的映射关系，也是传统建模方法中连接声学模型和语言模型的桥梁。对于数据资源充足的语言，通常采用人工标注的方式获得大量的训练语料与发音字典，或者采用端到端建模方法直接以字符等建模单元进行声学模型建模，达到不需要发音字典的目的。虽然国内外语音识别技术的研究工作较多，但相关的研究工作主要集中在汉语、英语等数据资源较为丰富的通用语言上，语音数据量慢慢突破上万甚至上十万小时。但针对数据资源较少的目标语言(比如藏语)的语音识别却研究较少，同时目标语言由于数据资源稀缺，发音字典较难构建，导致相关研究的门槛较高，且集中在单个方言之中。现有的目标语言语音识别方法，其发音字典构建大多采用人工的标注形...

【技术保护点】
1.一种语言的声学模型训练方法，其特征在于，包括：/n对目标语言的文本集进行拉丁化，得到所述目标语言的发音字典；/n基于所述发音字典和所述文本集生成目标语言语料库；所述目标语言语料库中包括所述文本集对应的语音语料；/n根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型；/n基于所述目标语言的各种方言分别对应的方言语料，分别对所述语音识别模型再次训练，得到对所述各种方言进行识别的方言语音识别模型。/n

【技术特征摘要】
1.一种语言的声学模型训练方法，其特征在于，包括：
对目标语言的文本集进行拉丁化，得到所述目标语言的发音字典；
基于所述发音字典和所述文本集生成目标语言语料库；所述目标语言语料库中包括所述文本集对应的语音语料；
根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型；
基于所述目标语言的各种方言分别对应的方言语料，分别对所述语音识别模型再次训练，得到对所述各种方言进行识别的方言语音识别模型。

2.根据权利要求1所述的语言的声学模型训练方法，其特征在于，所述文本集包括至少两条目标语言文本；
所述对目标语言的文本集进行拉丁化，得到所述目标语言的发音字典，包括：
基于音节符对所述至少两条目标语言文本进行分割，得到至少两个音节；
统计得到所述至少两个音节在所述文本集中各自对应的出现频率，并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节；
对各个目标音节进行拉丁化，得到各个目标音节各自对应的发音序列，并将各个发音序列的集合作为所述目标语言的发音字典。

3.根据权利要求1或2所述的语言的声学模型训练方法，其特征在于，所述基于所述发音字典和所述文本集生成目标语言语料库，包括：
从至少两条目标语言文本中确定出至少两条目标语言语句；其中，任一条目标语言文本包括至少一条目标语言语句；
基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句；
基于所述至少两条目标语言语句生成目标语言语料库。

4.根据权利要求3所述的语言的声学模型训练方法，其特征在于，所述从至少两条目标语言文本中确定出至少两条目标语言语句，包括：
对所述至少两条目标语言文本进行去重，得到剩余的至少两条第一目标语言文本；
对所述至少两条第一目标语言文本进行正则化，得到正则化后的至少两条第二目标语言文本；
对所述至少两条第二目标语言文本进行语句分割，得到至少两条目标语言语句；
确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。

5.根据权利要求3所述的语言的声学模型训练方法，其特征在于，所述基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句，包括：
采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换，得到所述至少两条目标语言语句各自对应的三音子序列；
计算得到各个三音子序列的信息熵，并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句；
针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句，重复执行采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换，得到所述至少两条目标语言语句各自对应的三音子序列，以及计算得到各个三音...

【专利技术属性】
技术研发人员：颜京豪，黄申，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人