语言的声学模型训练方法、装置、电子设备及计算机介质制造方法及图纸

技术编号:27659058 阅读:56 留言:0更新日期:2021-03-12 14:25
本申请提供了一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质,涉及语音识别领域。该方法包括:对所述目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;基于所述发音字典和所述文本集生成目标语言语料库;根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。本申请不需要人工标注,节省了大量的人力成本和时间成本;而且,针对目标语言不同分支的方言,通过预设的多种方言语料训练得到每种方言各自对应的方言声学模型,提升了每种方言的识别率。

【技术实现步骤摘要】
语言的声学模型训练方法、装置、电子设备及计算机介质
本申请涉及语音识别
,具体而言,本申请涉及一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是人工智能领域中较为活跃的研究课题。语音识别目的是将语音信号转变为对应的文本表示,其基本框架如图1所示。语音信号首先需要进行声学特征提取,将信息进行大幅度的压缩,转变为机器能更好划分的形式,然后将特征送入解码器解码出识别结果。而解码器则需要声学模型和语言模型以及发音字典的共同作用,才能对特征进行打分,得到最终的解码序列。声学模型的训练至关重要,而其中一项关键的工作就是选择合适的语料来训练,所选择的语料要尽可能的覆盖语言的发音现象,同时数据又不能太稀疏,而发音字典存储字到发音的映射关系,也是传统建模方法中连接声学模型和语言模型的桥梁。对于数据资源充足的语言,通常采用人工标注的方式获得大量的训练语料与发音字典,或者采用端到端建模方法直接以字符等建模单元进行声学模型建模,达到不需要发音字典的目的。虽然国内外语音识别技术的研究工作较多,但相关的研究工作主要集中在汉语、英语等数据资源较为丰富的通用语言上,语音数据量慢慢突破上万甚至上十万小时。但针对数据资源较少的目标语言(比如藏语)的语音识别却研究较少,同时目标语言由于数据资源稀缺,发音字典较难构建,导致相关研究的门槛较高,且集中在单个方言之中。现有的目标语言语音识别方法,其发音字典构建大多采用人工的标注形式,而采用端到端方法直接对音节或词进行声学模型建模在小数据集上难以达到最佳性能,于是发音字典构建目前为止仍是很重要的工作。另一方面,由于现有目标语言的语料资源稀缺,难以大量录制目标语言语音数据,导致语料规模小,同时,发音现象的覆盖较低、均衡度较低,使得采用语料训练得到声学模型的识别率也较低。
技术实现思路
本申请提供了一种语言的声学模型训练方法、装置、电子设备及计算机可读存储介质,可以解决上述问题。所述技术方案如下:一方面,提供了一种语言的声学模型训练方法,该方法包括:对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。优选地,所述文本集包括至少两条目标语言文本;所述对预设的目标语言的文本集进行拉丁化,得到所述目标语言的发音字典,包括:基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为所述目标语言的发音字典。优选地,所述基于所述发音字典和所述文本集生成目标语言语料库,包括:从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句;基于所述至少两条目标语言语句生成目标语言语料库。优选地,所述从至少两条目标语言文本中确定出至少两条目标语言语句,包括:对所述至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;对所述至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;对所述至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。优选地,所述基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句,包括:采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列;计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句,重复执行采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句的步骤,直至目标语言语句的数量达到第二预设数量。优选地,所述基于所述至少两条目标语言语句生成目标语言语料库,包括:对所述至少两条目标语言语句进行音频录制,得到所述至少两条目标语言语句各自对应的音频数据;将所述至少两条目标语言语句和各自对应的音频数据进行存储,得到目标语言语料库。优选地,所述根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型,包括:从所述目标语言语料库中的各个音频数据中提取出40维梅尔倒谱系数特征和100维身份认证向量特征作为声学特征;采用所述声学特征和所述目标语言语料库中的各条目标语言语句对预设的高斯混合模型进行训练,得到目标语言的语音识别模型。优选地,所述基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型,包括:采用所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型进行迁移学习,得到所述各种方言语料各自对应的对所述各种方言进行识别的方言声学模型。优选地,还包括:获取所述目标语言的待处理音频;采用所述至少一个方言语音识别模型对所述待处理音频进行语音识别,得到对应的目标语言文本。另一方面,提供了一种语言的声学模型训练装置,该装置包括:第一处理模块,用于对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;第二处理模块,用于基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;第三处理模块,用于根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;第四处理模块,用于基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。优选地,所述文本集包括至少两条目标语言文本;所述第一处理模块包括:分割子模块,用于基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;统计子模块,用于统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节本文档来自技高网
...

【技术保护点】
1.一种语言的声学模型训练方法,其特征在于,包括:/n对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;/n基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;/n根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;/n基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。/n

【技术特征摘要】
1.一种语言的声学模型训练方法,其特征在于,包括:
对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典;
基于所述发音字典和所述文本集生成目标语言语料库;所述目标语言语料库中包括所述文本集对应的语音语料;
根据所述目标语言语料库训练对所述目标语言进行识别的语音识别模型;
基于所述目标语言的各种方言分别对应的方言语料,分别对所述语音识别模型再次训练,得到对所述各种方言进行识别的方言语音识别模型。


2.根据权利要求1所述的语言的声学模型训练方法,其特征在于,所述文本集包括至少两条目标语言文本;
所述对目标语言的文本集进行拉丁化,得到所述目标语言的发音字典,包括:
基于音节符对所述至少两条目标语言文本进行分割,得到至少两个音节;
统计得到所述至少两个音节在所述文本集中各自对应的出现频率,并将所述至少两个音节中出现频率靠前的第一预设数量的音节作为目标音节;
对各个目标音节进行拉丁化,得到各个目标音节各自对应的发音序列,并将各个发音序列的集合作为所述目标语言的发音字典。


3.根据权利要求1或2所述的语言的声学模型训练方法,其特征在于,所述基于所述发音字典和所述文本集生成目标语言语料库,包括:
从至少两条目标语言文本中确定出至少两条目标语言语句;其中,任一条目标语言文本包括至少一条目标语言语句;
基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句;
基于所述至少两条目标语言语句生成目标语言语料库。


4.根据权利要求3所述的语言的声学模型训练方法,其特征在于,所述从至少两条目标语言文本中确定出至少两条目标语言语句,包括:
对所述至少两条目标语言文本进行去重,得到剩余的至少两条第一目标语言文本;
对所述至少两条第一目标语言文本进行正则化,得到正则化后的至少两条第二目标语言文本;
对所述至少两条第二目标语言文本进行语句分割,得到至少两条目标语言语句;
确定出所述至少两条目标语言语句中音节数量超过第一音节数量阈值且不超过第二音节数量阈值的目标语言语句。


5.根据权利要求3所述的语言的声学模型训练方法,其特征在于,所述基于所述发音字典和所述至少两条目标语言语句确定出至少两条目标语言语句,包括:
采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列;
计算得到各个三音子序列的信息熵,并将信息熵最大的三音子序列对应的目标语义语句作为目标语言语句;
针对所述至少两条目标语言语句中除所述目标语言语句之外的其它目标语言语句,重复执行采用所述发音字典对所述至少两条目标语言语句分别进行三音子转换,得到所述至少两条目标语言语句各自对应的三音子序列,以及计算得到各个三音...

【专利技术属性】
技术研发人员:颜京豪黄申
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1