【技术实现步骤摘要】
一种低资源客家方言点识别方法
本申请涉及语言识别
,具体涉及一种低资源客家方言点识别方法。
技术介绍
客家方言又称客家话、客家语,流通于广东、广西等地区,以梅县话为代表。客家方言主要通行于广东东部和北部、广西南部、福建西部、江西南部、台湾、四川和湖南部分地区,是一种特殊的语言变体,具有珍贵的史学及语言学研究价值。基于“方言保护计划”,2018年科大讯飞面向全球首次开放珍贵的10种方言语料库,包括宁夏话、合肥话、四川话等,覆盖了我国的大部分地区的方言语音和音素语料库,聚焦方言种类识别问题,共同推进关于方言的算法研究和保护传承。但是目前客家方言语料资源匮乏,因此有效利用有限资源提高方言点识别准确率具有重要意义。
技术实现思路
本专利技术的目的在于:提供一种低资源客家方言点识别方法,利用迁移学习策略,在源端训练一个相对较大的方言语音识别模型,然后对目标端低资源客家方言语音识别模型进行微调,利用中间语义向量进行客家方言识别,有效提取出客家方言音素隐性特征,从而提高客家方言点识别准确率。本专利技术采取的技术方案是:一种低资源客家方言点识别方法,包括如下步骤:步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言 ...
【技术保护点】
1.一种低资源客家方言点识别方法,其特征在于,包括如下步骤:/n步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;/n步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;/n步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方 ...
【技术特征摘要】
1.一种低资源客家方言点识别方法,其特征在于,包括如下步骤:
步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;
步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;
步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方言音素隐性特征;
步骤400:将步骤300中客家方言音素隐性特征作为输入建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果。
2.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤200中的第一语音识别模型包括编码器、解码器和CTC损失函数,所述第一语音识别模型的训练方法包括:
步骤201:编码器将大方言音频的Fbank特征编码成大方言的音素隐性特征;所述编码器的编码过程包括将大方言音频的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;
步骤202:解码器将大方言的音素隐性特征解码成大方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成大方言音素;
步骤203:将大方言音频对应的文本内容制作成大方言文本标签,和所述大方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第一语音识别模型。
3.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤300中对低资源客家方言语料库中的方言语音进行增强处理的方法包括时间延长、高音转换和添加噪声;时间延长的具体方法为放慢或加快音频采样,同时保持音频音...
【专利技术属性】
技术研发人员:徐凡,但扬杰,张光河,王明文,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。