一种低资源客家方言点识别方法技术

技术编号:28875309 阅读:20 留言:0更新日期:2021-06-15 23:09
本申请涉及一种低资源客家方言点识别方法,包括如下步骤:步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;步骤200:利用迁移学习策略,在源端训练一个相对较大的方言语音识别模型;步骤300:对目标端低资源客家方言语音识别模型进行微调,利用中间语义向量进行客家方言识别;步骤400:建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果。本发明专利技术能够在较少的数据情况下训练出准确率较好的方言点识别模型,准确识别出所属方言点,便于后期为进行方言自动回复,聊天等任务提供更准确的指导信息。

【技术实现步骤摘要】
一种低资源客家方言点识别方法
本申请涉及语言识别
,具体涉及一种低资源客家方言点识别方法。
技术介绍
客家方言又称客家话、客家语,流通于广东、广西等地区,以梅县话为代表。客家方言主要通行于广东东部和北部、广西南部、福建西部、江西南部、台湾、四川和湖南部分地区,是一种特殊的语言变体,具有珍贵的史学及语言学研究价值。基于“方言保护计划”,2018年科大讯飞面向全球首次开放珍贵的10种方言语料库,包括宁夏话、合肥话、四川话等,覆盖了我国的大部分地区的方言语音和音素语料库,聚焦方言种类识别问题,共同推进关于方言的算法研究和保护传承。但是目前客家方言语料资源匮乏,因此有效利用有限资源提高方言点识别准确率具有重要意义。
技术实现思路
本专利技术的目的在于:提供一种低资源客家方言点识别方法,利用迁移学习策略,在源端训练一个相对较大的方言语音识别模型,然后对目标端低资源客家方言语音识别模型进行微调,利用中间语义向量进行客家方言识别,有效提取出客家方言音素隐性特征,从而提高客家方言点识别准确率。本专利技术采取的技术方案是:一种低资源客家方言点识别方法,包括如下步骤:步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方言音素隐性特征;步骤400:将步骤300中客家方言音素隐性特征作为输入建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果。进一步地,步骤200中的第一语音识别模型包括编码器、解码器和CTC损失函数,所述第一语音识别模型的训练方法包括:步骤201:编码器将大方言音频的Fbank特征编码成大方言的音素隐性特征;所述编码器的编码过程包括将大方言音频的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;步骤202:解码器将大方言的音素隐性特征解码成大方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成大方言音素;步骤203:将大方言音频对应的文本内容制作成大方言文本标签,和所述大方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第一语音识别模型。进一步地,步骤300中对低资源客家方言语料库中的方言语音进行增强处理的方法包括时间延长、高音转换和添加噪声;时间延长的具体方法为放慢或加快音频采样,同时保持音频音高不变;音高转换的具体方法为提高或降低音频样本的音高,同时保持音频时长不变;添加噪声的具体方法为在音频中随机添加高斯噪声。进一步地,步骤300中第二语音识别模型包括编码器、解码器和CTC损失函数,所述第二语音识别模型的训练方法包括:步骤301:编码器将增强后的Fbank特征编码成客家方言的音素隐性特征;所述编码器的编码过程包括将增强后的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;步骤302:解码器将客家方言的音素隐性特征解码成客家方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成客家方言音素;步骤303:将客家方言音频对应的文本内容制作成客家方言文本标签,和所述客家方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第二语音识别模型。进一步地,所述残差CNN网络模型包括一个卷积层conv1子模块、一个最大池化层maxpool子模块、四个子残差CNN模块和一个mean函数模块。进一步地,所述多头注意力网络模型的具体表达式为:其中,K为键向量,Q为查询向量,V为值向量,dk为一个Q和K向量的维度,KT为键向量的转置向量。进一步地,所述目标函数的具体公式为:H0=-yclog[p(yc=1)]-(1-yc)log[1-p(yc=1)]其中,Θ是参数集,M代表训练实例的个数,J(Θ)为目标函数,H0为交叉熵值,Q为调和参数,yc为分类标签,p(yc=1)为分类标签为1时的概率,trainset为训练集。进一步地,所述低资源客家方言点识别计算模型为一个分类器模型,包括BiLSTM模块、两个Linear模块和softmax模块;所述客家方言音素隐性特征依次经过BiLSTM模块、两个Linear模块和softmax模块处理,再通过交叉熵目标函数和Adam算法进行优化,得到低资源客家方言点预测结果。本专利技术的有益技术效果在于:既可将输入的客家方言音频识别并转录成音素级别的文本句子,也可针对输入的方言语音所属的方言点进行识别。针对低资源客家方言数据量较少的情况,通过迁移学习模块和数据增强模块,有效提取出客家方言音素隐性特征,训练出准确率较好的低资源客家方言识别计算模型,便于后期为进行方言自动回复,聊天等任务提供更准确的指导信息。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例的客家方言识别框架示意图。图2为本专利技术实施例第一语音识别模型和第二语音识别模型的结构示意图。图3为本专利技术实施例客家方言点识别计算模型结构示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术并不限于下面公开的具体实施例的限制。除非另作定义,此处使用的技术术语或者科学术语应当为本申请所述本文档来自技高网...

【技术保护点】
1.一种低资源客家方言点识别方法,其特征在于,包括如下步骤:/n步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;/n步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;/n步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方言音素隐性特征;/n步骤400:将步骤300中客家方言音素隐性特征作为输入建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果。/n...

【技术特征摘要】
1.一种低资源客家方言点识别方法,其特征在于,包括如下步骤:
步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;
步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;
步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方言音素隐性特征;
步骤400:将步骤300中客家方言音素隐性特征作为输入建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果。


2.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤200中的第一语音识别模型包括编码器、解码器和CTC损失函数,所述第一语音识别模型的训练方法包括:
步骤201:编码器将大方言音频的Fbank特征编码成大方言的音素隐性特征;所述编码器的编码过程包括将大方言音频的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;
步骤202:解码器将大方言的音素隐性特征解码成大方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成大方言音素;
步骤203:将大方言音频对应的文本内容制作成大方言文本标签,和所述大方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第一语音识别模型。


3.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤300中对低资源客家方言语料库中的方言语音进行增强处理的方法包括时间延长、高音转换和添加噪声;时间延长的具体方法为放慢或加快音频采样,同时保持音频音...

【专利技术属性】
技术研发人员:徐凡但扬杰张光河王明文
申请(专利权)人:江西师范大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1