【技术实现步骤摘要】
本专利技术涉及语音识别,具体而言,涉及一种基于transformer的青岛方言语音识别模型。
技术介绍
1、语音识别是一项融合多学科知识的前沿技术,是人机自然交互技术中的关键环节。近年来随着深度学习技术的进一步深入,语音识别技术准确率得以较大提升,被广泛应用在智慧教育、智慧医疗、智慧城市、智能家居、智能汽车等领域。虽然语音识别技术为大多数场景提供了一种便利高效的沟通方式,但仍未实现无限制领域、无限制人群的应用。
2、随着技术的发展以及方言关注度的上升,语音识别技术在方言、口音等场景上也达到了可用状态。尤其在“后疫情”、“远程办公”、“在线政务”和“物联网”的复合背景下,方言语音识别转写需求已覆盖多个应用场景,但这项技术现阶段还存在较多不足,例如在强噪声、超远场、强干扰、多语种、大词汇等情况下,方言语音识别准确度低、响应慢;另外,由于方言本身具有种类多、某一类方言下的子类彼此不相通的特点,现有方言识别技术只能覆盖部分种类方言。
3、就青岛地区方言,尤其是即墨、崂山、城阳等地,其方言口音重,特色明显。由于现有方言识别技术尚未覆盖该地区,在基层访谈、政务应用、智能回访、医疗问诊等场景下存在着不可忽视的方言沟通障碍。因此,亟需开发出一种青岛方言语音识别模型。
技术实现思路
1、本专利技术的目的在于,针对上述现有不足,提供一种基于transformer的青岛方言语音识别模型,以便充分利用已标注的青岛方言语音数据来加强模型的训练。
2、为解决上述技术问题,本
3、获取青岛方言语音的语音文件和文本文件作为训练样本建立语料库;
4、语音信号特征提取,提取fbank特征转化成输入序列,输入transformer模型;
5、训练过程利用已建立好的语料库中的语音文件和文本文件进行训练,基于transformer模型得到预训练模型;
6、识别过程是对预训练好的模型,进行语音测试,从而输出识别结果。
7、优选的,所述获取青岛方言语音训练样本建立语料库,包括获取语音文件单元、标注语音文本单元。
8、所述获取语音文件单元是根据相关方言搜集网站(bilibili、喜马拉雅)、书籍(青岛话音档)以及不同人群的人工方言录制获取训练样本,用于构建方言语音语料库,并传递给语音信号特征提取。
9、所述标注语音文本单元,用于对方言语音语料库中的语音进行文本命名及标签标注和规范化处理生成词典,并传递至transformer模型;
10、优选的,所述语音信号特征提取,利用fbank对青岛方言语音数据进行处理,包括预加重、分帧加窗、fft、特征提取:
11、所述预加重,用于使提高后的语音信号在各个频段分布均匀,具体地说,利用一阶高通滤波器提升信号在高频部分的信噪比提高信息能量低的部分;
12、所述分帧加窗,用于提取帧信号,提取时选择重叠分帧处理,每一帧信号得到一个频谱,将所有帧的频谱连接起来形成语谱;
13、所述fft,用于对提取出来的帧信号进行傅里叶变换,并传递给特征提取单元;
14、所述特征提取,用于对fft变换后的音频进行频谱滤波,得到梅尔频率滤波特征并传递至基于transformer得到的预训练青岛方言语音识别模型。
15、优选的,训练过程利用已建立好的语料库中的语音文件和文本文件进行训练,基于transformer模型得到预训练模型,包括:前置处理模块、编码器单元和解码器单元
16、优选的,所述基于transformer的方言语音识别模块包括前置处理模块、编码器和解码器;
17、所述前置处理模块,包括声学前置模块和文本前置模块,声学前置模块用于接收声学特征输入获取声学特征的绝对位置信息,文本前置模块用于接收文本标签输入,位置编码和词嵌入相加转化成输入序列,输入编码器;
18、所述编码器,用于对输入序列进行编码,得到字符向量。编码器包括多头注意力层和全连接层,然后对每个位置的向量分别进行相同的操作,
19、所述解码器,用于对字符向量进行解码,得到输出特征。解码器中有三层,包括两个多头注意力层和一个全连接层。第一个注意力层是利用自注意力学习目标句内部关系,然后前一时刻的输出与编码器传过来的输出结果一起输入到第二个注意力层,用来学习源句与目标句之间的关系。
20、基于transformer的青岛方言语音识别模型包括以下步骤:
21、s1.获取青岛方言语音的语音文件和文本文件作为训练样本建立语料库;
22、
23、s2.语音信号特征提取,提取fbank特征转化成输入序列,输入transformer模型;
24、s3.训练过程利用已建立好的语料库中的语音文件和文本文件进行训练,基于transformer模型得到预训练模型;
25、s4.识别过程是对预训练好的模型,进行语音测试,从而输出识别结果。
26、具体地说,所述步骤s1中获取青岛方言语音训练样本建立语料库,具体包括以下步骤:
27、s1.1青岛方言语音语料库的语音文件是根据相关方言搜集网站(bilibili、喜马拉雅)、书籍(青岛话音档)以及不同人群的人工方言录制获取训练样本,其中语音录制要求青岛本地人,吐字清晰、声音洪亮、发音顺畅,且男女比例均衡,保证在无噪音、回音的环境下进行。录音软件采用cool edit pro语音编辑软件,过程中将采样频率设为16khz,采样精度为16bit,录音保存格式为.wav。录制结束后,对收集的语音进行除噪数据预处理。语音文件传入语音信号特征提取以提取特征参数;
28、s1.2所述青岛方言语音语料库的文本文件是对每条语音样本进行文本命名并进行标签标注,最后对文本进行规范化处理生成词典。
29、所述s2的过程为:
30、s2.1预加重,利用一阶高通滤波器提升信号在高频部分的信噪比提高信息能量低的部分;
31、s2.2分帧加窗,用于提取帧信号,提取时选择重叠分帧处理,每一帧信号得到一个频谱,将所有帧的频谱连接起来形成语谱;
32、s2.3 fft,用于对提取出来的帧信号进行傅里叶变换,并传递给特征提取单元;
33、s2.4特征提取,用于对fft变换后的音频进行频谱滤波,得到梅尔频率滤波特征并传递至基于transformer得到的预训练青岛方言语音识别模型。
34、所述s3的过程为:
35、s3.1声学前置模块用于接收声学特征输入获取声学特征的绝对位置信息,文本前置模块用于接收文本标签输入,位置编码和词嵌入相加转化成输入序列,输入编码器单元;
36、s3.2编码器对输入序列进行编码,得到字符向量;
37、s3.3解码器对字符向量进行解码,得到输出特征。
...【技术保护点】
1.基于Transformer的青岛方言语音识别模型,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于Transformer的青岛方言语音识别模型,其特征在于,所述S1中,步骤为:
3.根据权利要求1所述的基于Transformer的青岛方言语音识别模型,其特征在于,所述S2中,语音信号特征提取方法为Fbank,步骤为:
4.根据权利要求1所述的基于Transformer的青岛方言语音识别模型,其特征在于,所述S3中,使用的模型为Transformer语言模型,步骤为:
【技术特征摘要】
1.基于transformer的青岛方言语音识别模型,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于transformer的青岛方言语音识别模型,其特征在于,所述s1中,步骤为:
3.根据权利要求1所述的基于transform...
【专利技术属性】
技术研发人员:谷潇,相紫涵,徐奥博,饶崇郅,渐令,
申请(专利权)人:中国石油大学华东,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。