方言识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：22058706 阅读：86 留言：0更新日期：2019-09-07 16:34

本发明专利技术涉及智能决策技术领域，公开了一种方言识别方法，该方法包括：获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的语音文本中，确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。本发明专利技术还提出一种方言识别装置以及一种计算机可读存储介质。本发明专利技术能实现利用深度神经网络提取语音的抽象特征，能更准确的识别方言。

Dialect Recognition Method, Device and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
方言识别方法、装置及计算机可读存储介质
本专利技术涉及智能决策
，尤其涉及一种方言识别方法、装置及计算机可读存储介质。
技术介绍
中国话将普通话作为官方语言。但是各地区、各民族的方言种类众多。方言则普遍的通用于各个不同地区。例如四川方言是盛行于四川省和重庆市的主要方言，并对云贵地区方言产生深远影响。方言发音主要从古巴蜀语的西南官话演变而来。但由于四川方言缺少舌尖后音声母和韵母儿化的特点。四川方言发音与普通话有很大区别。这也同时表现在声学特征方面，其中重点是表现在声韵母系统和语音韵律不同。元音声学特征的共振峰上的差异是四川方言与普通话声韵母系统不同的主要表现：普通发音音调和说话语速之间的差别导致四川方言的语音韵律有明显不同。其中用来衡量说话人发音韵律变化的特征向量的连续动态变化轨迹的差分特征表现最为明显。虽然国内对于语音识别技术已日趋成熟，但是方言识别还甚少研究，因此，为了更准确的识别方言，需要提出一种更准备的方言识别方法，以提高方言的识别率。
技术实现思路
本专利技术提供一种方言识别方法、装置及计算机可读存储介质，其主要目的在于实现利用深度神经网络提取语音的抽象特征，能更准确的识别方言。为实现上述目的，本专利技术还提供一种方言识别方法，所述方法包括：获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的...

【技术保护点】
1.一种方言识别方法，其特征在于，所述方法包括：获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的语音文本确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。

【技术特征摘要】
1.一种方言识别方法，其特征在于，所述方法包括：获取原始方言样本；预处理原始方言样本，得到预处理后的样本；从所述预处理后的样本中提取方言特征向量；利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型；获取待识别的目标方言数据；基于目标方言数据，并利用训练好的方言识别模型，输出所述目标方言数据对应的多个不同相似度的语音文本；根据所述多个不同相似度的语音文本确定相似度最大的语音文本，并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。2.如权利要求1所述的方言识别方法，其特征在于，所述预处理原始方言样本，得到预处理后的样本包括：对所述原始方言样本预加重，得到预加重后的样本；对预加重后的样本进行加窗分帧操作，获得语音帧；通过端点检测将语音帧划分为多个阶段，所述多个阶段包括静音帧、缓冲音帧、非静音帧、结束帧；去除所述语音帧中的静音帧，得到去除的语音帧。3.如权利要求2所述的方言识别方法，其特征在于，所述从所述预处理后的样本中提取方言特征向量包括：利用递归神经网络模型结构，从去除后的语音帧中提取方言特征向量，其中所述递归神经网络模型结构包括输入层、隐藏层及输出层，所述输入层包括128和64神经元的两个双向循环层，并含有32个神经元的单向循环层，所述隐藏层有256个神经元。4.如权利要求3所述的方言识别方法，其特征在于，利用递归神经网络模型结构，从去除后的语音帧中提取方言特征向量包括：将去除后的语音帧作为序列输入到编码器中，通过GRU进行复位门和更新门，并确定递归迭代过程中对之前状态的依赖程度，所述隐藏层将学到的分布式特征表示映射到样本标记空间，组合学习到的序列对应的音素序列的特征作为方言特征向量。5.如权利要求1所述的方言识别方法，其特征在于，所述方言识别模型为深度神经网络DNN模型，所述利用所述方言特征向量训练方言识别模型，得到训练好的方言识别模型包括：获取第一预设数量的训练数据；将所述第一预设数量的训练数据依次输入所述方言识别模型，并利用第二预设数量的训练数据校验训练后的方言识别模型；利用第二预设数量的训练数据校验训练后的方言识别模型，若训练后的方言识别模型的识别准确率大于或等于预设阈值，则训练完成；若训练后的方言识别模型的识别准确率小于预设阈值，则发出提醒信息，提醒用户增加...

【专利技术属性】
技术研发人员：赵婧，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人