方言识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号:22058706 阅读:86 留言:0更新日期:2019-09-07 16:34
本发明专利技术涉及智能决策技术领域,公开了一种方言识别方法,该方法包括:获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本中,确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。本发明专利技术还提出一种方言识别装置以及一种计算机可读存储介质。本发明专利技术能实现利用深度神经网络提取语音的抽象特征,能更准确的识别方言。

Dialect Recognition Method, Device and Computer Readable Storage Media

【技术实现步骤摘要】
方言识别方法、装置及计算机可读存储介质
本专利技术涉及智能决策
,尤其涉及一种方言识别方法、装置及计算机可读存储介质。
技术介绍
中国话将普通话作为官方语言。但是各地区、各民族的方言种类众多。方言则普遍的通用于各个不同地区。例如四川方言是盛行于四川省和重庆市的主要方言,并对云贵地区方言产生深远影响。方言发音主要从古巴蜀语的西南官话演变而来。但由于四川方言缺少舌尖后音声母和韵母儿化的特点。四川方言发音与普通话有很大区别。这也同时表现在声学特征方面,其中重点是表现在声韵母系统和语音韵律不同。元音声学特征的共振峰上的差异是四川方言与普通话声韵母系统不同的主要表现:普通发音音调和说话语速之间的差别导致四川方言的语音韵律有明显不同。其中用来衡量说话人发音韵律变化的特征向量的连续动态变化轨迹的差分特征表现最为明显。虽然国内对于语音识别技术已日趋成熟,但是方言识别还甚少研究,因此,为了更准确的识别方言,需要提出一种更准备的方言识别方法,以提高方言的识别率。
技术实现思路
本专利技术提供一种方言识别方法、装置及计算机可读存储介质,其主要目的在于实现利用深度神经网络提取语音的抽象特征,能更准确的识别方言。为实现上述目的,本专利技术还提供一种方言识别方法,所述方法包括:获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本中,确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。优选地,所述预处理原始方言样本,得到预处理后的样本包括:对所述原始方言样本预加重,得到预加重后的样本;对预加重后的样本进行加窗分帧操作,获得语音帧;通过端点检测将语音帧划分为多个阶段,所述多个阶段包括静音帧、缓冲音帧、非静音帧、结束帧;去除所述语音帧中的静音帧,得到去除的语音帧。优选地,所述从所述预处理后的样本中提取方言特征向量包括:利用递归神经网络模型结构,从去除后的语音帧中提取方言特征向量,其中所述递归神经网络模型结构包括输入层、隐藏层及输出层,所述输入层包括128和64神经元的两个双向循环层,并含有32个神经元的单向循环层,所述隐藏层有256个神经元。优选地,利用递归神经网络模型结构,从去除后的语音帧中提取方言特征向量包括:将去除后的语音帧作为序列输入到编码器中,通过GRU进行复位门和更新门,并确定递归迭代过程中对之前状态的依赖程度,所述隐藏层将学到的分布式特征表示映射到样本标记空间,组合学习到的序列对应的音素序列的特征作为方言特征向量。优选地,所述方言识别模型为深度神经网络DNN模型,所述利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型包括:获取第一预设数量的训练数据;将所述第一预设数量的训练数据依次输入所述方言识别模型,并利用第二预设数量的训练数据校验训练后的方言识别模型;利用第二预设数量的训练数据校验训练后的方言识别模型,若训练后的方言识别模型的识别准确率大于或等于预设阈值,则训练完成;若训练后的方言识别模型的识别准确率小于预设阈值,则发出提醒信息,提醒用户增加样本数量重新训练所述方言识别模型。优选地,所述基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本包括:提取所述目标方言数据的特征向量;将所述目标方言数据的特征向量作为输入信号输入到所述方言识别模型的输入层;在所述方言识别模型的多个隐藏层中,利用每个隐藏层对应的第一权值,对所述每个隐藏层的输入信号进行处理,获得所述每个隐藏层的输出信号;在所述方言识别模型的输出层,对最上一隐藏层的输出信号进行处理,获得多个不同相似度的语音文本。为了实现上述目的,本专利技术还提供一种方言识别装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的方言识别程序,所述方言识别程序被所述处理器执行时实现如下步骤:获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本中,确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。优选地,所述预处理原始方言样本,得到预处理后的样本包括:对所述原始方言样本预加重,得到预加重后的样本;对预加重后的样本进行加窗分帧操作,获得语音帧;通过端点检测将语音帧划分为多个阶段,所述多个阶段包括静音帧、缓冲音帧、非静音帧、结束帧;去除所述语音帧中的静音帧,得到去除的语音帧。优选地,所述从所述预处理后的样本中提取方言特征向量包括:利用递归神经网络模型结构,从去除后的语音帧中提取方言特征向量,其中所述递归神经网络模型结构包括输入层、隐藏层及输出层,所述输入层包括128和64神经元的两个双向循环层,并含有32个神经元的单向循环层,所述隐藏层有256个神经元。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有方言识别程序,所述方言识别程序可被一个或者多个处理器执行,以实现如上所述的方言识别方法的步骤。本专利技术获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本中,确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。本专利技术能实现利用深度神经网络提取语音的抽象特征,能更准确的识别方言。附图说明图1为本专利技术一实施例提供的方言识别方法的流程示意图;图2为本专利技术一实施例提供的方言识别装置的内部结构示意图;图3为本专利技术一实施例提供的方言识别装置中方言识别程序的模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种方言识别方法。参照图1所示,为本专利技术一实施例提供的方言识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,方言识别方法包括:S10、获取原始方言样本。在本实施例中,原始方言样本来源于语料库,例如四川方言语料来源于20个说话人(男性10人,女性10人)录制的音素覆盖平衡的四川方言语句,录音文件由20名说话者分别朗读产生。而所构成四川方言语音库中语音数据采用单通道16kHz采样,16位PCM量化,存储为wav格式。且该语料库的所有数据均配有对应四川话、普通话中文释义和对应字词典,以及分词文件。S11、预处理原始方言样本,得到预处理后的样本文档来自技高网...

【技术保护点】
1.一种方言识别方法,其特征在于,所述方法包括:获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。

【技术特征摘要】
1.一种方言识别方法,其特征在于,所述方法包括:获取原始方言样本;预处理原始方言样本,得到预处理后的样本;从所述预处理后的样本中提取方言特征向量;利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型;获取待识别的目标方言数据;基于目标方言数据,并利用训练好的方言识别模型,输出所述目标方言数据对应的多个不同相似度的语音文本;根据所述多个不同相似度的语音文本确定相似度最大的语音文本,并将所述相似度最大的语音文本作为所述目标方言数据对应的识别结果。2.如权利要求1所述的方言识别方法,其特征在于,所述预处理原始方言样本,得到预处理后的样本包括:对所述原始方言样本预加重,得到预加重后的样本;对预加重后的样本进行加窗分帧操作,获得语音帧;通过端点检测将语音帧划分为多个阶段,所述多个阶段包括静音帧、缓冲音帧、非静音帧、结束帧;去除所述语音帧中的静音帧,得到去除的语音帧。3.如权利要求2所述的方言识别方法,其特征在于,所述从所述预处理后的样本中提取方言特征向量包括:利用递归神经网络模型结构,从去除后的语音帧中提取方言特征向量,其中所述递归神经网络模型结构包括输入层、隐藏层及输出层,所述输入层包括128和64神经元的两个双向循环层,并含有32个神经元的单向循环层,所述隐藏层有256个神经元。4.如权利要求3所述的方言识别方法,其特征在于,利用递归神经网络模型结构,从去除后的语音帧中提取方言特征向量包括:将去除后的语音帧作为序列输入到编码器中,通过GRU进行复位门和更新门,并确定递归迭代过程中对之前状态的依赖程度,所述隐藏层将学到的分布式特征表示映射到样本标记空间,组合学习到的序列对应的音素序列的特征作为方言特征向量。5.如权利要求1所述的方言识别方法,其特征在于,所述方言识别模型为深度神经网络DNN模型,所述利用所述方言特征向量训练方言识别模型,得到训练好的方言识别模型包括:获取第一预设数量的训练数据;将所述第一预设数量的训练数据依次输入所述方言识别模型,并利用第二预设数量的训练数据校验训练后的方言识别模型;利用第二预设数量的训练数据校验训练后的方言识别模型,若训练后的方言识别模型的识别准确率大于或等于预设阈值,则训练完成;若训练后的方言识别模型的识别准确率小于预设阈值,则发出提醒信息,提醒用户增加...

【专利技术属性】
技术研发人员:赵婧王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1