【技术实现步骤摘要】
语音识别方法以及装置
[0001]本说明书实施例涉及计算机
,特别涉及一种语音识别方法。
技术介绍
[0002]口音是指带有个人、地方语言特征的话音。在日常生活中,一个地区的人在说另一个地区的语言时,容易保持自己习惯的发音方式,因此,会出现不同的口音。以汉语为例,汉语中共有八大方言,即官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语,其中,官话是与标准普通话最为接近的一种方言,其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握,他们的普通话发音不可避免地受到其方言母语发音的强烈影响,出现发音不准确、发音错误等现象,导致机器或者智能设备的语音识别性能下降。因此,亟需一种有效的方案以解决上述问题。
技术实现思路
[0003]有鉴于此,本说明书实施例提供了一种语音识别方法。本说明书一个或者多个实施例同时涉及一种语音识别装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0004]根据本说 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,包括:获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。2.根据权利要求1所述的方法,所述提取所述语音数据中的语音特征,获得第一语音特征之前,还包括:获取预先训练的语音识别模型,所述语音识别模型包括编码层、多专家网络层和解码层;所述提取所述语音数据中的语音特征,获得第一语音特征,包括:将所述语音数据输入所述编码层提取语音特征,获得第一语音特征;所述对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征,包括:将所述第一语音特征输入所述多专家网络层进行口音特征识别,获得携带有口音特征的第二语音特征;所述基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容,包括:将所述携带有口音特征的第二语音特征输入所述解码层对所述语音数据进行识别,得到第一语音文本内容。3.根据权利要求2所述的方法,所述获取预先训练的语音识别模型之前,还包括:获取口音语音训练样本集和预设的待训练模型,其中,所述口音语音训练样本集中包含多种口音语音样本;从所述多种口音语音样本中提取任一口音语音样本,将该口音语音样本输入所述待训练模型,得到输出结果;根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,继续执行所述从所述多种口音语音样本中提取任一口音语音样本的步骤,在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型。4.根据权利要求3所述的方法,所述在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型之后,还包括:获取口音语音修正样本集,其中,所述口音语音修正样本集包含多种携带有口音语音标签的口音语音修正样本;从所述口音语音修正样本集中提取任一口音语音修正样本,将该口音语音修正样本输入所述语音识别模型,得到预测识别结果;根据所述预测识别结果和该口音语音修正样本携带的所述口音语音标签确定差异值;根据所述差异值,调整所述语音识别模型的模型参数,继续执行所述从所述口音语音修正样本集中提取任一口音语音修正样本的步骤,在达到第二预设训练停止条件的情况下,得到目标语音识别模型。5.根据权利要求3所述的方法,所述待训练模型包括采样层、编码层、多专家网络层和解码层;所述将该口音语音样本输入所述待训练模型,得到输出结果,包括:
将该口音语音样本输入所述采样层进行采样处理,得到该口音语音样本的采样结果;将所述采样结果输入所述编码层进行语音特征提取,得到第一预测语音特征;将所述第一预测语音特征输入所述多专家网络层进行口音特征识别,得到携带有口音特征的第二预测语音特征;所述根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,包括:根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数。6.根据权利要求5所述的方法,所述根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数,包括:根据所述第二预测语音特征和所述采样结果计算第一子损失值,根据所述第一预测语音特征和所述第二预...
【专利技术属性】
技术研发人员:林羽钦,张仕良,高志付,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。