语音纠正方法、装置及电子设备制造方法及图纸

技术编号:30102331 阅读:16 留言:0更新日期:2021-09-18 09:07
本公开提供一种语音纠正方法、装置及电子设备,所述方法包括:提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。本公开实施例能够提高语音纠正效果。本公开实施例能够提高语音纠正效果。本公开实施例能够提高语音纠正效果。

【技术实现步骤摘要】
语音纠正方法、装置及电子设备


[0001]本专利技术涉及人工智能领域,尤其涉及一种语音纠正方法、装置及电子设备。

技术介绍

[0002]随着经济技术的发展,设备的智能化程度越来越高,语音纠正功能在智能化设备中的应用越来越广泛。语音纠正能够检测出用户发音存在的问题,对用户的异常发音进行纠正。目前,在进行语音纠正时,由于说话人对普通话的掌握程度不同,不同地理区域的说话人的语音可能存在较大的差异,导致采用通用的语音纠正模型进行语音纠正的效果较差。

技术实现思路

[0003]本公开实施例提供一种语音纠正方法、装置及电子设备,以解决现有技术中由于说话人对普通话的掌握程度不同,不同地理区域的说话人的语音可能存在较大的差异,导致采用通用的语音纠正模型进行语音纠正的效果较差的问题。
[0004]为了解决上述技术问题,本专利技术是这样实现的:
[0005]第一方面,本公开实施例提供了一种语音纠正方法,所述方法包括:
[0006]提取待处理语音的目标声音特征;
[0007]基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
[0008]从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
[0009]基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
[0010]第二方面,本公开实施例提供了一种语音纠正装置,所述语音纠正装置包括:
[0011]提取模块,用于提取待处理语音的目标声音特征;
[0012]第一确定模块,用于基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
[0013]第一获取模块,用于从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
[0014]纠正模块,用于基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
[0015]第三方面,本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音纠正方法中的步骤。
[0016]第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音纠正方法中的步骤。
[0017]本公开实施例中,提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。这样,通过多个语音纠正模型中与所述目标地理区域对应的目标语音纠正模型对待处理语音进行语音纠正,从而对于不同地理区域的说话人的语音,能够采用与该地理区域对应的语音纠正模型进行语音纠正,能够提高语音纠正效果。
附图说明
[0018]为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本公开实施例提供的一种语音纠正方法的流程图;
[0020]图2是本公开实施例提供的一种语音纠正装置的结构示意图之一;
[0021]图3是本公开实施例提供的一种语音纠正装置的结构示意图之二;
[0022]图4是本公开实施例提供的一种语音纠正装置的结构示意图之三;
[0023]图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0024]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
[0026]参见图1,图1是本公开实施例提供的一种语音纠正方法的流程图,如图1所示,包括以下步骤:
[0027]步骤101、提取待处理语音的目标声音特征。
[0028]其中,目标声音特征可以包括目标声纹特征,或者,目标声音特征可以包括目标声学特征和目标声纹特征。声纹特征可以通过特征序列的形式表现。声纹特征可以是携带言语信息的声波频谱。声学特征可以包括音素特征及发音属性等。以语音纠正方法应用于会议场景为例,待处理语音可以为会议参与人员的发言,目标声纹特征可以为任意一个会议参与人员的声纹特征,目标声学特征可以为目标声纹特征对应的会议参与人员的声学特征。
[0029]步骤102、基于所述目标声音特征确定所述待处理语音所属的目标地理区域。
[0030]其中,目标声音特征可以包括目标声纹特征,可以通过预先存储的声纹特征与地理区域的对应关系确定所述待处理语音所属的目标地理区域。
[0031]步骤103、从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目
标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应。
[0032]其中,所述多个语音纠正模型中每个语音纠正模型可以与多个地理区域中的一个或多个地理区域对应,示例地,为提高语音纠正效果,所述多个语音纠正模型可以分别与多个地理区域一一对应。语音纠正模型可以包括卷积神经网络,或者可以包括循环神经网络,或者可以包括长短期记忆神经网络,等等,凡是可以用于语音纠正的网络结构均可以作为语音纠正模型的网络结构。
[0033]另外,所述预先训练的多个语音纠正模型的训练过程可以如下:获取所述多个地理区域各自对应的训练样本;将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。
[0034]在实际应用中,可以大量采集某个方言区的人说普通话的语料,采用采集的语料训练得到该方言区对应的语音纠正模型,训练的语音纠正模型记录有对应的方言区普通话与标准普通话之间的差异声学特征。例如,某个地理区域的语音纠正模型,记录有声母“d/t”与“l”存在对转关系,若待处理语音存在发音“槟”,通过语音纠正模型纠正后可得到标准的“槟榔”音。
[0035]需要说明的是,可以存储有多个对象对应的声纹特征与所述多个地理区域的对应关系,可以依据存储的多个对象对应的声纹特征与所述多个地理区域的对应关系,获取与所述目标声纹特征对应的目标地理区域,并从预先训练的多个语音纠正模型中获取与所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音纠正方法,其特征在于,所述方法包括:提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。2.根据权利要求1所述的方法,其特征在于,所述从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型之前,所述方法还包括:获取所述多个地理区域各自对应的训练样本;将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。3.根据权利要求1所述的方法,其特征在于,所述提取待处理语音的目标声音特征之前,所述方法还包括:分别采集多个对象的语音样本;提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系;所述目标声音特征包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,包括:基于所述多个对象对应的声纹特征与所述多个地理区域的对应关系及所述目标声纹特征确定所述待处理语音所属的目标地理区域。4.根据权利要求3所述的方法,其特征在于,所述区域语音识别模型包括第一区域语音识别子模型和第二区域语音识别子模型;所述将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,包括:将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入所述第一区域语音识别子模型,确定语音归属的第一级地理区域;将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入与所述第一级地理区域对应的第二区域语音识别子模型,确定语音归属的第二级地理...

【专利技术属性】
技术研发人员:曾亮常乐涂贤玲
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1