语音处理方法及装置、计算机可读介质、电子设备制造方法及图纸

技术编号:27311196 阅读:21 留言:0更新日期:2021-02-10 09:34
本公开提供了一种语音处理方法及装置、计算机可读介质、电子设备,涉及人工智能领域。方法包括:获取具有变异音的语音信息,对语音信息进行预处理以获取语音特征信息;对语音特征信息进行特征提取,以获取与语音特征信息对应的状态信息;根据状态信息和多发音词典确定与语音信息对应的具有标准音的文本信息,其中多发音词典是根据具有标准音的第一词汇和与第一词汇具有相同语义且具有变异音的第二词汇构建的,第一词汇和第二词汇为拼音文字。本公开能够基于标准音音素和变异音音素之间的发音变异规则确定多发音词典,避免了大量标注语料,节省了标注成本和时间,并且能够根据多发音词典进行语音处理,提高了处理效率和精准度。度。度。

【技术实现步骤摘要】
语音处理方法及装置、计算机可读介质、电子设备


[0001]本公开涉及人工智能
,具体而言,涉及一种语音处理方法、语音处理装置、计算机可读介质及电子设备。

技术介绍

[0002]语言是由词汇按一定的语法所构成的语音表义系统,世界各个民族都有自己的语言,即使是同一个民族也会衍生出多种不同的语言,并且各类语言中还会存在发音变异的现象,例如新疆维吾尔自治区有45%的居民是维吾尔族,维吾尔语是他们主要的沟通工具,目前维吾尔语方言分为中心方言、和田方言和罗布方言,其中中心方言对应标准音,是新疆通用的官方标准语,而和田方言和罗布方言对应变异音,只在局部地区被使用。
[0003]随着人工智能技术的发展,人们主要通过机器学习模型进行语音处理任务。在对机器学习模型进行训练时,通常需要对具有变异音的语料进行标注,然后再根据标注的语料进行标注建模,但是由于语料标注难度大,并且对标注者的语言能力要求高,因此使得人工标注周期长,成本高,同时由于语料库有限,导致训练后的模型性能一般,无法有效识别具有变异音的语音信息,进而降低了用户体验。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的实施例提供了一种语音处理方法、语音处理装置、计算机可读介质及电子设备,进而至少在一定程度上可以基于语言规则直接建立具有标准音的语言和具有变异音的语言的发音变异规则,进而根据具有标准音的词汇和对应的具有变异音的词汇构建多发音词典,并根据多发音词典进行语音处理,避免了人工标注,降低了人工标注成本,并且基于多发音词典可以提高对具有变异音的语音信息的处理精度和处理效率。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开实施例的一个方面,提供了一种语音处理方法,包括:获取具有变异音的语音信息,对所述语音信息进行预处理以获取语音特征信息;对所述语音特征信息进行特征提取,以获取与所述语音特征信息对应的状态信息;根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息,其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的,所述第一词汇和所述第二词汇为拼音文字。
[0008]根据本公开实施例的一个方面,提供了一种语音处理装置,包括:预处理模块,用于获取具有变异音的语音信息,对所述语音信息进行预处理以获取语音特征信息;状态信息获取模块,用于对所述语音特征信息进行特征提取,以获取与所述语音特征信息对应的状态信息;文本获取模块,用于根据所述状态信息和多发音词典确定与所述语音信息对应
的具有标准音的文本信息,其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的,所述第一词汇和所述第二词汇为拼音文字。
[0009]根据本公开实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的可选实现方式中提供的语音处理方法。
[0010]根据本公开实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的可选实现方式中提供的语音处理方法。
[0011]根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的可选实现方式中提供的语音处理方法。
[0012]在本公开的一些实施例所提供的技术方案中,在获取具有变异音的语音信息后,首先对语音信息进行预处理获取语音特征信息,然后对语音特征信息进行特征提取获取与语音特征信息对应的状态信息,最后根据状态信息和多发音词典即可确定与语音信息对应的具有标准音的文本信息,其中多发音词典是根据具有标准音的第一词汇和与第一词汇具有相同语义且具有变异音的第二词汇构建形成的,具体地,在获取具有标准音的第一词汇后,根据发音变异规则集确定与第一词汇对应的规则链,接着根据规则链对第一词汇中的音素进行转换以获取与第一词汇对应的具有变异音的第二词汇,最后根据第一词汇和第二词汇构建多发音词典。本公开的技术方案一方面基于发音变异规则集确定能够获取与具有标准音的第一词汇对应的具有变异音的第二词汇,进而根据第一词汇和第二词汇构建多发音词典,避免了大量标注语料,节省了人工标注成本和时间;另一方面能够避免语料不足导致的语音处理系统的处理准确率低和效率低的问题。
[0013]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0014]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0015]图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
[0016]图2示意性示出了根据本公开的一个实施例的语音处理方法的流程示意图多发音词典构建方法的流程示意图。
[0017]图3示意性示出了根据本公开的一个实施例的DFSMN子模型的结构示意图。
[0018]图4示意性示出了根据本公开的一个实施例的多发音词典构建方法的流程示意图。
[0019]图5示意性示出了根据本公开的一个实施例的一种获取规则链的流程示意图。
[0020]图6示意性示出了根据本公开的一个实施例的另一种获取规则链的流程示意图。
[0021]图7示意性示出了根据本公开的一个实施例的获取第二词汇的流程示意图。
[0022]图8示意性示出了根据本公开的一个实施例的获取第二词汇的流程示意图。
[0023]图9示意性示出了根据本公开的一个实施例的语音处理装置的框图。
[0024]图10示意性示出了根据本公开的一个实施例的语音处理装置的框图。
[0025]图11示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0026]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
[0027]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取具有变异音的语音信息,对所述语音信息进行预处理以获取语音特征信息;对所述语音特征信息进行特征提取,以获取与所述语音特征信息对应的状态信息;根据所述状态信息和多发音词典确定与所述语音信息对应的具有标准音的文本信息,其中所述多发音词典是根据具有标准音的第一词汇和与所述第一词汇具有相同语义且具有变异音的第二词汇构建的,所述第一词汇和所述第二词汇为拼音文字。2.根据权利要求1所述的方法,其特征在于,在获取具有变异音的语音信息之前,所述方法还包括:获取所述具有标准音的第一词汇,并根据发音变异规则集确定与所述第一词汇对应的规则链,其中所述发音变异规则集是基于标准音音素和变异音音素之间的转换规则构建而成的;根据所述规则链对所述第一词汇中的音素进行转换,以获取与所述第一词汇对应的具有变异音的第二词汇;根据所述第一词汇和所述第二词汇构建多发音词典。3.根据权利要求2所述的方法,其特征在于,所述根据发音变异规则集确定与所述第一词汇对应的规则链,包括:获取组成所述第一词汇的元音音素和辅音音素;将所述元音音素和所述辅音音素分别与所述发音变异规则集中的标准音音素所包含的元音音素和辅音音素进行匹配;当所述发音变异规则集中存在与所述元音音素和所述辅音音素对应的目标元音音素和目标辅音音素时,获取与所述目标元音音素对应的第一发音变异规则和与所述目标辅音音素对应的第二发音变异规则,并根据所述第一发音变异规则和所述第二发音变异规则形成所述规则链。4.根据权利要求2所述的方法,其特征在于,所述根据发音变异规则集确定与所述第一词汇对应的规则链,包括:获取组成所述第一词汇的元音音素;将所述元音音素与所述发音转换规则集中标准音音素所包含的元音音素进行匹配;当所述发音变异规则集中存在与所述元音音素对应的目标元音音素时,获取与所述目标元音音素对应的发音变异规则,并根据所述发音变异规则形成所述规则链。5.根据权利要求3所述的方法,其特征在于,所述根据所述规则链对所述第一词汇中的音素进行转换,以获取与所述第一词汇对应的具有变异音的第二词汇,包括:将所述规则链中的发音变异规则进行组合以形成多个规则集,根据各所述规则集对所述第一词汇中的音素进行转换,并根据转换后的音素构建所述第二词汇。6.根据权利要求5所述的方法,其特征在于,所述规则集包括所述规则链中的一个或多个发音变异规则;所述根据各所述规则集对所述第一词汇中的音素进行转换,并根据转换后的音素构建所述第二词汇,包括:当所述规则集中包括所述规则链中的一个发音变异规则时,根据所述发音变异规则对所述第一词汇中与所述变异规则对应的音素进行转换,并根据转换后的音素构建所述第二
词汇;或者,当所述规则集中包括所述规则链中的多个发音变异规则时,确定所述第一词汇中与各所述发音变异规则对应的待转换音素;根据各所述发音变异规则对所述待转换音素进行多轮转换,并根据多轮转换后的待转换音素构建所述第二词汇。7.根据权利要求6所述的方法,其特征在于,所述根据各所述发音变异规则对所述待转换音素进行多轮转换,并根据多轮转换后的待转换音素构建所述第二词汇,包括:根据第N个发音变异规则对所述第一词汇中与所述第N个发音变异规则...

【专利技术属性】
技术研发人员:李应弟刘洪李丹贾鹏飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1