语音识别模型选择方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36814845 阅读:62 留言:0更新日期:2023-03-09 01:06
本申请提供一种语音识别模型选择方法、装置、电子设备及存储介质。该方法包括:根据决策树模型构建评价指标;对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与初始音频数据对应的初始文本数据确定与测试音频数据对应的测试文本数据;对于预先获取的每个语音识别模型,将测试音频数据输入语音识别模型以确定识别文本数据,根据测试文本数据和识别文本数据确定语音识别模型在评价指标的评价数据;根据多个评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分;选择总得分最高的语音识别模型作为目标语音识别模型。提高了语音识别模型与当前应用场景的适配性,有助于提高语音识别的准确率。识别的准确率。识别的准确率。

【技术实现步骤摘要】
语音识别模型选择方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种语音识别模型选择方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中,对于不同的语音识别应用场景,通常采用通用的语音识别技术模型,但由于不同模型都有相应的约束条件,通用的语音识别模型不能够适用于所有应用场景,因此相关技术存在着语音识别模型与应用场景适配性较差而导致的语音识别准确性较低的问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提出一种语音识别模型选择方法、装置、电子设备及存储介质。
[0004]基于上述目的,在第一方面,本申请提供了一种语音识别模型选择方法,包括:
[0005]根据决策树模型构建评价指标;
[0006]对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据;
[0007]对于预先获取的每个语音识别模型,
[0008]将所述测试音频数据输入所述语音识别模型以确定识别文本数据,
[0009]根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据;
[0010]根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分;
[0011]选择所述总得分最高的语音识别模型作为目标语音识别模型。
[0012]在第二方面,本申请提供了一种语音识别模型选择装置,包括
[0013]构建模块,被配置为根据决策树模型构建评价指标;
[0014]确定模块,被配置为对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据;
[0015]测试模块,被配置为对于预先获取的每个语音识别模型,
[0016]将所述测试音频数据输入所述语音识别模型以确定识别文本数据,
[0017]根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据;
[0018]评价模块,被配置为根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分;
[0019]选择模块,被配置为选择所述总得分最高的语音识别模型作为目标语音识别模
等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0029]如
技术介绍
部分所述,相关技术中,对于不同的语音识别应用场景,通常采用通用的语音识别技术模型。
[0030]但申请人通过研究发现,由于不同模型都有相应的约束条件,通用的语音识别模型不能够适用于所有应用场景,因此相关技术存在着语音识别模型与应用场景适配性较差而导致的语音识别准确性较低的问题。
[0031]正因如此,本申请提供的一种语音识别模型选择方法、装置、电子设备及存储介质,可以根据决策树模型构建评价指标,对预先录制得到的初始音频数据执行预处理操作,进而得到测试音频数据,并且可以根据初始音频数据对应的初始文本数据确定测试音频数据对应的测试文本数据;进一步地,对于预先获取的每个语音识别模型而言,可以将测试音频数据输入语音识别模型以得到识别文本数据,根据测试文本数据和测试得到的识别文本数据确定语音识别模型在各个评价指标的评价数据;再进一步地,可以根据每个语音识别模型对应的评价数据,对每个语音识别模型在各个评价指标下进行排序,进而确定每个语音识别模型对应的总得分,为了满足当前应用场景的综合需求,可以选择总得分最高的语音识别模型作用目标语音识别模型,执行当前应用场景下的语音识别工作。通过本申请提供的方法,可以针对不同的应用场景,对多个语音识别模型进行评级,进而选择最适合当前应用场景的语音识别模型,提高了语音识别模型与当前应用场景的适配性,有助于提高语音识别的准确率。
[0032]下面通过具体的实施例来对本申请实施例所提供的语音识别模型选择方法进行具体说明。
[0033]图1示出了本申请实施例所提供的一种语音识别模型选择方法的示例性流程示意图。
[0034]参考图1,本申请实施例所提供的一种语音识别模型选择方法具体包括以下步骤:
[0035]S102:根据决策树模型构建评价指标。
[0036]S104:对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据。
[0037]S106:对于预先获取的每个语音识别模型,
[0038]将所述测试音频数据输入所述语音识别模型以确定识别文本数据,
[0039]根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据。
[0040]S108:根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分。
[0041]S110:选择所述总得分最高的语音识别模型作为目标语音识别模型。
[0042]在一些实施例中,评价对象为不同厂商的语音识别模型,可以根据决策树模型构建评价指标,例如,基础的评价指标与语音相关,基础评价指标可以为音量、口音、语速、音色、方言、对话场景、语种、声音来源、说话方式、文本内容、拾音设备等,决策树模型可以根据每个基础评价指标的权重,选择权重较高的基础评价指标作为最终的评价指标。其中,每
个基础评价指标的权重可以根据专家经验法进行确定,以音量U1这个基础评价指标为例,音量U1可以细分为:正常音量U11,较小音量U12以及较大音量U13,实际的应用场景基本为正常音量,所以可以将正常音量U11的权重设置为0.9,较小音量U12的权重设置为0.05,较大音量U13的权重设置为0.05。
[0043]在一些实施例中,为了评价不同语音识别模型的能力,可以录制初始音频数据分别对不同的语音识别模型进行测试。但是由于语音识别需要考虑的场景十分多样,因此可以根据已能用场景选取对应的评价指标进行测试工作,但测试音频数据的获取非常困难,人工采集语音并标注,会耗费大量的时间精力,因此可以采用自动化的方式处理正常预录制的初始音频数据,进一步地对初始音频数据执行预处理操作,进而得到不同的测试音频数据。
[0044]具体地,初始音频数据可以包括不同口音的音频数据、多人对话场景的音频数据或不同语种的音频数据中的一种或多种,进而满足不同应用场景的测试需求。
[0045]为了进一步满足不同应用场景的测试需求,并且减少预先录制阶段的工作量,可以通过对初始音频数据进行预处理操作,来确定多种测试音频数据。例如,测试音频数据可以包括:变速测试音频数据。首先可以通过录制得到正常语音速度的初始音频数据,进一步地根据变速参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型选择方法,其特征在于,包括:根据决策树模型构建评价指标;对预先录制的初始音频数据执行预处理操作以确定测试音频数据,并根据与所述初始音频数据对应的初始文本数据确定与所述测试音频数据对应的测试文本数据;对于预先获取的每个语音识别模型,将所述测试音频数据输入所述语音识别模型以确定识别文本数据,根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据;根据多个所述评价数据对每个语音识别模型在评价指标进行排序以确定每个语音识别模型对应的总得分;选择所述总得分最高的语音识别模型作为目标语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述测试音频数据,包括:变速测试音频数据;所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据,包括:录制得到正常语音速度的初始音频数据;根据变速参数调整所述初始音频数据以确定所述变速测试音频数据;其中,所述变速测试音频数据的语音速度表示为V
测试
=V
初始
×
A其中,V
初始
表示正常语音速度,A表示变速参数。3.根据权利要求1所述的方法,其特征在于,所述测试音频数据,包括:变音量测试音频数据;所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据,包括:确定录制得到的所述初始音频数据的当前音量;根据音量调节参数调整所述初始音频数据以确定所述变音量测试音频数据;其中,所述变音量测试音频数据的音量表示为bel
测试
=bel
初始
+db其中,bel
初始
表示所述初始音频数据的当前音量,db表示所述音量调节参数。4.根据权利要求1所述的方法,其特征在于,所述测试音频数据,包括:混合测试音频数据;所述对预先录制的初始音频数据执行预处理操作以确定测试音频数据,包括:确定噪音音频数据以及录制得到的所述初始音频数据;混合并叠加所述噪音音频数据和所述初始音频数据以确定所述混合测试音频数据。5.根据权利要求1所述的方法,其特征在于,所述初始音频数据,包括以下音频数据中的一种或多种:不同口音的音频数据、多人对话场景的音频数据或不同语言的音频数据。6.根据权利要求1所述的方法,其特征在于,所述评价指标,包括:第一字正确率;所述对于预先获取的每个语音识别模型,根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据,包括:根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被替换的文字;
响应于所述测试文本数据中存在被替换的文字,确定被替换的文字数量;根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被剔除的文字;响应于所述测试文本数据中存在被剔除的文字,确定被剔除的文字数量;根据所述测试文本数据和所述识别文本数据各个对应的文字位置确定所述测试文本数据中是否存在被插入的文字;响应于所述测试文本数据中存在被插入的文字,确定被插入的文字数量;确定所述测试文本数据中的总字符数,根据所述总字符数、被替换的文字数量、被剔除的文字数量以及被插入的文字数量确定第一字正确率,并将所述第一字正确率对应的量化值作为所述评价数据。7.根据权利要求6所述的方法,其特征在于,所述评价指标,包括:第二字正确率;所述对于预先获取的每个语音识别模型,根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据,包括:根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被替换的标点符号;响应于所述测试文本数据中存在被替换的标点符号,确定被替换的标点符号数量;根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被剔除的标点符号;响应于所述测试文本数据中存在被剔除的标点符号,确定被剔除的标点符号数量;根据所述测试文本数据和所述识别文本数据各个对应的标点符号位置确定所述测试文本数据中是否存在被插入的标点符号;响应于所述测试文本数据中存在被插入的标点符号,确定被插入的标点符号数量;根据所述总字符数、被替换的文字数量、被剔除的文字数量、被插入的文字数量、被替换的标点符号数量、被剔除的标点符号数量以及被插入的标点符号数量确定第二字正确率,并将所述第二字正确率对应的量化值作为所述评价数据。8.根据权利要求6所述的方法,其特征在于,所述评价指标,包括:第一句正确率;所述对于预先获取的每个语音识别模型,根据所述测试文本数据和所述识别文本数据确定所述语音识别模型在评价指标的评价数据,包括:确定所述测试文本数据中是否存在至少一个第一目标语句;其中,所述第一目标语句为两个相邻标点符号之间存在被替换的文字、被剔除的文字或被插入的文字的文字集合;响应于所述测试文本数据中存在至少一个第一目标语句,确定所述第一目标语句的数量;根据所述测试文本数据中两个相邻标点符号之间的文字集合确定所述测试文本数据中的语句总数;根据所述第一目标语...

【专利技术属性】
技术研发人员:徐铭驰高峰
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1