System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音,尤其涉及一种语音识别模型训练方法、装置、设备及存储介质。
技术介绍
1、在对复杂语音信号进行识别处理时,主要难点往往在于噪音、回声和环境干扰,并且语音识别模型训练模型还需适应不同的语音特点,包括不同的口音、语速、发音和说话方式,面对不同用户的语音需要针对不同的词或短语来表述相同的含义,然而这些因素都需要对语音识别模型进行大规模的训练,在训练时需采用大量的计算资源和数据,但是这种大规模的训练方式难以在资源受限的环境中实现,整体的训练的难度较大。
2、可见,现有技术还有待改进和提高。
技术实现思路
1、为了克服现有技术的不足,本专利技术的目的在于提供一种语音识别模型训练方法、装置、设备及存储介质,其预先对语音信号进行信息处理,提高了训练模型的运营识别性能,有效降低模型整体的训练难度。
2、本专利技术第一方面提供了一种语音识别模型训练方法,包括:获取不同用户的原始语音信号数据,并对原始语音信号数据进行加密处理,以形成原始加密训练库;通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取,以得到梅尔频率倒谱系数和滤波器组特征;预先构建声学训练模型,并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练,以得到多个声学特征映射结果;根据各个声学特征映射结果获取到相应的文字数据;对各个文字数据进行结果校验,以得到最优的文字数据及其所对应的声学训练模型,并将该声学训练模型作为语音识别模型。
3、可选的,在本专利技术第
4、可选的,在本专利技术第一方面的第二种实现方式中,所述通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取,以得到梅尔频率倒谱系数和滤波器组特征,包括:通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换,以得到频谱信号;对频谱信号进行模平方换算,以得到功率谱信号;利用梅尔滤波器组对功率谱信号进行梅尔顿带转换,以得到梅尔频率倒谱系数和滤波器组特征。
5、可选的,在本专利技术第一方面的第三种实现方式中,所述通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换,以得到频谱信号之前,还包括:从原始加密训练库中对解密提取原始语音信号数据;通过高通滤波器对原始语音信号数据进行预加重处理,以得到同频后的原始语音信号数据;对同频后的原始语音信号数据进行分帧处理,以得到分帧后的原始语音信号数据;对分帧后的原始语音信号数据进行加窗处理,以得到加窗后的原始语音信号数据。
6、可选的,在本专利技术第一方面的第四种实现方式中,所述预先构建声学训练模型,并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练,以得到多个声学特征映射结果,包括:基于隐马尔可夫模型构建声学训练模型;根据预设权重比例、梅尔频率倒谱系数和滤波器组特征生成声学训练集;根据声学训练集对声学训练模型进行滚动训练,以得到多个不同的声学特征映射结果。
7、可选的,在本专利技术第一方面的第五种实现方式中,所述根据各个声学特征映射结果获取到相应的文字数据,包括:对各个声学特征映射结果进行关联分析,以得到单词要素和音素要素;预先构建词汇表和发音词典库;根据单词要素和音素要素从词汇表和发音词典库检索得到文字数据。
8、可选的,在本专利技术第一方面的第六种实现方式中,所述对各个文字数据进行结果校验,以得到最优的文字数据及其所对应的声学训练模型,并将该声学训练模型作为语音识别模型,包括:根据原始语音信号数据获取到比对文本信息;根据比对文本信息对各个文本数据进行字符比对,以得到多个相似度结果;根据预设相似度阈值对各个相似度结果进行校对,以得到最优的相似度结果,并根据该最优的相似度结果获取到相应的声学训练模型作为语音识别模型。
9、本专利技术第二方面提供了一种语音识别模型训练装置,包括:加密模块,用于获取不同用户的原始语音信号数据,并对原始语音信号数据进行加密处理,以形成原始加密训练库;特征模块,用于通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取,以得到梅尔频率倒谱系数和滤波器组特征;训练模块,用于预先构建声学训练模型,并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练,以得到多个声学特征映射结果;获取模块,用于根据各个声学特征映射结果获取到相应的文字数据;校验模块,用于对各个文字数据进行结果校验,以得到最优的文字数据及其所对应的声学训练模型,并将该声学训练模型作为语音识别模型。
10、可选的,在本专利技术第二方面的第一种实现方式中,所述加密模块包括:加密单元,用于通过aes加密算法对不同用户的原始语音信号数据进行加密处理,以形成加密语音数据;权限单元,用于基于dbms数据库构建加密数据库,并对加密数据库进行访问权限配置;配置单元,用于将加密语音数据同步至访问权限配置后的加密数据库,以形成原始加密训练库。
11、可选的,在本专利技术第二方面的第二种实现方式中,所述特征模块包括:变换单元,用于通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换,以得到频谱信号;换算单元,用于对频谱信号进行模平方换算,以得到功率谱信号;转换单元,用于利用梅尔滤波器组对功率谱信号进行梅尔顿带转换,以得到梅尔频率倒谱系数和滤波器组特征。
12、可选的,在本专利技术第二方面的第三种实现方式中,所述特征模块还包括:解密单元,用于从原始加密训练库中对解密提取原始语音信号数据;预加重单元,用于通过高通滤波器对原始语音信号数据进行预加重处理,以得到同频后的原始语音信号数据;分帧单元,用于对同频后的原始语音信号数据进行分帧处理,以得到分帧后的原始语音信号数据;加窗单元,用于对分帧后的原始语音信号数据进行加窗处理,以得到加窗后的原始语音信号数据。
13、可选的,在本专利技术第二方面的第四种实现方式中,所述训练模块包括:构建单元,用于基于隐马尔可夫模型构建声学训练模型;生成单元,用于根据预设权重比例、梅尔频率倒谱系数和滤波器组特征生成声学训练集;训练单元,用于根据声学训练集对声学训练模型进行滚动训练,以得到多个不同的声学特征映射结果。
14、可选的,在本专利技术第二方面的第五种实现方式中,所述获取模块包括:关联单元,用于对各个声学特征映射结果进行关联分析,以得到单词要素和音素要素;预建单元,用于预先构建词汇表和发音词典库;检索单元,用于根据单词要素和音素要素从词汇表和发音词典库检索得到文字数据。
15、可选的,在本专利技术第二方面的第六种实现方式中,所述校验模块包括:获取单元,用于根据原始语音信号数据获取到比对文本信息本文档来自技高网...
【技术保护点】
1.一种语音识别模型训练方法,其特征在于,包括:
2.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述获取不同用户的原始语音信号数据,并对原始语音信号数据进行加密处理,以形成原始加密训练库,包括:
3.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取,以得到梅尔频率倒谱系数和滤波器组特征,包括:
4.根据权利要求3所述的语音识别模型训练方法,其特征在于,所述通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换,以得到频谱信号之前,还包括:
5.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述预先构建声学训练模型,并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行滚动训练,以得到多个声学特征映射结果,包括:
6.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述根据各个声学特征映射结果获取到相应的文字数据,包括:
7.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述对各个文
8.一种语音识别模型训练装置,其特征在于,包括:
9.一种语音识别模型训练设备,其特征在于,所述语音识别模型训练设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述语音识别模型训练方法的各个步骤。
...【技术特征摘要】
1.一种语音识别模型训练方法,其特征在于,包括:
2.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述获取不同用户的原始语音信号数据,并对原始语音信号数据进行加密处理,以形成原始加密训练库,包括:
3.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述通过声学特征提取算法来对原始加密训练库中的原始语音信号数据进行特征提取,以得到梅尔频率倒谱系数和滤波器组特征,包括:
4.根据权利要求3所述的语音识别模型训练方法,其特征在于,所述通过声学特征提取算法对原始加密训练库中的原始语音信号数据进行傅里叶变换,以得到频谱信号之前,还包括:
5.根据权利要求1所述的语音识别模型训练方法,其特征在于,所述预先构建声学训练模型,并通过梅尔频率倒谱系数和滤波器组特征对声学训练模型进行...
【专利技术属性】
技术研发人员:陈龙,
申请(专利权)人:上海韵达高新技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。