语音信号处理方法及装置、存储介质、电子设备制造方法及图纸

技术编号:18528057 阅读:67 留言:0更新日期:2018-07-25 13:42
本公开提供一种语音信号处理方法及装置、存储介质、电子设备。该方法包括:采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第二语音数据;提取所述语音数据的声学特征和/或文本特征,所述声学特征用于表示所述待测用户的发音特征,所述文本特征用于表示所述待测用户在语义表述层面的特征;将所述声学特征和/或所述文本特征作为输入,经预先构建的语音分类模型处理后,确定出所述待测用户的语言特征。如此方案,可以通过语音信号处理技术确定待测用户的语言特征,实现过程简单方便。

【技术实现步骤摘要】
语音信号处理方法及装置、存储介质、电子设备
本公开涉及语音处理领域,具体地,涉及一种语音信号处理方法及装置、存储介质、电子设备。
技术介绍
语音作为一种搭载着特定信息的模拟信号,已成为人们社会生活中获取信息和传播信息的重要的手段。通常,语音信号中包含有异常丰富的信息,例如,文本内容或语义、声纹特征、语种或方言、情绪等等,语音信号处理就是在复杂的语音环境中提取有效的语音信息。在实际应用过程中,通过语音信号处理可以提取用户的个性化信息,进行身份识别,例如,从一段对话中识别出不同的说话人;或者,通过语音信号处理可以对不同用户进行差异归一化处理,提取共性信息,对说话人进行分类识别,例如,可以按性别分类、按语种分类等等。
技术实现思路
本公开的主要目的是提供一种语音信号处理方法及装置、存储介质、电子设备,可以通过语音信号处理技术确定待测用户的语言特征。为了实现上述目的,本公开提供一种语音信号处理方法,所述方法包括:采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第二语音数据;提取所述语音数据的声学特征和/或文本特征,所述声学特征用于表示所述待测用户的发音特征,所述文本特征用于表示所述待测用户在语义表述层面的特征;将所述声学特征和/或所述文本特征作为输入,经预先构建的语音分类模型处理后,确定出所述待测用户的语言特征。可选地,所述声学特征包括停顿特征和/或基频特征;所述停顿特征包括以下特征中的至少一项:所述语音数据总的停顿时长与所述语音数据的时长之间的比值、所述语音数据中停顿时长小于第一预设时长T1的停顿次数、所述语音数据中停顿时长大于第二预设时长T2的停顿次数、所述语音数据总的停顿次数,T1<T2;所述基频特征包括以下特征中的至少一项:所述语音数据的基频均值、所述语音数据的基频方差、所述语音数据的最大基频、所述语音数据的最小基频。可选地,所述文本特征包括文本相似度,则所述提取所述语音数据的文本特征,包括:对所述语音数据进行语音识别,得到转换文本,计算所述转换文本与所述指定文本之间的文本相似度。可选地,所述方法还包括:判断所述语音数据的文本识别率是否超过预设阈值;如果所述语音数据的文本识别率超过所述预设阈值,再执行提取所述语音数据的文本相似度的步骤。可选地,所述文本特征还包括:指定文本的句子离散度以及转换文本的句子离散度,所述指定文本的句子离散度用于表示所述指定文本的句子向量与所述指定文本的篇章向量之间的距离方差;所述转换文本的句子离散度用于表示所述转换文本的句子向量与所述转换文本的篇章向量之间的距离方差;和/或,混淆度PPL差值,用于表示所述指定文本的PPL值与所述转换文本的PPL值之间的差值。可选地,构建所述语音分类模型的方式为:采集样本用户的样本语音数据,所述样本语音数据包括所述样本用户朗读所述指定文本的第一样本语音数据,和/或,所述样本用户背诵所述指定文本的第二样本语音数据,所述样本用户包括正常语言特征用户以及异常语言特征用户;提取所述样本语音数据的声学特征和/或文本特征;确定所述语音分类模型的拓扑结构;利用所述拓扑结构,以及所述样本语音数据的声学特征和/或文本特征,训练所述语音分类模型,直至所述语音分类模型输出的语言特征与所述样本用户具有的语言特征相符。本公开提供一种语音信号处理装置,所述装置包括:语音数据采集模块,用于采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第二语音数据;特征提取模块,用于提取所述语音数据的声学特征和/或文本特征,所述声学特征用于表示所述待测用户的发音特征,所述文本特征用于表示所述待测用户在语义表述层面的特征;语言特征确定模块,用于将所述声学特征和/或所述文本特征作为输入,经预先构建的语音分类模型处理后,确定出所述待测用户的语言特征。可选地,所述声学特征包括停顿特征和/或基频特征;所述停顿特征包括以下特征中的至少一项:所述语音数据总的停顿时长与所述语音数据的时长之间的比值、所述语音数据中停顿时长小于第一预设时长T1的停顿次数、所述语音数据中停顿时长大于第二预设时长T2的停顿次数、所述语音数据总的停顿次数,T1<T2;所述基频特征包括以下特征中的至少一项:所述语音数据的基频均值、所述语音数据的基频方差、所述语音数据的最大基频、所述语音数据的最小基频。可选地,所述文本特征包括文本相似度,所述特征提取模块,用于对所述语音数据进行语音识别,得到转换文本,计算所述转换文本与所述指定文本之间的文本相似度。可选地,所述装置还包括:识别率判断模块,用于判断所述语音数据的文本识别率是否超过预设阈值;所述特征提取模块,用于在所述语音数据的文本识别率超过所述预设阈值时,提取所述语音数据的文本相似度。可选地,所述文本特征还包括:指定文本的句子离散度以及转换文本的句子离散度,所述指定文本的句子离散度用于表示所述指定文本的句子向量与所述指定文本的篇章向量之间的距离方差;所述转换文本的句子离散度用于表示所述转换文本的句子向量与所述转换文本的篇章向量之间的距离方差;和/或,混淆度PPL差值,用于表示所述指定文本的PPL值与所述转换文本的PPL值之间的差值。可选地,所述装置还包括:样本语音数据采集模块,用于采集样本用户的样本语音数据,所述样本语音数据包括所述样本用户朗读所述指定文本的第一样本语音数据,和/或,所述样本用户背诵所述指定文本的第二样本语音数据,所述样本用户包括正常语言特征用户以及异常语言特征用户;样本特征提取模块,用于提取所述样本语音数据的声学特征和/或文本特征;拓扑结构确定模块,用于确定所述语音分类模型的拓扑结构;模型训练模块,用于利用所述拓扑结构,以及所述样本语音数据的声学特征和/或文本特征,训练所述语音分类模型,直至所述语音分类模型输出的语言特征与所述样本用户具有的语言特征相符。本公开提供一种存储设备,其中存储有多条指令,所述指令由处理器加载,执行上述语音信号处理方法的步骤。本公开提供一种电子设备,所述电子设备包括;上述的存储设备;以及处理器,用于执行所述存储设备中的指令。本公开方案,可以采集待测用户朗读指定文本的第一语音数据和/或待测用户背诵指定文本的第二语音数据,基于此可以提取出表示待测用户发音特征的声学特征,和/或表示待测用户语义表述能力的文本特征,将声学特征和/或文本特征作为模型输入,经模型处理后可以确定出待测用户的语言特征。如此方案,实现过程简单方便,处理过程省时省力,且对人员没有专业技能要求。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1为本公开方案语音信号处理方法的流程示意图;图2为本公开方案中构建语音分类模型的流程示意图;图3为本公开方案语音信号处理装置的构成示意图;图4为本公开方案用于语音信号处理的电子设备的结构示意图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并本文档来自技高网...

【技术保护点】
1.一种语音信号处理方法,其特征在于,所述方法包括:采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第二语音数据;提取所述语音数据的声学特征和/或文本特征,所述声学特征用于表示所述待测用户的发音特征,所述文本特征用于表示所述待测用户在语义表述层面的特征;将所述声学特征和/或所述文本特征作为输入,经预先构建的语音分类模型处理后,确定出所述待测用户的语言特征。

【技术特征摘要】
1.一种语音信号处理方法,其特征在于,所述方法包括:采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第二语音数据;提取所述语音数据的声学特征和/或文本特征,所述声学特征用于表示所述待测用户的发音特征,所述文本特征用于表示所述待测用户在语义表述层面的特征;将所述声学特征和/或所述文本特征作为输入,经预先构建的语音分类模型处理后,确定出所述待测用户的语言特征。2.根据权利要求1所述的方法,其特征在于,所述声学特征包括停顿特征和/或基频特征;所述停顿特征包括以下特征中的至少一项:所述语音数据总的停顿时长与所述语音数据的时长之间的比值、所述语音数据中停顿时长小于第一预设时长T1的停顿次数、所述语音数据中停顿时长大于第二预设时长T2的停顿次数、所述语音数据总的停顿次数,T1<T2;所述基频特征包括以下特征中的至少一项:所述语音数据的基频均值、所述语音数据的基频方差、所述语音数据的最大基频、所述语音数据的最小基频。3.根据权利要求1所述的方法,其特征在于,所述文本特征包括文本相似度,则所述提取所述语音数据的文本特征,包括:对所述语音数据进行语音识别,得到转换文本,计算所述转换文本与所述指定文本之间的文本相似度。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:判断所述语音数据的文本识别率是否超过预设阈值;如果所述语音数据的文本识别率超过所述预设阈值,再执行提取所述语音数据的文本相似度的步骤。5.根据权利要求3或4所述的方法,其特征在于,所述文本特征还包括:指定文本的句子离散度以及转换文本的句子离散度,所述指定文本的句子离散度用于表示所述指定文本的句子向量与所述指定文本的篇章向量之间的距离方差;所述转换文本的句子离散度用于表示所述转换文本的句子向量与所述转换文本的篇章向量之间的距离方差;和/或,混淆度PPL差值,用于表示所述指定文本的PPL值与所述转换文本的PPL值之间的差值。6.根据权利要求1所述的方法,其特征在于,构建所述语音分类模型的方式为:采集样本用户的样本语音数据,所述样本语音数据包括所述样本用户朗读所述指定文本的第一样本语音数据,和/或,所述样本用户背诵所述指定文本的第二样本语音数据,所述样本用户包括正常语言特征用户以及异常语言特征用户;提取所述样本语音数据的声学特征和/或文本特征;确定所述语音分类模型的拓扑结构;利用所述拓扑结构,以及所述样本语音数据的声学特征和/或文本特征,训练所述语音分类模型,直至所述语音分类模型输出的语言特征与所述样本用户具有的语言特征相符。7.一种语音信号处理装置,其特征在于,所述装置包括:语音数据采集模块,用于采集待测用户的语音数据,所述语音数据包括所述待测用户朗读指定文本的第一语音数据,和/或,所述待测用户背诵所述指定文本的第...

【专利技术属性】
技术研发人员:孔常青乔玉平高建清鹿晓亮
申请(专利权)人:安徽科大讯飞医疗信息技术有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1