语音评测方法及系统技术方案

技术编号:17657266 阅读:21 留言:0更新日期:2018-04-08 09:49
本发明专利技术公开了一种语音评测方法及系统,该方法包括:接收用户语音数据;对用户语音数据进行评测单元切分,得到评测单元;基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。利用本发明专利技术可以效有提升语音评测结果的准确度。

【技术实现步骤摘要】
语音评测方法及系统
本专利技术涉及语音评测
,具体涉及一种语音评测方法及系统。
技术介绍
标准的普通话在人们的经济和生活中具有非常重要的意义,普通话考试的实施范围也越来越广。对于大规模的考试,人工评分的成本是非常高昂的,机器辅助人工评分是未来所有考试评分的发展趋势。随着语音识别及相关技术的里程碑式发展,机器评分的结果已经接近甚至超过人工评分的水平。但是,在口语评测中仍存在一些易混淆的字,其评测效果不尽如人意。
技术实现思路
本专利技术提供一种语音评测方法及系统,以解决现有的口语检错中的易混淆的字的检错效果不尽如人意的问题。为此,本专利技术提供如下技术方案:一种语音评测方法,包括:接收用户语音数据;对用户语音数据进行评测单元切分,得到评测单元;基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。优选地,所述评测单元为以下任意一种:音节、字和单词。优选地,在得到评测单元之后,所述方法还包括:判断所述用户语音数据是否包括易混淆发音;如果是,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果否,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。优选地,所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果包括:对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。优选地,所述第一语音评测模型为神经网络,包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,其中,M和N为≥1的整数。优选地,所述第一语音评测模型通过以下方式进行训练:收集训练语音数据,所述训练语音数据中包括评测单元的标注信息;对所述训练语音数据进行切分,得到评测单元;提取评测单元的频谱图;将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征;将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例;分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。优选地,所述判断所述用户语音数据是否包括易混淆发音包括:将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。优选地,所述判断所述用户语音数据是否包括易混淆发音包括:判断所述用户语音数据是否存在对应的标准文本;如果是,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音;如果否,将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。相应地,本专利技术还提供了一种语音评测系统,包括:接收模块,用于接收用户语音数据;评测单元获取模块,用于对用户语音数据进行评测单元切分,得到评测单元;评测模块,用于基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。优选地,所述系统还包括:易混淆发音判断模块,用于判断所述用户语音数据是否包括易混淆发音;第一语音评测模型构建模块,用于构建第一语音评测模型;第二语音评测模型构建模块,用于构建第二语音评测模型;所述评测模块具体用于如果用户语音数据包括易混淆发音,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果用户语音数据不包括易混淆发音,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。优选地,所述评测模块包括:第一评测单元,用于对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;第二评测单元,用于对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。优选地,所述评测模块还包括:第一检测单元,用于将所述用户语音数据输入所述第二语音评测模型,得到输出结果;根据输出结果和设定阈值判断所述用户语音数据是否包括易混淆发音。优选地,所述评测模块还包括:第二检测单元,用于如果所述用户语音数据存在对应的标准文本,则根据所述标准文本分析所述用户语音数据中是否包含易混淆发音。本专利技术实施例提供的语音评测方法及系统,首先接收用户语音数据,然后对用户语音数据进行评测单元切分,得到评测单元,这样使得本专利技术可以基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。现有技术通常是根据预先训练好的声学模型得到状态的后验概率,然后根据给定文本搭建解码网络,解码得到评测单元(如字的声韵母)的后验概率,最后通过回归或门限判断发音是否正确。然而,易混淆发音是部分相似的,例如韵母中的in和ing,起始发音相近,只有后半段发音不同。利用传统的评测系统,得到的in和ing的似然度值相差不大,从而导致评测单元后验概率计算不够精确,造成易混淆发音难以评测;虽然易混淆发音部分相似,但从频谱图上来看还是很容易分辨的,例如韵母in和ing,在某一频率上的值相差很大。因此,本专利技术将语音的评测转化为图像的评测,极大程度地减弱了边界的影响,从而能够有效提高评测性能。进一步地,本专利技术提供了第二种语音评测方法及系统,鉴于基于评测单元后验概率计算对非易混淆发音的评测已达到可用水平,本专利技术所提的第二种方法是分别针对易混淆发音和非易混淆发音采取不同的评测方法。利用本专利技术可以在保证能有效评测易混淆发音的前提下,利用评测单元后验概率评测非易混淆发音,而现有技术中已有训练好的可以对非易混淆发音进行评测的语音评测模型,因此,无需针对非易混淆发音训练语音评测模型。进一步地,本专利技术提供了第一语音评测模型的拓扑结构和训练方法,利用该方法可以构建该第一语音评测模型,进而自动对用户语音数据进行发音评测。进一步地,本专利技术提供了易混淆发音的检测方法,利用该方法可以自动检测易混淆发音;此外,还提供了一种优化方法,当存在用户语音数据的标准文本时,利用该标准文本检测用户语音数据中是否存在易混淆发音。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的语音评测方法的第一种流程图;图2是本专利技术实施例提供的第一语音评测模型的第一种结构示意图;图3是本专利技术实施例提供的语音评测方法的第二种流程图;图4是本专利技术实施例提供的第一语音评测模型的训练方法;图5是本专利技术实施例提供的判断用户语音数据是否包括易混淆发音的方法的第一种流程图;图6是本专利技术实施例提供的判断用户语音数据是否包括易混淆发音的方法的第二种流程图;图7是本文档来自技高网...
语音评测方法及系统

【技术保护点】
一种语音评测方法,其特征在于,包括:接收用户语音数据;对用户语音数据进行评测单元切分,得到评测单元;基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。

【技术特征摘要】
1.一种语音评测方法,其特征在于,包括:接收用户语音数据;对用户语音数据进行评测单元切分,得到评测单元;基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果。2.根据权利要求1所述的方法,其特征在于,所述评测单元为以下任意一种:音节、字和单词。3.根据权利要求2所述的方法,其特征在于,在得到评测单元之后,所述方法还包括:判断所述用户语音数据是否包括易混淆发音;如果是,则基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;如果否,则根据所述用户语音数据的语音特征和预先构建的第二语音评测模型,得到语音评测结果。4.根据权利要求1或3所述的方法,其特征在于,所述基于评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果包括:对于易混淆发音,根据易混淆发音的评测单元的频谱图、评测单元向量和预先构建的第一语音评测模型,得到语音评测结果;对于非易混淆发音,根据非易混淆发音的每帧语音的语音特征和预先构建的第二语音评测模型,得到语音评测结果。5.根据权利要求1或3所述的方法,其特征在于,所述第一语音评测模型为神经网络,包括:卷积神经网络和深度神经网络,其中,卷积神经网络包括:第一输入层、M个交替的卷积层和池化层;深度神经网络包括:第二输入层、N个全连接层和输出层,第一输入层的输入为评测单元的频谱图,池化层的输出为评测单元的抽象特征,第二输入层的输入为评测单元的抽象特征和评测单元向量,输出层的输出为所述评测单元的发音的评测结果,其中,M和N为≥1的整数。6.根据权利要求5所述的方法,其特征在于,所述第一语音评测模型通过以下方式进行训练:收集训练语音数据,所述训练语音数据中包括评测单元的标注信息;对所述训练语音数据进行切分,得到评测单元;提取评测单元的频谱图;将所述频谱图输入所述第一语音评测模型中的卷积神经网络,得到评测单元的抽象特征;将评测单元的抽象特征和正确的评测单元向量拼接构成正例,将评测单元的抽象特征和混淆的评测单元向量拼接构成反例;分别利用正例和反例对所述深度神经网络进行训练,得到模型参数。7.根据权利要求3所述的方法,其特征在于,所述判断所述用户语音数据是否包括易混淆发音包...

【专利技术属性】
技术研发人员:乔鹏程吴奎潘青华
申请(专利权)人:广州讯飞易听说网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1