一种应答语音的识别方法及装置制造方法及图纸

技术编号:14884090 阅读:103 留言:0更新日期:2017-03-24 21:30
本发明专利技术涉及计算机副语言信息领域,特别涉及一种应答语音的识别方法及装置,用以解决目前的应答语音识别方法在识别应答语音时不够准确的问题。本发明专利技术实施例获取待识别应答语音;使用应答方式识别模型确定待识别应答语音对应的应答方式;若应答方式为正式应答方式,则将待识别应答语音输入第一语音识别系统;若应答方式为非正式应答方式,则将待识别应答语音输入第二语音识别系统。由于本发明专利技术实施例在识别应答语音时,首先识别应答语音为正式应答方式或非正式应答方式,针对正式应答方式和非正式应答方式输入不同的语音识别系统进行识别,从而提升整体的语音识别性能。

【技术实现步骤摘要】

本专利技术涉及计算机副语言领域,特别涉及一种应答语音的识别方法及装置
技术介绍
近年来,计算机副语言学成为语音语言处理领域的研究热点,语音识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用。语音识别就是利用计算机自动将语音转化成文本的技术,语音一直是人类生活中交互的重要媒介,因此让机器实现对语音的识别是至关重要的一步。目前在很多场合会使用语音记录仪记录语音,并且需要对语音记录仪中记录的语音进行分析。例如,在飞行场景中,使用舱音记录仪记录飞机上的语音,在飞行结束后通过识别舱音记录仪中的语音对飞行质量进行评价。目前,在对语音记录仪中记录的语音信息进行识别时,采用的是机器自动识别的方法,具体的,利用端点识别技术将语音记录仪中记录的语音划分为一句句待识别应答语音,并将待识别应答语音输入到语音识别系统中,通过该语音识别系统识别待识别应答语音。由于待识别应答语音根据不同的说话对象以及环境分为正式应答语音和非正式应答语音,正式应答语音和非正式应答语音对应的语音环境不同,并且说话人语气、语调均不相同;而现有技术直接将获取到的应答语音输入语音识别系统进行识别的方法往往不能准确的识别应答语音。综上所述,目前的应答语音识别方法在识别应答语音时不够准确。
技术实现思路
本专利技术提供一种应答语音的识别方法及装置,用以解决目前的应答语音识别方法在识别应答语音时不够准确的问题。基于上述问题,本专利技术实施例提供一种应答语音的识别方法,包括:获取待识别应答语音;使用应答方式识别模型确定所述待识别应答语音对应的应答方式;其中,所述应答方式识别模型为有监督的机器学习模型;若所述应答方式为正式应答方式,则将所述待识别应答语音输入第一语音识别系统,以使所述第一语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;若所述应答方式为非正式应答方式,则将所述待识别应答语音输入第二语音识别系统,以使所述第二语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;其中,所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。由于本专利技术实施例在识别应答语音时,获取待识别的应答语音后,使用应答方式识别模型确定待识别应答语音对应的应答方式,针对正式应答方式和非正式应答方式输入不同的语音识别系统进行识别。由于第一语音识别系统用于识别正式应答语音,第二语音识别系统用于识别非正式应答语音,并且第一语音识别系统和第二语音识别系统配置有不同的参数,针对不同的应答方式使用不同的语音识别系统进行识别,从而使得对待识别应答语音的识别更加准确。可选的,所述使用应答方式识别模型确定所述待识别应答语音对应的应答方式,具体包括:将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型;获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。由于本专利技术实施例将待识别的应答语音进行特征提取后,将提取到的语音特征输入应答方式识别模型,通过应答方式识别模型确定待识别应答语音对应的应答方式。可选的,所述语音特征包括帧级特征、片级特征和段级特征;根据下列方式从应答语音提取出语音特征:使用特征提取工具,根据预设的帧长和帧移,提取所述待识别应答语音的帧级特征;将所述帧级特征做平滑滤波处理,并对平滑处理后的帧级特征做差分运算,确定所述待识别应答语音的片级特征;根据预设的统计参数,对所述片级特征进行分析处理,确定所述待识别应答语音的段级特征。由于本专利技术实施例从待识别应答语音中提取出帧级、片级、段级语音特征,从而保证应答方式识别模型准确的识别该待识别应答语音对应的应答方式。可选的,根据下列方式获得所述应答方式识别模型:确定包含多个应答语音的训练集,以及包含多个应答语音的测试集;其中,所述训练集中的应答语音与所述测试集中的应答语音不同;针对所述训练集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练;针对所述测试集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中,并获取所述应答方式识别模型输出的所述应答语音对应的应答方式;根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式,确定所述训练后的应答方式识别模型的正确识别率,若所述正确识别率大于设定阈值,确定所述训练后的应答方式识别模型训练完成,保存所述训练后的应答方式识别模型。由于本专利技术实施例使用训练集中的多个应答语音对应答方式识别模型进行训练,在训练后使用测试集中的应答语音判断训练后的应答方式识别模型是否满足要求,在应答方式识别模型识别该测试集中的应答语音的正确识别率大于设定阈值时,确定该应答方式识别模型训练完成,保存该训练后的应答方式识别模型;若正确识别率小于设定阈值,则使用训练集中的应答语音再次进行训练,直到应答方式识别模型的正确识别率大于设定阈值,从而保证获得的应答方式识别模型更加准确的识别待识别应答语音对应的应答方式。可选的,所述应答方式识别模型为支持向量机SVM模型。另一方面,本专利技术实施例还提供一种应答语音的识别装置,包括:获取模块,用于获取待识别应答语音;识别模块,用于使用应答方式识别模型确定所述待识别应答语音对应的应答方式;其中,所述应答方式识别模型为有监督的机器学习模型;判断模块,用于若所述应答方式为正式应答方式,则将所述待识别应答语音输入第一语音识别系统,以使所述第一语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;若所述应答方式为非正式应答方式,则将所述待识别应答语音输入第二语音识别系统,以使所述第二语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;其中,所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。可选的,所述识别模块,具体用于:将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型;获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。可选的,所述语音特征包括帧级特征、片级特征和段级特征;所述识别模块,具体用于:根据下列方式从应答语音提取出语音特征:使用特征提取工具,根据预设的帧长和帧移,提取所述待识别应答语音的帧级特征;将所述帧级特征做平滑滤波处理,并对平滑处理后的帧级特征做差分运算,确定所述待识别应答语音的片级特征;根据预设的统计参数,对所述片级特征进行分析处理,确定所述待识别应答语音的段级特征。可选的,所述获取模块,还用于:根据下列方式获得所述应答方式识别模型:确定包含多个应答语音的训练集,以及包含多个应答语音的测试集;其中,所述训练集中的应答语音与所述测试集中的应答语音不同;针对所述训练集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练;针对所述测试集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中,并获取所述应答方式识别模型输出的所述应答语音对应的应答方式;根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式,确定所述训练后的应答方式识别模型的识别正确率,若所述识别正确率大于设定阈值,确定所述训练后的应答方式识别模型训练完成,保存所述训练后的本文档来自技高网...
一种应答语音的识别方法及装置

【技术保护点】
一种应答语音的识别方法,其特征在于,该方法包括:获取待识别应答语音;使用应答方式识别模型确定所述待识别应答语音对应的应答方式;其中,所述应答方式识别模型为有监督的机器学习模型;若所述应答方式为正式应答方式,则将所述待识别应答语音输入第一语音识别系统,以使所述第一语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;若所述应答方式为非正式应答方式,则将所述待识别应答语音输入第二语音识别系统,以使所述第二语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;其中,所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。

【技术特征摘要】
1.一种应答语音的识别方法,其特征在于,该方法包括:获取待识别应答语音;使用应答方式识别模型确定所述待识别应答语音对应的应答方式;其中,所述应答方式识别模型为有监督的机器学习模型;若所述应答方式为正式应答方式,则将所述待识别应答语音输入第一语音识别系统,以使所述第一语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;若所述应答方式为非正式应答方式,则将所述待识别应答语音输入第二语音识别系统,以使所述第二语音识别系统识别所述待识别应答语音,并输出所述待识别应答语音对应的文本信息;其中,所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。2.如权利要求1所述的方法,其特征在于,所述使用应答方式识别模型确定所述待识别应答语音对应的应答方式,具体包括:将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型;获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。3.如权利要求2所述的方法,其特征在于,所述语音特征包括帧级特征、片级特征和段级特征;根据下列方式从应答语音提取出语音特征:使用特征提取工具,根据预设的帧长和帧移,提取所述待识别应答语音的帧级特征;将所述帧级特征做平滑滤波处理,并对平滑处理后的帧级特征做差分运算,确定所述待识别应答语音的片级特征;根据预设的统计参数,对所述片级特征进行分析处理,确定所述待识别应答语音的段级特征。4.如权利要求1所述的方法,其特征在于,根据下列方式获得所述应答方式识别模型:确定包含多个应答语音的训练集,以及包含多个应答语音的测试集;其中,所述训练集中的应答语音与所述测试集中的应答语音不同;针对所述训练集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练;针对所述测试集中任意一个应答语音,将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中,并获取所述训练后的应答方式识别模型输出的所述应答语音对应的应答方式;根据所述训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式,确定所述训练后的应答方式识别模型的识别正确率,若所述识别正确率大于设定阈值,确定所述训练后的应答方式识别模型训练完成,保存所述训练后的应答方式识别模型。5.如权利要求1~4任一所述的方法,其特征在于,所述应答方式识别模型为支持向量机SVM模型。6.一种应答语音...

【专利技术属性】
技术研发人员:谢湘唐刚
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1