一种口语考试评测的校标优化方法及系统技术方案

技术编号:11203650 阅读:84 留言:0更新日期:2015-03-26 11:39
本发明专利技术公开了一种口语考试评测的校标优化方法及系统,该方法包括从对应待校标题型的所有语音数据中挑选部分语音数据作为定标语音数据,以通过定标专家进行人工标注;获取人工标注得到的定标语音数据的人工标注结果;利用语音识别系统对定标语音数据进行语音识别;从定标语音数据的语音识别结果中分别提取对应待校标题型的评分标准的不同特征类型的评测特征;结合定标语音数据的评测特征和人工标注结果,训练优化对应待校标题型的原打分模型,得到新打分模型。由于利用人工标注结果优化原打分模型,可使新打分模型尽可能地与当前口语考试的评分标准相吻合,因此利用经本发明专利技术方法得到的新打分模型进行口语考试评测可以表现出更好的评分性能。

【技术实现步骤摘要】

本专利技术涉及语音信号处理
,尤其涉及一种口语考试校标优化方法及系统。
技术介绍
随着语音识别技术的发展和日益成熟,涉及语音技术、自然语言理解、人工智能、数据挖掘、机器学习等多学科知识的智能语音评测技术在计算机辅助教学、口语考试自动评分、个人语言发音学习等应用场景中得到了广泛的应用。特别是在各类语言的大规模口语考试中,为了降低考试成本,提高考试评分效率,降低不同评分员间的主观差异性,确保考试的公平性,智能语音评测技术发挥了重大作用,并逐步代替人工进行口语评测,例如,在全国的普通话水平测试,江苏中考英语口语考试,广东高考英语口语考试中均使用智能语音评测技术代替人工进行过大规模的自动评分。现有的口语考试评测方法是基于通用的语音识别系统识别出考生作答的语音数据的内容,并基于通用的知识库和打分模型,针对识别出的内容给出相应的评测结果,如图1所示,具体包括如下步骤:步骤1:接收考生作答的语音数据和对应的考试试卷。步骤2:利用通用的语音识别系统获取语音数据中各基本语音单元对应的语音识别结果,该语音识别系统具体是由解码器在声学模型和语言模型的基础上利用步骤1输入的考试试卷生成更适合本题型的状态网络空间,解码出以最大概率输出该语音数据的语音识别结果。。步骤3:对于例如是朗读题型等参考答案唯一的口语考试题型,直接从语音识别结果中分别提取对应发音准确性、流利性、完整性、语法、语义等与评分标准相关的不同特征类型的评测特征;而对于例如是问答题等参考答案不唯一的口语考试题型,基于例如是包括答题要点、参考答案等在内的知识库,从语音识别结果中分别提取对应发音准确性、流利性、完整性、语法、语义等与评分标准相关的不同特征类型的评测特征。步骤4:使用预先训练好的通用的打分模型与步骤3提取到的不同特征类型的评测特征相运算,通过设定的线性或者非线性的机器学习算法映射出对应的分数。由此可见,基于口语考试评测技术的评分准确性取决于语言识别系统的识别性能及打分模型与评分标准的匹配度,对于需要知识库参与的评测,还取决于知识库对当前口语考试的试题内容的覆盖度。对于大规模考试而言,因地域差异存在发音人声音特性、麦克风等机器,录音环境等方面的差异,及不同考题试卷、各类题型的评分标准差异和学校、教育机构的主观评分差异,所以,现有的采用通用打分模型和知识库的口语考试评测方法,很难在不同地域的口语考试中达到最优的打分效果,只有在训练声学模型的语音数据与考生作答的麦克风声道情况、环境噪声情况等一致,且语言模型能够囊括所有考试试题的语言信息时,语音识别系统才能表现出很好的识别性能,同时只有打分模型完全符合考试的评分标准时,评分的准确性才能得到保障。但是实际应用中,录音环境、试题内容、评分标准都是不可控制的,例如,针对英语口语考试,相对城乡的考生,大城市的大部分考生的发音特性更加接近标准英文发音,而且相对城乡的考场配置,大城市的考场所配置的麦克风等机器设备更加先进,性能更好;另外,大城市所制定的考题、评分标准与城乡英语口语考试间通常也存在较大差异,这使得通用的打分模型和知识库很难在不同区域、不同试卷的口语考试中均表现出较好的评分性能。基于以上说明可知,现有口语考试评测方法存在通用性差的缺点,具体表现为以下几个方面:1、考生发音特性、录音设备声道、环境噪声程度与声学模型训练时不一致时,语音识别系统语音适应性很差,语音解码器效果差;2、当语言模型中的语言信息不能覆盖或侧重与当前口语考试的试题内容时,识别系统的识别性能差;3、在知识库不能覆盖试题内容、考点,打分模型不能与当前口语考试的评分标准相吻合时,将表现出很差的评分性能。
技术实现思路
本专利技术的实施例针对现有口语考试评测方法存在通用打分模型不能与当前口语考试的评分标准相吻合时,会表现出很差的评分性能的问题,提出一种基于人工定标的口语考试评测的校标优化方法及系统。为实现上述目的,本专利技术采用的技术方案为:一种口语考试评测的校标优化方法,包括:接收当前口语考试的一口语考试题型,并将所述口语考试题型作为待校标题型;从对应所述待校标题型的考生作答的所有语音数据中挑选部分语音数据作为定标语音数据,以通过定标专家对所述定标语音数据进行人工标注;获取通过所述人工标注得到的所述定标语音数据的人工标注结果;利用语音识别系统对所述定标语音数据进行语音识别,获得所述定标语音数据的语音识别结果;从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征;结合所述定标语音数据的评测特征和人工标注结果,训练优化对应所述待校标题型的原打分模型,得到对应所述待校标题型的新打分模型。优选的是,所述方法还包括:利用所述定标语音数据的人工标注结果优化对应所述待校标题型的原知识库,得到对应所述待校标题型的新知识库;所述从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征包括:基于所述新知识库,从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征。优选的是,所述利用定标语音数据的人工标注结果优化对应所述待校标题型的原知识库包括:利用所述定标语音数据的人工标注结果训练个性语言模型增加至所述原知识库中,从所述定标语音数据的人工标注结果中提取答题要点增加至所述原知识库中,及在所述定标语音数据的人工标注结果中挑选人工评分高于设定分数的人工转写数据作为参考答案增加至所述原知识库中的至少一种。优选的是,所述方法还包括:从对应所述待校标题型的考生作答的所有语音数据中至少挑选部分语音数据作为基础语音数据;利用所述基础语音数据,对原语音识别系统中的声学模型和语言模型中的至少一种进行训练优化,得到新语音识别系统;所述利用语音识别系统对所述定标语音数据进行语音识别包括:利用新语音识别系统对所述定标语音数据进行语音识别。优选的是,所述利用所述基础语音数据,对原语音识别系统的声学模型进行训练优化包括:利用所述原语音识别系统对所述基础语音数据进行语音识别,获得所述基础语音数据的语音识别结果;提取所述基础语音数据的语音识别结果的数据特征;挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格的语料;利用所述合格的语料对原语音识别系统的声学模型进行训练优化。...

【技术保护点】
一种口语考试评测的校标优化方法,其特征在于,包括:接收当前口语考试的一口语考试题型,并将所述口语考试题型作为待校标题型;从对应所述待校标题型的考生作答的所有语音数据中挑选部分语音数据作为定标语音数据,以通过定标专家对所述定标语音数据进行人工标注;获取通过所述人工标注得到的所述定标语音数据的人工标注结果;利用语音识别系统对所述定标语音数据进行语音识别,获得所述定标语音数据的语音识别结果;从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型的评分标准的不同特征类型的评测特征;结合所述定标语音数据的评测特征和人工标注结果,训练优化对应所述待校标题型的原打分模型,得到对应所述待校标题型的新打分模型。

【技术特征摘要】
1.一种口语考试评测的校标优化方法,其特征在于,包括:
接收当前口语考试的一口语考试题型,并将所述口语考试题型作为待
校标题型;
从对应所述待校标题型的考生作答的所有语音数据中挑选部分语音数
据作为定标语音数据,以通过定标专家对所述定标语音数据进行人工标注;
获取通过所述人工标注得到的所述定标语音数据的人工标注结果;
利用语音识别系统对所述定标语音数据进行语音识别,获得所述定标
语音数据的语音识别结果;
从所述定标语音数据的语音识别结果中分别提取对应所述待校标题型
的评分标准的不同特征类型的评测特征;
结合所述定标语音数据的评测特征和人工标注结果,训练优化对应所
述待校标题型的原打分模型,得到对应所述待校标题型的新打分模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述定标语音数据的人工标注结果优化对应所述待校标题型的原
知识库,得到对应所述待校标题型的新知识库;
所述从所述定标语音数据的语音识别结果中分别提取对应所述待校标
题型的评分标准的不同特征类型的评测特征包括:
基于所述新知识库,从所述定标语音数据的语音识别结果中分别提取
对应所述待校标题型的评分标准的不同特征类型的评测特征。
3.根据权利要求2所述的方法,其特征在于,所述利用定标语音数据
的人工标注结果优化对应所述待校标题型的原知识库包括:
利用所述定标语音数据的人工标注结果训练个性语言模型增加至所述
原知识库中,从所述定标语音数据的人工标注结果中提取答题要点增加至
所述原知识库中,及在所述定标语音数据的人工标注结果中挑选人工评分
高于设定分数的人工转写数据作为参考答案增加至所述原知识库中的至少
一种。
4.根据权利要求1、2或3所述的方法,其特征在于,所述方法还包

\t括:
从对应所述待校标题型的考生作答的所有语音数据中至少挑选部分语
音数据作为基础语音数据;
利用所述基础语音数据,对原语音识别系统中的声学模型和语言模型
中的至少一种进行训练优化,得到新语音识别系统;
所述利用语音识别系统对所述定标语音数据进行语音识别包括:
利用新语音识别系统对所述定标语音数据进行语音识别。
5.根据权利要求4所述的方法,其特征在于,所述利用所述基础语音
数据,对原语音识别系统的声学模型进行训练优化包括:
利用所述原语音识别系统对所述基础语音数据进行语音识别,获得所
述基础语音数据的语音识别结果;
提取所述基础语音数据的语音识别结果的数据特征;
挑选数据特征满足设定要求的基础语音数据的语音识别结果作为合格
的语料;
利用所述合格的语料对原语音识别系统的声学模型进行训练优化。
6.根据权利要求4所述的方法,其特征在于,所述利用所述基础语音
数据,对原语音识别系统的语言模型进行训练优化包括:
从所述基础语音数据中挑选包含所述待校标题型的答题要点的语句,
作为基础语句;
利用所述基础语句对原语音识别系统的语言模型进行训练优化。
7.一种口语考试评测的校标优化系统,其特征在于,包括:
考试题...

【专利技术属性】
技术研发人员:何春江赵乾胡阳宋铁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1