一种口语评分方法及装置制造方法及图纸

技术编号:21955284 阅读:31 留言:0更新日期:2019-08-24 19:07
本发明专利技术涉及一种口语评分方法及装置,所述方法包括:获取对口语测试题的作答后的语音文件;从所述语音文件解码出作答文本信息;对参考答案文本和所述作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,所述目标参考答案文本与所述参考答案文本的语义相同,所述目标作答文本信息与所述作答文本信息的语义相同;基于所述目标参考答案文本和目标作答文本信息,提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征;将所述内容特征输入预设的训练模型输出对应的口语评分。本发明专利技术可以提升开放题型中口语作答的评分效率。

A Method and Device for Oral Scoring

【技术实现步骤摘要】
一种口语评分方法及装置
本专利技术涉及计算机
,特别是涉及一种口语评分方法及装置。
技术介绍
口语开放题测试是指在考试当中,通过口语测试题,对学生口语作答的内容进行打分的一种考试机制。目前,口语开放题测试还不能实现自动评分,增加了口语测试的评分难度。
技术实现思路
基于此,有必要针对目前口语考试无法自动评分的问题,提供一种口语评分方法及装置。一种口语评分方法,所述方法包括:获取对口语测试题的作答后的语音文件;从所述语音文件解码出作答文本信息;对参考答案文本和所述作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,所述目标参考答案文本与所述参考答案文本的语义相同,所述目标作答文本信息与所述作答文本信息的语义相同;基于所述目标参考答案文本和目标作答文本信息,提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征;将所述内容特征输入预设的训练模型输出对应的口语评分。优选的,所述提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征,包括:基于预先定义的单词逆文档频率信息,选择单词逆文档频率值较大的若干个单词作同义词扩展,作为所述目标参考答案文本的关键词,然后取其并集得到参考答案关键词;统计所述参考答案关键词在所述目标作答文本信息中出现的频率,得到关键词命中率;统计所述标作答文本信息在所述目标参考答案文本中的N元词命中率,并取其中的最大值作为杰卡德相似系数;通过idf值加权词向量的方式,分别得到所述目标参考答案文本与所述目标作答文本信息的文档向量表示,并计算所述目标参考答案文本的文档向量与所述目标作答文本信息的文档向量之间的夹角余弦值,并将最大的所述夹角余弦值作为余弦相似度;确定所述目标参考答案文本和目标作答文本信息之间的词移距离;将所述关键词命中率、杰卡德相似系数、余弦相似度和词移距离作为所述内容特征。优选的,所述对参考答案文本和所述作答文本信息进行预处理,包括:对参考答案文本和所述作答文本信息分别去除停用词和单词词形还原,所述停用词是指句子中对内容表达没有影响的单词,包括但不限于:冠词、介词、连词、语气词、常用作连词的副词,所述词形还原是指对给定形式的单词转换为基本词形。优选的,所述将所述内容特征输入预设的训练模型输出对应的口语评分,包括:基于训练生成的SVR模型,将所述内容特征输入所述SVR模型,输出对应的口语评分。一种口语评分装置,包括:获取模块,用于获取对口语测试题的作答后的语音文件;解码模块,用于从所述语音文件解码出作答文本信息;处理模块,用于对参考答案文本和所述作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,所述目标参考答案文本与所述参考答案文本的语义相同,所述目标作答文本信息与所述作答文本信息的语义相同;提取模块,用于基于所述目标参考答案文本和目标作答文本信息,提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征;输出模块,用于将所述内容特征输入预设的训练模型输出对应的口语评分。优选的,所述提取模块用于:基于预先定义的单词逆文档频率信息,选择单词逆文档频率值较大的若干个单词作同义词扩展,作为所述目标参考答案文本的关键词,然后取其并集得到参考答案关键词;统计所述参考答案关键词在所述目标作答文本信息中出现的频率,得到关键词命中率;统计所述标作答文本信息在所述目标参考答案文本中的N元词命中率,并取其中的最大值作为杰卡德相似系数;通过idf值加权词向量的方式,分别得到所述目标参考答案文本与所述目标作答文本信息的文档向量表示,并计算所述目标参考答案文本的文档向量与所述目标作答文本信息的文档向量之间的夹角余弦值,并将最大的所述夹角余弦值作为余弦相似度;确定所述目标参考答案文本和目标作答文本信息之间的词移距离;将所述关键词命中率、杰卡德相似系数、余弦相似度和词移距离作为所述内容特征。优选的,所述处理模块用于:对参考答案文本和所述作答文本信息分别去除停用词和单词词形还原,所述停用词是指句子中对内容表达没有影响的单词,包括但不限于:冠词、介词、连词、语气词、常用作连词的副词,所述词形还原是指对给定形式的单词转换为基本词形。优选的,所述输出模块用于:基于训练生成的SVR模型,将所述内容特征输入所述SVR模型,输出对应的口语评分。本专利技术在开放题型中,对于考生的口语作答,口语评分是对考生回答是否切题的量化表征,能直接反馈告知学生所回答内容与参考答案的匹配程度,它也决定最终整体打分的合理性,从而提升开放题型中口语作答的评分效率;本专利技术对考生作答的语音文本中关键词的提取,是对学生表述的概括描述,该信息反馈能让学生有良好的自我认知。本专利技术在提取参考答案的关键词后进行同义词扩展,这部分信息作为反馈,可以丰富学生词汇量,鼓励更多种表达方式。附图说明图1为一实话例的口语评分方法的流程图;图2为一实话例的口语评分装置的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一实话例的口语评分方法的流程图。如图1所示,该方法包括:步骤110,获取对口语测试题的作答后的语音文件;步骤120,从语音文件解码出作答文本信息;步骤130,对参考答案文本和作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,目标参考答案文本与参考答案文本的语义相同,目标作答文本信息与作答文本信息的语义相同;步骤140,基于目标参考答案文本和目标作答文本信息,提取表征目标参考答案文本和目标作答文本信息的语义相似度的内容特征;步骤150,将内容特征输入预设的训练模型输出对应的口语评分。本实施例中,在开放题型情境下,对学生的语音文件进行解码,可以得到学生回答的作答文本信息。所述解码过程,可以通过语音识别系统实现。本实施例中,步骤140中,提取表征目标参考答案文本和目标作答文本信息的语义相似度的内容特征,包括:基于预先定义的单词逆文档频率信息,选择单词逆文档频率值较大的若干个单词作同义词扩展,作为目标参考答案文本的关键词,然后取其并集得到参考答案关键词;统计参考答案关键词在目标作答文本信息中出现的频率,得到关键词命中率;统计标作答文本信息在目标参考答案文本中的N元词(也称为N-gram)命中率,并取其中的最大值作为杰卡德相似系数;通过idf值加权词向量的方式,分别得到目标参考答案文本与目标作答文本信息的文档向量表示,并计算目标参考答案文本的文档向量与目标作答文本信息的文档向量之间的夹角余弦值,并将最大的夹角余弦值作为余弦相似度;确定目标参考答案文本和目标作答文本信息之间的词移距离;将关键词命中率、杰卡德相似系数、余弦相似度和词移距离作为内容特征。本实施例中,内容特征包括四种参数,具体如下:1)关键词命中率。提取操作如下:首先,提取目标参考答案文本的关键词。在预处理后的目标参考答案文本中,根据事先定义好的单词逆文档频率(idf,inversedocumentfrequency)信息,选择idf值较大的若干个单词作同义词扩展,作为各条目标参考答案文本的关键词本文档来自技高网...

【技术保护点】
1.一种口语评分方法,其特征在于,所述方法包括:获取对口语测试题的作答后的语音文件;从所述语音文件解码出作答文本信息;对参考答案文本和所述作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,所述目标参考答案文本与所述参考答案文本的语义相同,所述目标作答文本信息与所述作答文本信息的语义相同;基于所述目标参考答案文本和目标作答文本信息,提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征;将所述内容特征输入预设的训练模型输出对应的口语评分。

【技术特征摘要】
1.一种口语评分方法,其特征在于,所述方法包括:获取对口语测试题的作答后的语音文件;从所述语音文件解码出作答文本信息;对参考答案文本和所述作答文本信息进行预处理,分别对应生成文字内容更少的目标参考答案文本和目标作答文本信息,其中,所述目标参考答案文本与所述参考答案文本的语义相同,所述目标作答文本信息与所述作答文本信息的语义相同;基于所述目标参考答案文本和目标作答文本信息,提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征;将所述内容特征输入预设的训练模型输出对应的口语评分。2.根据权利要求1所述的方法,其特征在于,所述提取表征所述目标参考答案文本和目标作答文本信息的语义相似度的内容特征,包括:基于预先定义的单词逆文档频率信息,选择单词逆文档频率值较大的若干个单词作同义词扩展,作为所述目标参考答案文本的关键词,然后取其并集得到参考答案关键词;统计所述参考答案关键词在所述目标作答文本信息中出现的频率,得到关键词命中率;统计所述标作答文本信息在所述目标参考答案文本中的N元词命中率,并取其中的最大值作为杰卡德相似系数;通过idf值加权词向量的方式,分别得到所述目标参考答案文本与所述目标作答文本信息的文档向量表示,并计算所述目标参考答案文本的文档向量与所述目标作答文本信息的文档向量之间的夹角余弦值,并将最大的所述夹角余弦值作为余弦相似度;确定所述目标参考答案文本和目标作答文本信息之间的词移距离;将所述关键词命中率、杰卡德相似系数、余弦相似度和词移距离作为所述内容特征。3.根据权利要求1所述的方法,其特征在于,所述对参考答案文本和所述作答文本信息进行预处理,包括:对参考答案文本和所述作答文本信息分别去除停用词和单词词形还原,所述停用词是指句子中对内容表达没有影响的单词,包括但不限于:冠词、介词、连词、语气词、常用作连词的副词,所述词形还原是指对给定形式的单词转换为基本词形。4.根据权利要求3所述的方法,其特征在于,所述将所述内容特征输入预设的训练模型输出对应的口语评分,包括:基于训练生成的SVR模型,将所述内容特征...

【专利技术属性】
技术研发人员:彭书勇方敏戚自力孙婷婷林远东
申请(专利权)人:苏州驰声信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1