当前位置: 首页 > 专利查询>华侨大学专利>正文

一种面向外国留学生的演讲评测方法、装置及系统制造方法及图纸

技术编号:29528988 阅读:25 留言:0更新日期:2021-08-03 15:16
本发明专利技术公开了一种面向外国留学生的演讲评测方法、装置及系统,包括:获取演讲者的演讲语音数据;对所述演讲语音数据进行语音识别,得到识别文本数据;分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果。本发明专利技术提供客观、专业、通用、体系化的针对汉语学习者的口语能力评判标准,对汉语学习者自身能力提升以及汉语教育行业的发展有促进作用。

【技术实现步骤摘要】
一种面向外国留学生的演讲评测方法、装置及系统
本专利技术涉及汉语教育行业领域及语言信号处理
,具体涉及一种面向外国留学生的演讲评测方法、装置及系统。
技术介绍
在汉语发展传播时期,汉语学习者大都是在学校进行系统性学习,无论是课本教材还是教师用语基本上都是书面语居多,口语的教授和使用相对较少。因此汉语学习者在学习汉语时普遍存在以下两个问题:一是缺少口语练习的机会;二是有的汉语学习者很想做口语练习,却因为无人评价反馈而无法坚持练习。市面上口语练习的平台和资源都偏少,这是因为口语是一门很有针对性的课程,它没有一个统一的参考标准。每个人都会有不一样的表达,因此评价反馈也会因此而不同。
技术实现思路
本专利技术的主要目的在于提出一种面向外国留学生的演讲评测方法、装置及系统,提供客观、专业、通用、体系化的针对汉语学习者的口语能力评判标准,对汉语学习者自身能力提升以及汉语教育行业的发展有促进作用。本专利技术采用如下技术方案:第一方面,一种面向外国留学生的演讲评测方法,包括:获取演讲者的演讲语音数据;对所述演讲语音数据进行语音识别,得到识别文本数据;分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;所述语音评分特征包括流畅度特征、有效性特征、语速特征和语音基础分特征;所述语篇评分特征包括主谓宾句法分析特征、混合句型特征、词汇使用是否得当特征、语言框架得分特征、情感是否健康特征、主题是否相符特征、口语表达思考力特征和语篇基础分特征;根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果。优选的,提取流畅度特征的方法,包括:统计所述演讲语音数据中停顿出现的次数TD;停顿指的是对所述演讲语音数据采用VAD算法进行端点检测,获取到语音的端点位置,求相连两个端点之间的时长,超过设置的阈值ht说明出现停顿;基于停顿出现的次数TD设计输出语音流畅度S;其中,语音流畅度S的取值与所述停顿次数呈反比,即停顿次数越少,语音流畅度S的取值越大;优选的,提取有效性特征的方法,包括:统计所述识别文本数据中停顿词的数量以及无效重复语音文本的出现次数;具体的,通过基于停顿词表统计文本中停顿的词数量I,基于规则的方法统计文本中的无效重复语音文本的出现次数J;将停顿词的数量和无效重复语音文本的出现次数作为有效性特征。优选的,提取语速特征的方法,包括:获取所述识别文本数据的文本长度L及所述演讲语音数据的音频长度T,计算出语速L/T;将语速L/T作为语速特征。优选的,提取语音基础分特征的方法,包括:获取所述演讲语音数据的音频长度T,获取所述音频长度T与预设阈值hvt的比值;所述预设阈值hvt为能使演讲者获得语音基础分满分的演讲音频长度;将所述音频长度T与预设阈值hvt的比值作为语音基础分特征。优选的,提取主谓宾句法分析特征的方法,包括:统计所述识别文本数据的N句文本中,符合语法结构信息标准的句子数量G,得到文本句子结构标准率G/N;将文本句子结构标准率G/N作为主谓宾句法分析特征。优选的,提取混合句型特征的方法,包括:统计所述识别文本数据的N句文本中,符合标准句型的句子数量M,得到文本句型标准率M/N;将文本句型标准率M/N作为主谓宾句法分析特征。优选的,提取词汇使用是否得当特征的方法,包括:统计所述识别文本数据的N句文本中,文本出错数量W;将文本出错数量W作为词汇使用是否得当特征。优选的,提取语言框架得分特征的方法,包括:将所述识别文本数据以句子为单位进行拆分为一个数组,同时以词为单位进行分词,将分词后的数组与语言框架词典进行匹配,计算符合语言框架句子数量F;将符合语言框架句子数量F作为语言框架得分特征。优选的,提取情感是否健康特征的方法,包括:首先使用大规模语料库通过word2vec训练出词向量,然后将所述识别文本数据进行分词操作,并找出每个词对应的词向量wordi,通过余弦距离来衡量所述识别文本数据中词向量与违规词典中词向量两个向量方向的差异,其计算方法为其中D为词向量维数,word1k为文本词向量,word2k为违规词典库中词语词向量;将所述余弦距离作为情感是否健康特征。优选的,提取主题是否相符特征的方法,包括:根据所述识别文本数据匹配的主题词数量P与所有主题词数量Pall,统计出所述识别文本数据与题目的主题相符率P/Pall;将所述主题相符率P/Pall作为主题是否相符特征。优选的,提取口语表达思考力特征的方法,包括:对所述识别文本数据以句子的单位进行分析匹配书面语词典,统计书面语的句子数量Wr;将书面语的句子数量Wr作为口语表达思考力特征。优选的,提取语篇基础分特征的方法,包括:将所述识别文本数据的长度作为用户语篇基础分的基础得分Q,对于所述识别文本数据,若标准文本长度为Lstandard,语音的标准基础分为scoretext_basic,所述识别文本数据的长度为L,计算出用户语篇基础分将用户语篇基础分Q作为语篇基础分特征。优选的,根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果,包括:基于提取的流畅度特征、有效性特征、语速特征、语音基础分特征、主谓宾句法分析特征、混合句型特征、词汇使用是否得当特征、语言框架得分特征、情感是否健康特征、主题是否相符特征、口语表达思考力特征和语篇基础分特征,分别获取对应的得分,并通过求和计算出总得分,以实现对所述演讲语音数据进行评价,得到演讲的评测结果。另一方面,一种面向外国留学生的演讲评测装置,包括:语音数据获取模块,用于获取演讲者的演讲语音数据;语音数据识别模块,用于对所述演讲语音数据进行语音识别,得到识别文本数据;特征提取模块,分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;所述语音评分特征包括流畅度特征、有效性特征、语速特征和语音基础分特征;所述语篇评分特征包括主谓宾句法分析特征、混合句型特征、词汇使用是否得当特征、语言框架得分特征、情感是否健康特征、主题是否相符特征、口语表达思考力特征和语篇基础分特征;评测模块,根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果。再一方面,一种面向外国留学生的演讲评测系统,包括:客户端,用于获取演讲者的演讲语音数据;服务器,用于所述客户端发送的所述演讲语音数据;对所述演讲语音数据进行语音识别,得到识别文本数据;分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;所述语音评分特征包括流畅度特征、有效性特本文档来自技高网...

【技术保护点】
1.一种面向外国留学生的演讲评测方法,其特征在于,包括:/n获取演讲者的演讲语音数据;/n对所述演讲语音数据进行语音识别,得到识别文本数据;/n分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;所述语音评分特征包括流畅度特征、有效性特征、语速特征和语音基础分特征;所述语篇评分特征包括主谓宾句法分析特征、混合句型特征、词汇使用是否得当特征、语言框架得分特征、情感是否健康特征、主题是否相符特征、口语表达思考力特征和语篇基础分特征;/n根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果。/n

【技术特征摘要】
1.一种面向外国留学生的演讲评测方法,其特征在于,包括:
获取演讲者的演讲语音数据;
对所述演讲语音数据进行语音识别,得到识别文本数据;
分别对所述演讲语音数据和所述识别文本数据进行特征提取,得到可量化的评测特征,所述可量化的评测特征包括语音评分特征和语篇评分特征;所述语音评分特征包括流畅度特征、有效性特征、语速特征和语音基础分特征;所述语篇评分特征包括主谓宾句法分析特征、混合句型特征、词汇使用是否得当特征、语言框架得分特征、情感是否健康特征、主题是否相符特征、口语表达思考力特征和语篇基础分特征;
根据所述可量化的评测特征,对所述演讲语音数据进行评价,得到演讲的评测结果。


2.根据权利要求1所述的面向外国留学生的演讲评测方法,其特征在于,提取流畅度特征的方法,包括:
统计所述演讲语音数据中停顿出现的次数TD;停顿指的是对所述演讲语音数据采用VAD算法进行端点检测,获取到语音的端点位置,求相连两个端点之间的时长,超过设置的阈值ht说明出现停顿;
基于停顿出现的次数TD设计输出语音流畅度S;其中,语音流畅度S的取值与所述停顿次数呈反比,即停顿次数越少,语音流畅度S的取值越大;
提取有效性特征的方法,包括:
统计所述识别文本数据中停顿词的数量以及无效重复语音文本的出现次数;具体的,通过基于停顿词表统计文本中停顿的词数量I,基于规则的方法统计文本中的无效重复语音文本的出现次数J;
将停顿词的数量和无效重复语音文本的出现次数作为有效性特征。


3.根据权利要求1所述的面向外国留学生的演讲评测方法,其特征在于,提取语速特征的方法,包括:
获取所述识别文本数据的文本长度L及所述演讲语音数据的音频长度T,计算出语速L/T;
将语速L/T作为语速特征;
提取语音基础分特征的方法,包括:
获取所述演讲语音数据的音频长度T,获取所述音频长度T与预设阈值hvt的比值;所述预设阈值hvt为能使演讲者获得语音基础分满分的演讲音频长度;
将所述音频长度T与预设阈值hvt的比值作为语音基础分特征。


4.根据权利要求1所述的面向外国留学生的演讲评测方法,其特征在于,提取主谓宾句法分析特征的方法,包括:
统计所述识别文本数据的N句文本中,符合语法结构信息标准的句子数量G,得到文本句子结构标准率G/N;
将文本句子结构标准率G/N作为主谓宾句法分析特征;
提取混合句型特征的方法,包括:
统计所述识别文本数据的N句文本中,符合标准句型的句子数量M,得到文本句型标准率M/N;
将文本句型标准率M/N作为主谓宾句法分析特征。


5.根据权利要求1所述的面向外国留学生的演讲评测方法,其特征在于,提取词汇使用是否得当特征的方法,包括:
统计所述识别文本数据的N句文本中,文本出错数量W;
将文本出错数量W作为词汇使用是否得当特征;
提取语言框架得分特征的方法,包括:
将所述识别文本数据以句子为单位进行拆分为一个数组,同时以词为单位进行分词,将分词后的数组与语言框架词典进行匹配,计算符合语言框架句子数量F;
将符合语言框架句子数量F作为语言框架得分特征。


6.根据权利要求1所述的面向外国留学生的演讲评测方法,其特征在于,提取情感是否健康特征的方法,包括:
首先使用大规模语料库通过word2vec训练出词向量,然后将所...

【专利技术属性】
技术研发人员:李会法沈莺英谈遥新张恒彰王华珍
申请(专利权)人:华侨大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1