一种具有语音评估功能的网络教学方法及系统技术方案

技术编号:13201390 阅读:51 留言:0更新日期:2016-05-12 10:31
提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明专利技术的语音评估方法,语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型,并以此为特征来计算后验概率和零阶Baum-Welch统计量;利用多种语言的音素识别器以提取基于音素的语音特征。本发明专利技术表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后,本发明专利技术的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关系数表明,本发明专利技术提出的方法在口语评估中是十分准确并有效的。

【技术实现步骤摘要】

本专利技术设及一种基于多语言音素后验概率和多语言音素持续时间相关特征的自 动本地口音评估方法,属于语音识别领域,特别是设及口语评估领域,还设及一种具有语音 评估功能的网络教学方法及系统。
技术介绍
近年来,随着移动互联网的普及和网络教学系统的快速发展,传统教学模式已逐 渐不能满足用户对于多媒体信息化教学方式的需求。在网络教学过程中,教学过程的实时 同步显示、教学过程的实时录制W及快速有效的点播回放,越来越为广大用户所关注。现有 技术中,为了满足上述需要,在同步显示和录制等方面,提出了很多方案: 现有技术1(《中国图象图形学报》,第8卷第9期,2003年9月,张丽萍等,"一种基于 拷屏和压缩技术的屏幕共享方案")公开了常见的屏幕共享包括两种方式:利用操作系统底 层的GUI矢量指令实现;利用拷屏和压缩技术实现屏幕共享,屏幕显示内容不是通过拆解成 具体的绘图命令来实现,而是通过先拷贝屏幕图像,然后进行数据压缩处理并传到客户端, 最后由客户端解码显示来实现拷屏内容的重现。 如图1所示,现有技术2 (《现代计算机》,2006年第5期,黄帆,"基于压缩域的肝EG图 像检索技术")公开了一种图像压缩方法。所述方法基于DCT变换的肝EG有损压缩编码步骤 通常包括:首先,把图像分成若干个8X8矩阵的块,其中每块由一个直流特征值化C特征值) 和63个交流特征值(AC特征值)组成;第二,进行正向DCT变换处理,把空间域转换成频率域 表示,目的是使得能力集中在少数的特征值上;第S,根据量化表对DCT频率特征值进行有 损量化,消除视觉冗余;第四,对量化后的特征值进行"Z"型排序,形成一维特征值序列;第 五,对DC特征值用差分脉冲编码调制(DPMC)算法进行编码,对AC特征值用行程长度编码 (RLE)进行无损压缩;最后,对经过所述处理的DC和AC特征值进行化ffman编码。DC特征值和 AC特征值代表了图像中每一块的纹理特征和像素值,是构成图像的主要因素。 但是,类似运种图像的获取如屏幕拷贝(或称截屏)要么人工手动进行,要么根据 时间设定自动截屏发送,但是都存在截屏发送的信息是否重复,是否有效的问题,不必要的 或者重复图像的发送会增加网络传送的负担,还会影响用户的体验。 如图2所示,现有技术3(CN101141271A,公开日2008年3月12日)公开了一种网络教 学系统,包括:录制器100、处理器200、第一网络300、第二网络350,服务器400、数据库500及 =个客户端600。其中,录制器100主要包括摄像头(图未示出)及无线数字话筒(图未示出) W录制课件的视频信息及音频信息。第一网络300用于将所述课件信息传送至服务器400。 服务器400-方面用于进一步处理所述课件信息,产生课件数据,另一方面用于在数据库 500中捜寻并调用所述课件数据,进而将所述课件数据转换回所述课件信息。数据库500用 于存储所述课件数据。第二网络350用于连接客户端600与服务器400。客户端600用于方便 用户查询课件信息及调用课件信息。 如图3所不,现有技术4(〔化030676834,公开日2013年4月24日)公开了 一种用于远 程教学的全自动录播系统,包括:视频信号采集模块1、音频信号采集模2块、自动录播编辑 模块3和图形工作站4,视频信号采集模块1包括教师摄像机、学生摄像和板书摄像机,均采 用采用带有旋转云台的快速球形摄像机,分别用于拍摄教师、学生和板书的影像。使用时, 视频信号采集模块1和音频信号采集模块2均与自动录播编辑模块3连接,将采集的视频及 音频信号传输至自动录播编辑模块3。自动录播编辑模块3与图形工作站4连接,将视频及音 频信号编辑成音视频文件后传输至图形工作站4,通过图形工作站4对音视频文件进行压缩 编码,生成流媒体文件。整个授课录制过程无需专人操作控制,而且生成的流媒体文件可W 上传至互联网。[000引如图4所示,现有技术5(CN101043469A,公开日2007年9月26日)公开了一种手机在 多媒体教室中通过无线网络录制个性化多媒体课件的方法,通过课件服务中屯、、课件发送 中屯、、手机之间信息交互实现,课件服务中屯、具有外部IP地址,为教学楼中的所有多媒体教 室服务;课件发送中屯、采集教师授课电脑的屏幕信号、教师的视频和音频信号,经数字化后 将屏幕、视频和音频数据发送到服务中屯、;手机通过无线网络连接到课件服务中屯、,在需要 的时候将其中一路或几路流媒体数据保存到手机存储卡中,录制结束后保存为AVI文件,能 在手机或电脑上直接观看。 如图5所示,现有技术6(CN103646573A公开日:2014年3月19日)公开了一种全景模 式教学系统的专用格式文件的生成方法,所述教学系统包括全景课件制作系统,全景课件 制作系统获取老师或互动者的动作、音频、课程资料W及上述数据被获取时对应的时间数 据;所述的动作包括:插入文字或图片、实验过程演示、绘制线条、绘制几何图形、板擦工具 或小黑板工具,教学系统通过麦克风获取老师或互动者的即时音频,同时通过鼠标、键盘、 写字板或电子白板采集老师或互动者在当前系统界面的动作,并将动作进行数据分析,获 取动作产生的时间、动作所产生的路径、动作所携带的附加数据和动作类型数据,并按时间 顺序记录,所述动作分为笔迹型、媒体型和数据型,笔迹型、媒体型和数掘型数据都包括两 个部分:路径部分和数据部分;笔迹型动作,则路径部分完整记录动作路径的物理坐标序 列,数据部分不启用;媒体型动作,则路径部分记录多媒体文件出现在课件中的坐标,数据 部分则记录多媒体文件的物理地址;数据型动作,则路径部分记录数据在课件中使用时的 坐标,数据部分写入该文件的完整二进制数据流。 综上所述,现有的网络教学方法和系统在实时同步显示和录制点播方面还存在W 下不足: 学生用户终端接收同屏数据的速度缓慢,教学过程不流杨,存在卡顿现象。运是因 为现有网络教学系统在传送同屏数据的过程中,多数采用视频流及教师根据自己的判断手 动屏幕截图的方式,导致学生用户终端用户数量过多的时候,需要传送大量数据,多并发进 行网络传送,经常出现速度缓慢,显示不流杨,数据卡顿的现象,影响到了学生的上课体验, 而且教师一边讲课一边还要考虑适时进行截屏操作,有时候会忘记截屏发送给学生,而学 生又无法判断有没有获得及时的截屏图像,影响教学效果。 具体来讲,存在的不足包括:1、录制过程繁琐,有些需要专人进行现场录制;2、视 频文件庞大,需要牺牲课件质量多次格式转换降低文件大小;3、服务器存储系统要求高;4、 本地录制要求用户端机器配置和性能较高,上传速度慢,实现回放困难;5、模拟系统角色耗 费服务器资源高,无法满足课堂的大并发网络录制要求;6、对点播回放流媒体服务器集群 性能要求高;7、点播回放要求服务器带宽高;8、点播回放要求用户自身带宽高(文件过大); 9、使用2G/3G/4G等无线网络观看时,卡顿严重,不够流杨,而且耗费流量高。 进一步的,当用户将文件下载到本地观看时,不仅占用大量存储空间,又不能保护 教学资源提供方的版权,造成教学资源的肆意传播,而如果进行复杂的加密处理又会占用 网络带宽资源和设备处理器资源,影响用户的体验。 此外本文档来自技高网...

【技术保护点】
一种语音评估方法,包括以下步骤:步骤1),语音信号的采集,形成待评估音频数据;步骤2),语音特征序列的提取,提取所述音频数据的3种特征:梅尔倒谱多高斯后验概率MGPP特征、音素后验概率PPP特征和基于音素持续时间的语音特征;步骤3),特征序列层面上的融合:分别融合所述PPP特征和所述基于音素持续时间的语音特征,得到融合后的PPP特征和融合后的基于音素持续时间的特征;由于PPP特征和基于音素持续时间特征都是基于5种不同语言的音素上提取的,所以每个基于音素的特征都会产生5种不同的子特征,最后融合5种子特征,得到最终的PPP特征和基于音素持续时间的语音特征;步骤4),评分层面上的融合:采用两层支持向量回归SVR来进行评分层面的融合;步骤5),性能评估:采用Spearman系数来体现机器评估打分与人类评价打分相关性,以此表示特征对于自动本地口音评估的有效性。

【技术特征摘要】

【专利技术属性】
技术研发人员:李明全小虎卢启伟徐永键
申请(专利权)人:深圳市鹰硕音频科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1