【技术实现步骤摘要】
本专利技术涉及计算机辅助语言学习和语音识别
,具体涉及一种音素级(phonetic-level)的低功耗口语评价及缺陷诊断方法。音素级别的技术使得评分与反馈能够细化到音素级别:在用户读了一系列文本之后,能够识别出来那些阻碍用户发音纯正的核心音素,从而提供相应的培训材料并进行针对性的练习。可适应于英语、汉语、西班牙语等语言的学习,以及对语言障碍患者的诊断与评测。
技术介绍
语言的学习在于模仿,尤其是语音方面。以英语为例,为了练就纯正的口语,最好的办法就是跟读母语为英语的纯正发音,现有的很多教程或辅导材料就是以此构建。大体上,这些教材只提供纯正样本发音,而由学生自己判定自己的发音与标准读音之间的差别,并进而自己决定如何改进。这种方法的局限性如下: 1、由于自己听自己声音和别人听到的声音存在差别,学生对自己声音的感知和他人的感知不同,所以无法客观的评分自己发音的质量。 2、借助录音可以弥补上述缺陷,但是来回在录音之间进行切换比较造成不必要的麻烦,降低了学习效率,这是各种复读机所采用的方案。 3、即使不考虑上述因素,学生自己(乃至老师)的评定仍然是主观定性的,无法做到客观的量化评定,并且学生不知道如何改进。由于用户不能准确地辨别自己的发音缺陷,也不能进行针对性的练习。
技术实现思路
针对现有技术存在 ...
【技术保护点】
一种无需标准读音的音素级的低功耗口语评价方法,其特征在于,包括如下步骤:(1)对用户语音进行声学特征提取,得到每一帧对应的特征向量,进而得到与用户语音所对应的特征向量序列;(2)对于给定的文本,它对应一个音素序列,记做pall={sil,p1,sil,p2,sil,p3,sil,...,p(M‑1),sil,pM,sil},其中sil代表停顿音,基于加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作,得到特征向量序列到上述音素序列pall的对齐α,此对齐α的计数向量记做β={ns0,n1,ns1,n2,ns2,n3,ns3,...,n(M‑1),ns(M‑1),nM,nsM},其中ni表示对应于第i个非停顿音音素的帧的数量,nsi表示对应于第i+1个停顿音的帧的数量,M是此样本文本对应的非停顿音音素的数量,上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时,也给出了每个特征向量所对应的HMM状态;其中Q=πε(min(det(Hοdet(Cοdet(LοG))))),其中的min表示有关加权有限状态转换器的最小化操作,det表示 ...
【技术特征摘要】
2014.04.16 CN 201410151506.21.一种无需标准读音的音素级的低功耗口语评价方法,其特征在
于,包括如下步骤:
(1)对用户语音进行声学特征提取,得到每一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。