具备多读音纠错功能的语言学习系统技术方案

技术编号:38194080 阅读:22 留言:0更新日期:2023-07-20 21:13
本发明专利技术提供一种具备多读音纠错功能的语言学习系统,以运行在一数据处理服务器上的一音频质量检测系统,侦测用户朗读一文本的一音频的多读音,以提示用户进行纠正。以提示用户进行纠正。以提示用户进行纠正。

【技术实现步骤摘要】
具备多读音纠错功能的语言学习系统


[0001]本专利技术关于语言学习系统,特别有关于口说的音频质量检测(Goodness of pronunciation,简称GOP)。

技术介绍

[0002]随着计算机的技术发展,语言学习系统功能越来越强大。使用者可准备各种文本进行口说训练。系统可对用户录音的完整度、流畅度、准确度

等进行评分反馈,帮助用户提升口语。此功能称为音频质量检测(GOP)。
[0003]如何提升音频质量检测(GOP)的可信度,还帮助用户改善口说,为本
一项重大课题。

技术实现思路

[0004]本专利技术提出一种具备多读音纠错功能的语言学习系统,包括运行在一数据处理服务器上的一音频质量检测(GOP)系统,侦测用户朗读文本的一音频的多读音,以提示用户进行纠正。运行在该数据处理服务器上的一数据预处理系统可包括一标注系统、以及一音频预处理系统,用以根据该文本、以及该音频,分别产生标注、以及一音频数据。该音频质量检测(GOP)系统是基于该标注、以及该音频数据,判别该音频相对该文本是否有多读音。
[0005]一种实施方式中,该音频质量检测(GOP)系统运行:一强制对齐系统;以及一无效帧判别系统。该强制对齐系统令该音频数据强制对齐包括文本音素序列的该标注,产生一强制对齐结果,显示该音频各帧对应该文本音素序列中的哪些音素,且属所对应帧的哪个状态。该无效帧判别系统自该强制对齐结果,判别该音频数据中,无法对齐该文本音素序列的无效帧,是否对应多读音。
[0006]一种实施方式中,该音频数据中无法对齐该文本音素序列的一连串无效帧的帧数超过一多读音判别阈值时,该无效帧判别系统判别该一连串无效帧对应多读音。
[0007]一种实施方式中,该多读音判别阈值取决于该音频的采样率。
[0008]一种实施方式中,该音频质量检测(GOP)系统还运行一语音活动检测(voice activity detection简称VAD)系统。该语音活动检测(VAD)系统以深度学习的一循环神经网络为该音频数据过滤噪音。
[0009]一种实施方式中,该多读音判别阈值取决于该语音活动检测系统的算法。
[0010]一种实施方式中,该音频质量检测(GOP)系统还运行一多读音语音识别系统。该多读音语音识别系统响应该无效帧判别系统判别该一连串无效帧对应多读音,辨识该一连串无效帧的音素,继而分析出多读内容。
[0011]一种实施方式中,语言学习系统还包括一人机接口,由客户端装置运行,供用户选择文本进行朗读录音,并上传该文本、以及该音频至该数据处理服务器。运行在该数据处理服务器上的该音频质量检测(GOP)系统将多读内容、或多读提示,通过网络回传并经该人机接口,提示给用户。
[0012]一种实施方式中,该音频质量检测系统还包括一后验概率计算系统、以及一指定级别音频质量打分系统,基于该强制对齐结果,进行后验概率计算,继而实现该音频特定级别的打分,以通过网络回传通知,经该人机接口,提示用户。侦测到的多读音可反映在打分上。
[0013]下文特举实施例,并配合所附图示,详细说明本
技术实现思路

附图说明
[0014]图1图解一种语言学习系统100;
[0015]图2以方块图图解一特定单词的音频

标注模型的实施架构;
[0016]图3以方块图图解句子

标注模型128的一种实施架构;
[0017]图4根据本专利技术一种实施方式图解标注系统112的工作流程;
[0018]图5图解语言模型502、以及声学模型504的一种建立方式;
[0019]图6图解音频质量检测(GOP)系统120的一种实施方式,其中即应用了图5训练出的语言模型502、以及声学模型504;
[0020]图7图解一种语言学习系统700;
[0021]图8图解具备多读音纠错功能的音频质量检测(GOP)系统720的一种实施方式;以及
[0022]图9为具备多读音纠错功能的音频质量检测(GOP)系统720运作的流程图。
[0023]其中,附图中符号的简单说明如下:
[0024]100:语言学习系统;102:文本;104:音频;106:应用程序或网页(人机界面);108:数据处理服务器;110:数据预处理系统;112:标注系统;114:音频预处理系统;116:标注;118:音频数据;120:音频质量检测系统;121:打分结果;122:词典;124:人工智能模型;126:一组音频

标注模型;128:句子

标注模型;202:输入层,音频输入;204:特征提取层,提取MFCCs特征;206:归一化层,将MFCCs特征归一化;208:深度神经网络(DNN);210:全连接层;212:输出层,标注输出;302:功能方块,根据句子文本特点,构建句子向量;304:功能方块,判断是否要分词;306:分词系统;308:备妥输入向量(训练阶段则还备妥输出向量);310:嵌入层;312:编码器用的长短期记忆(LSTM)网络;314:解码器用的长短期记忆(LSTM)网络;316:全连接层;318:Softmax激活函数;S402

S420:步骤;502:语言模型;504:声学模型;506:语言模型构建系统;508:声学模型构建系统;510:训练文本;512:标准发音的音频;514:训练用标注;516:训练用音频数据;602:强制对齐模块;604:后验概率计算模块;606:音素级别音频质量打分模块;700:语言学习系统;702:文本;704:音频;706:应用程序或网页(人机界面);708:数据处理服务器;710:数据预处理系统;712:标注系统;714:音频预处理系统;716:标注;718:音频数据;720:具备多读音纠错功能的音频质量检测系统;802:语言模型;804:声学模型;806:语音活动检测系统;808:循环神经网络;810:强制对齐系统;812:后验概率计算系统;814:指定级别音频质量打分系统;816:无效帧判别系统;818:多读音语音辨识系统;S902

S912:步骤。
具体实施方式
[0025]以下叙述列举本专利技术的多种实施例,但并非意图限制本
技术实现思路
。实际专利技术范围
应依照申请专利范围界定之。
[0026]图1图解一种语言学习系统100。用户端装置(例如,手机、平板、个人计算机)上可运行应用程序/网页106之类的人机界面。用户即通过此应用程序/网页106选择文本102进行朗读录音,产生该音频104。文本102以及音频104可通过应用程序/网页106上传一数据处理服务器108,交予该数据处理服务器108上运行的一数据预处理系统110处理。数据预处理系统110包括标注系统112、以及音频预处理系统114,分别产生标注116、以及音频数据(计算机可以处理的数字信号,如,语音特征序列)118。该数据处理服务器108上还运行一音频质量检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具备多读音纠错功能的语言学习系统,其特征在于,包括:运行在数据处理服务器上的音频质量检测系统,侦测用户朗读文本的音频的多读音,以提示用户进行纠正。2.根据权利要求1的具备多读音纠错功能的语言学习系统,还包括:运行在该数据处理服务器上的数据预处理系统,该数据预处理系统包括标注系统、以及音频预处理系统,用以根据该文本、以及该音频,分别产生标注、以及音频数据;该音频质量检测系统基于该标注、以及该音频数据,判别该音频相对该文本是否有多读音。3.根据权利要求2的具备多读音纠错功能的语言学习系统,其中,该音频质量检测系统运行:强制对齐系统,令该音频数据强制对齐包括文本音素序列的该标注,产生强制对齐结果,显示该音频各帧对应该文本音素序列中的哪些音素,且属所对应音素的哪个状态;无效帧判别系统,自该强制对齐结果,判别该音频数据中,无法对齐该文本音素序列的无效帧,是否对应多读音。4.根据权利要求3的具备多读音纠错功能的语言学习系统,其中:在该音频数据中无法对齐该文本音素序列的一连串无效帧的帧数超过多读音判别阈值时,该无效帧判别系统判别该一连串无效帧对应多读音。5.根据权利要求4的具备多读音纠错功能的语言学习系统,其中:在该一连串无效帧的帧数不超过该多读音判别阈值时,该无效帧判别系统判别该一连串无效帧为静音。6.根据权利要求4的具备多读音纠错功能的语言学习系统,其中:该多读音判别阈值取决于该音频的采样率。7.根据权利要求4的具备多读音纠错功能的语言学习系统,其中,该音频质量检测系统还运行:语音活动检测系统,以深度学习的循环神经网络为该音频数据过滤噪音。8.根据权利要求7的具备多读音纠错功能的语言学习系统,其中:该多读音判别阈值取决于该语音活动检测系统的演算法。9.根据权利要求4的具备多读音纠错功能的语言学习系统,其中:该多读音判别阈值为15。10.根据权利要求3的具备多读音纠错功能的语言学习系统,其中:该音频数据中无法对齐该文本音素序列的无效帧,在该强制对齐结果中,以特定数字表示。11.根据权利要求10的具备多读音纠错功能的语言学习系统,其中:该强...

【专利技术属性】
技术研发人员:郭晶晶刘恕
申请(专利权)人:威盛电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1