一种可实时反馈用户朗读进度的语音跟踪方法,(1)输入待跟踪的文本;(2)根据所述文本搭建跟踪解码网络,并将跟踪解码网络、声学模型传给解码器;(3)实时提取声学特征序列,并实时传递给解码器;(4)解码器实时判断用户朗读的进度,同时检测用户是否朗读了文本外的内容;(5)实时显示跟踪进度。本发明专利技术解决了用户不按正常顺序朗读而无法正常跟踪的问题,提高了系统的抗环境噪音干扰能力,使语音朗读跟踪功能真正达到实用的水平。
【技术实现步骤摘要】
本专利技术涉及一种连续语音识别跟踪方法。本专利技术可实现在用户朗读固定文本时,实时获知用户朗读的文本内容,从而实现自动跟踪用户朗读文本的功能。
技术介绍
传统的口语评测和学习全部依赖于人,随着语音识别技术的发展和成熟,智能语音评测技术孕育而生,机器逐渐替代人进行口语评测和学习。智能语音评测技术涉及的知识领域包括语音技术、自然语言理解、人工智能、数据挖掘、机器学习等多学科知识,通过此技术可实现对发音人的口语水平进行评估,并根据评估结果指导发音人进行学习。例如一百易公司的互联网学习系统包含的英文句子评分功能,科大讯飞公司的畅言网包含的中文字词句的评分和音素检错功能以及英文文章的评分功能,目前的这些学习系统均能在朗读完成后给出反馈,但是在朗读过程中是没有交互的。在学习者进行口语练习的过程中,增加一些人机交互的过程会提高用户体验,增强学习者的兴趣。例如在用户朗读短文时,机器根据用户朗读内容实时高亮显示朗读文本的位置。传统的实现方法只对用户按文本顺序正常朗读的情况适用,而对用户不按文本顺序朗读或存在环境噪音干扰时,传统的实现方法无法正常进行朗读跟踪。本专利技术中介绍的方案能有效解决此类问题。现有的朗读跟踪技术是通过语音端点检测(Voice Activity Detection, VAD)技术找到语音开始点,检测到用户开始朗读后,匀速显示用户朗读的文本位置,其具体流程如图1所示,输入用户语音;VAD判断用户是否已经开始朗读;检测到开始位置;匀速告知用户朗读位置。现有技术在用户规范、匀速朗读的情况下,可以得到较好体验,但是在实际使用中,用户的行为是不可控制的,所以存在以下几个缺点(I)用户朗读的速度同系统预设的显示速度不一致时,体验效果很差;(2)用户没有严格按照文本的正常顺序朗读时(例如回读、漏读文本内容)会导致跟踪进度跟朗读进度不一致;(3)用户朗读预定内容外内容(下面统称为无关语音)时会导致跟踪进度跟朗读进度不一致;(4)用户开始朗读前存在环境噪音干扰时可能导致跟踪进度跟朗读进度不一致。综上所述,现有方法的最大缺点在于没有考虑到用户的朗读习惯,从而使用户体验效果较差。而本专利技术很好地解决了以上问题,它采用成熟的语音识别技术,可以使学习系统精确地识别出用户当前朗读的进度,并引入实时无关语音检测机制,有效地解决了在用户朗读预期内容外的内容时,无法智能识别的问题。极大地提高了用户的主观体验。
技术实现思路
本专利技术技术解决问题克服现有技术没有考虑到用户的朗读习惯和应用环境的复杂性方面的不足,提供,既解决了用户不按正常顺序朗读而无法正常跟踪的问题,又提高了系统的抗环境噪音干扰能力,使语音朗读跟踪功能真正达到实用的水平。本专利技术技术解决方案,实现步骤下(I)输入待跟踪的文本,并进行文本处理;(2)根据所述文本搭建跟踪解码网络,并将跟踪解码网络、声学模型传给解码器;所述声学模型是语音识别的基础数学模型,模型单元是基础数学模型的组成部分,它是音素、音节或字,目前主流的建模方式是采用隐马尔科夫建模。解码器是语音识别系统的核心之一,其任务是对输入的声学特征序列,根据声学模型、解码网络,寻找该声学特征序列对应的概率最大的语言单元序列;解码网络又称语法网络,是解码器的输入之一,解码网络限定了解码器输出语言单元序列的范围;(3)实时提取声学特征序列,所述声学特征序列是指声学特征中多个单元,每一个单元称为一帧,并实时传递给解码器;所述声学特征是描述短时语音本质特征的一组值,通常是一种固定维数的特征向量(如39维的MFCC特征向量);(4)解码器基于步骤(3)中输入的声学特征序列,在跟踪解码网络中对所有可能的网络路径进行搜索,每隔一定时间检查当前的搜索路径,并找出当前概率最优路径,基于此最优路径判断用户朗读进度,获取当前朗读内容在文本中的位置和状态;同时结合最大路径中发音单元的概率信息检测用户是否朗读了文本外的内容;(5)根据步骤(4)中反馈的当前朗读内容在文本中的位置和状态,实时显示跟踪进度;所述步骤(2)中搭建跟踪解码网络的过程如下(21)获取文本处理步骤中得到的朗读文本模型单元序列,所述模型单元序列是指多个模型单元按顺序排列在一起称为模型单元序列;(22)计算节点和连接弧的数目,分配内存,即根据模型单元序列个数计算跟踪解码网络中的空节点、朗读文本模型单元节点、无关语音模型单元节点及连接弧个数,并为这些节点和弧分配存储单元;(23)构造无关语音吸收网络,即将无关语音吸收网络中的关联节点用弧进行连接;(24)将朗读文本模型单元节点、空节点、无关语音吸收网络通过弧连接。所述步骤(4)中找出当前概率最优路径的过程为(41)取出解码器上一次输出的最优路径,若模型单元中为字,则此处的路径即为朗读文本序列,若模型单元为音素或音节,则需要将其解析成朗读文本序列;(42)获取解码器当前输出的最优路径,并解析成朗读文本序列,将新的朗读文本序列与上一次的朗读文本序列进行差异比较;(43)根据步骤(42)中的文本序列差异,标记每个字的状态,所述每个字的状态包括UNREAD、CHECKING、HASREAD, UNREAD表明前面抛出过该字已朗读,但是在后期的检查中发现用户没有朗读该字,需取消前面的判断;CHECKING表明用户正在朗读该字,且尚未朗读完整;HASREAD表明用户已朗读了该字;(44)得到最优路径,并保存(42)中获取的最优路径供下一次差异比较。所述步骤(3)中声学特征包括梅尔倒谱系数MFCC、倒谱系数CEP、线性预测系数LPC或感知线性预测系数PLP。所述步骤(4)中解码器包括Viterbi解码,或是基于动态时间规整(DTW)的解码。所述步骤第(2)构建跟踪解码网络时,根据应用需要构造不同结构的跟踪解码网络,包括调整节点间跳转的灵活性、连接弧的惩罚。本专利技术与现有技术相比的优点在于(I)本专利技术充分考虑了用户的朗读习惯,分析用户在朗读过程中可能出现的不按文本正常顺序朗读的情况,这些情况主要包括回读对已经读过的内容再重复朗读一遍或多遍;漏读跳过当前应该朗读的内容而读后面的内容;增读额外朗读一些文本内内容或文本外内容;本专利技术构建了灵活的跟踪解码网络,任何文字间均可重复跳转,用户不按文本正常顺序朗读也能精确、实时地判断出当前朗读的位置,极大提高了系统的可用性。(2)用户朗读预定内容外内容不影响正常跟踪进度。由于本专利技术构建的跟踪解码网络中加入了无关语音吸收网络,这种网络包含静音模型单元节点和无关语音模型单元节点,其中静音模型单元节点能吸收非人声语音,无关语音模型单元节点采用混合人声语音训练能吸收预定内容外内容,因此朗读预定内容外内容时,系统能够检测出来。(3)抗环境噪音干扰能力更强。优点(2)中提到的跟踪解码网络中加入了无关语音吸收网络,由于无关语音模型的训练数据中加入了各种实际应用场景的噪音数据,因此无关语音吸收网络对环境噪音干扰具有一定的吸收作用,此优点可以保证用户在存在环境噪音干扰的场所使用也能达到同样的效果,提高了系统的鲁棒性。(4)本专利技术采用解码器智能判断用户朗读进度,从根本上区别于现有技术采用的按固定时间显示用户朗读进度的方法,因此本专利技术无需提前预设显示速度。附图说明图1为现有技术的实现流程图;图2为本专利技术实现流程图;图3为本专利技术跟踪网络构建流本文档来自技高网...
【技术保护点】
一种可实时反馈用户朗读进度的语音跟踪方法,其特征在于实现步骤如下:(1)输入待跟踪的文本,并进行文本处理;(2)根据所述文本搭建跟踪解码网络,并将跟踪解码网络、声学模型传给解码器;所述声学模型是语音识别的基础数学模型,模型单元是基础数学模型的组成部分,可以是音素、音节或字;(3)实时提取声学特征序列,所述声学特征序列是指声学特征中多个单元,每一个单元称为一帧,并实时传递给解码器;所述声学特征是描述短时语音本质特征的一组值;(4)解码器基于步骤(3)中输入的声学特征序列,在跟踪解码网络中对所有可能的网络路径进行搜索,每隔一定时间检查当前的搜索路径,并找出当前概率最优路径,基于此最优路径判断用户朗读进度,获取当前朗读内容在文本中的位置和状态;同时结合最大路径中发音单元的概率信息检测用户是否朗读了文本外的内容;(5)根据步骤(4)中反馈的当前朗读内容在文本中的位置和状态,实时显示跟踪进度;所述步骤(2)中搭建跟踪解码网络的过程如下:(21)获取文本处理步骤中得到的朗读文本模型单元序列,所述模型单元序列是指多个模型单元按顺序排列在一起称为模型单元序列;(22)计算节点和连接弧的数目,分配内存,即根据模型单元序列个数计算跟踪解码网络中的空节点、朗读文本模型单元节点、无关语音模型单元节点及连接弧个数,并为这些节点和弧分配存储单元;(23)构造无关语音吸收网络,即将无关语音吸收网络中的关联节点用弧进行连接;(24)将朗读文本模型单元节点、空节点、无关语音吸收网络通过弧连接。...
【技术特征摘要】
1.一种可实时反馈用户朗读进度的语音跟踪方法,其特征在于实现步骤如下 (1)输入待跟踪的文本,并进行文本处理; (2)根据所述文本搭建跟踪解码网络,并将跟踪解码网络、声学模型传给解码器;所述声学模型是语音识别的基础数学模型,模型单元是基础数学模型的组成部分,可以是音素、音节或字; (3)实时提取声学特征序列,所述声学特征序列是指声学特征中多个单元,每一个单元称为一帧,并实时传递给解码器;所述声学特征是描述短时语音本质特征的一组值; (4)解码器基于步骤(3)中输入的声学特征序列,在跟踪解码网络中对所有可能的网络路径进行搜索,每隔一定时间检查当前的搜索路径,并找出当前概率最优路径,基于此最优路径判断用户朗读进度,获取当前朗读内容在文本中的位置和状态;同时结合最大路径中发音单元的概率信息检测用户是否朗读了文本外的内容; (5)根据步骤(4)中反馈的当前朗读内容在文本中的位置和状态,实时显示跟踪进度; 所述步骤(2)中搭建跟踪解码网络的过程如下 (21)获取文本处理步骤中得到的朗读文本模型单元序列,所述模型单元序列是指多个模型单元按顺序排列在一起称为模型单元序列; (22)计算节点和连接弧的数目,分配内存,即根据模型单元序列个数计算跟踪解码网络中的空节点、朗读文本模型单元节点、无关语音模型单元节点及连接弧个数,并为这些节点和弧分配存储单元; (23)构造无关语音吸收网络,即将无关语音吸收网络中的关联节点用弧进行连接; (24)将朗读文本模型单元节点、空节点、无关语音吸收网络通过弧连接...
【专利技术属性】
技术研发人员:潘颂声,赵乾,吴玲,何春江,王兵,朱群,
申请(专利权)人:安徽科大讯飞信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。