中文语音综合评分及诊断系统和方法技术方案

技术编号:27441231 阅读:18 留言:0更新日期:2021-02-25 03:49
本发明专利技术提供了中文口语评分系统和方法。在一个示例性方法中,用户朗读书面抄本,并记录用户的声音。然后将抄本的字符表示为带声调标记的拼音。将录音划分为与拼音音素匹配的单独音素。对于抄本的每个字符,确定录音中与该字符对应的音素的声调。通过将该声调与和该字符的拼音相关联的声调标记进行比较,将该声调评分为正确或不正确。还相对于抄本的字符的拼音的对应音素来对录音中每个音素的发音进行评分。字词和语句的进一步分数可以从声调和发音得分推出并通过反馈提供给用户。得分推出并通过反馈提供给用户。得分推出并通过反馈提供给用户。

【技术实现步骤摘要】
中文语音综合评分及诊断系统和方法


[0001]本专利技术涉及语音评分领域,并且更具体地涉及有声调语言的语音评分。

技术介绍

[0002]中文是一种有声调的语言,用音高来区分词义。中文发音由语音和声调特征组成。在语音特征方面,每个音节由声母、可能的介母和韵母组成。中文普通话中有五个声调。中文字词可以由多个字符组成,且字词边界由说话者隐式地推断。字词边界和上下文是确定正确的字符发音所必需的信息。
[0003]语音评分通过使用户叙述一组语句来评估一种语言说得好不好。语音评分采用计算机识别对应于已知文本的口语来评估语音质量(声母、介母和韵母)和声调质量。然而,许多现有的语音评分技术不单独处理声调特征,而是将声调作为语音特征的一部分处理。这可能使中文语音评分任务产生差的和不可靠的结果。
[0004]现有语音评分技术的其它问题包括:仅给出数字得分但不给出实用反馈。中文中的多音字符对准确的语音评分构成了又一挑战,因为这些字符的发音可能随着上下文改变。现有的基于IPA(国际音标字母)的音素集对于中文语音评分来说太精细。此外,中文中复韵母(compound-vowel finals)的存在使准确的中文语音评分进一步复杂化。
[0005]国际音标字母(IPA)用于任意语言的语音和音素转录。汉语IPA是用于大多数自动语音识别任务的最常见的语音注释音素集。汉语IPA使用IPA来表示普通话发音中的声母、介母和韵母,而不是声调。大多数普通话中的声母和介母一般与IPA保持一对一映射关系。然而,一些普通话中的韵母需要滑动元音(gliding vowel),例如ong、ang、ao和au,即两个相邻元音声在同一音节内的组合。因此,IPA音素和韵母的映射不是一对一的,因为一些韵母是其它韵母的一部分。
[0006]普通话中的多音字符提出了进一步挑战,因为一个字符可能具有两个或更多个发音,其在发音和声调上均可以变化,并且不同发音通常具有不同含义。对这些字符的正确发音的推断通常依赖于上下文信息,包括词义和声调变化规则。

技术实现思路

[0007]本专利技术通过将语音和声调特征作为两个分开处理的不同方面进行处理,解决了中文语音评分的独特方面。
[0008]在示例性方法中,将这两个方面的性能测量进行组合,并提供诊断反馈。音素与中文韵母的一对一映射确保了所有中文韵母之间的清晰切分。启发式拼音标签器解决了多音字符的问题,并且为多音字提供了更准确的机器生成语音(phonetic)注释。通过实施一对一的音素和韵母映射,可以检测复韵母发音错误。
附图说明
[0009]图1示出根据本专利技术各种实施例的语音评分系统的示例性架构。
[0010]图2是根据本专利技术各种实施例的由文本分割器执行的示例性方法示意图。
[0011]图3是根据本专利技术各种实施例的由拼音标签器执行的示例性方法示意图。
[0012]图4是根据本专利技术各种实施例的由语音评估器执行的示例性方法示意图。
[0013]图5是表示目标音素是录音中所说音素的可能性数值表,其中,人正确地说出了目标音素。
[0014]图6是表示目标音素是录音中所说音素的可能性数值表,其中,人没有正确地说出目标音素。
[0015]图7是根据本专利技术各种实施例的由声调评估器执行的示例性方法示意图。
[0016]图8是根据本专利技术各种实施例的由语音诊断单元执行的示例性方法示意图。
[0017]图9是根据本专利技术各种实施例的考虑发音优度得分和声调正确性得分两者的示例性语音评分方法示意图。
[0018]图10是根据本专利技术各种实施例的由语音诊断单元执行的示例性语句评分方法示意图。
[0019]图11示出中文元音图。
具体实施方式
[0020]本专利技术涉及用于帮助人们提高中文及其它有调语言口语的系统和方法。在一个示例性方法中,用户以该语言朗读抄本,并将用户的声音记录为数字录音。然后分析抄本,将抄本的字符表示为带声调标记的拼音。将录音划分为与抄本字符的拼音音素匹配的单独音素。对于抄本的每个字符,确定录音中与该字符对应的音素的声调。将该声调与和该字符的拼音相关联的声调标记进行比较。如果声调匹配,则该声调被评分为正确,否则该声调被评分为不正确。相对于抄本的字符的拼音的对应音素,对录音中每个音素的发音优度进行评分。根据音素的声调得分和发音优度得分,可以得出字符、字词和语句的各种得分。将这些得分以及潜在的改进反馈提供给用户。
[0021]图1是自动语音评分系统100的示例性架构示意图。系统100可以设置在例如服务器上,并且可以通过诸如互联网等网络与多个客户端设备通信。合适的客户端设备包括个人计算机和智能电话,其包括显示器和麦克风并且运行客户端应用程序。系统100包括处理器和存储计算机可读指令的非瞬时存储器,当由处理器执行所述计算机可读指令时,该计算机可读指令使得系统100执行下文所述的步骤。
[0022]系统100包括若干模块,包括自然语言处理(NLP)处理器110、语音评估器120、声调评估器130和语音诊断单元140。在操作中,人朗读抄本150,将其声音记录为音频文件160,通常是标准数字音频格式,如.WAV。在各种实施例中,抄本150可以由系统100提供并发送至客户端设备上的应用程序,或者可以由用户输入应用程序中。抄本150和朗读抄本150的人的记录音频160从客户端设备发送至系统100,并且成为由NLP处理器110接收的两个输入。NLP处理器110向语音评估器120和声调评估器130并行输出,并且这些输出中的每一个随后被馈送至语音诊断单元140。语音诊断单元140提供音频160的评分输出170。下面将更详细地讨论这些过程中的每一个。然后,评分输出170从系统100返回客户端设备,以便应用程序显示给用户。
[0023]NLP处理器110包括文本分割器180和拼音标签器190。文本分割器180接收抄本150
作为文本,例如作为原始汉字字符,并在其上执行文本分割,如参考图2更详细地讨论的。然后,如图3进一步所示,将分割文本提供给拼音标签器190,获取相关声调和语音信息形式的发音基础事实用于评分,该发音基础事实被分别发送至声调评估器120和语音评估器130。拼音标签器190输出字符级拼音。
[0024]参见图2,文本分割器180接收诸如抄本150等原始中文文本作为输入,并且输出由空格分开的分割文本200。下文的中文文本150示出中文语句的一个示例(“他们都是大学生吗?”)。文本分割器180是先前已经在人工注释分割文本的大语料库上训练过的机器学习模型。在一个实施例中,在中文抄本150的语料库上训练机器学习模型,其中,每个抄本150的每个中文字符已经用四个标签中的一个来标记。四个标签(B、M、E、S)表示作为开头、中间、结尾和单例(singletons)的字符。
[0025]文本分割器180采用一系列层。第一层210采用神经网络从抄本150自动提取可用于确定字词边界的特征。示例性的适当神经网络包括递归神经网络(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:通过服务器接收有调语言的抄本和朗读所述抄本的人的录音,所述抄本包括所述语言的多个字符,所述服务器包括处理器和存储有计算机可读指令的非瞬时存储器,当由所述处理器执行所述计算机可读指令时,所述计算机可读指令使得所述服务器执行所述方法的步骤;将所述抄本分割为包括所述抄本的字符和空格的分割文本;将所述分割文本转换为分割发音输出,所述分割发音输出包括第一文件和第二文件,所述第一文件针对所述抄本的每个字符具有没有声调标记的一个或多个拼音,所述第二文件针对所述抄本的每个字符具有带相关联的声调标记的相同拼音;确定所述录音中的音素边界,以标识所述边界之间的连续单个音素,并且对于这些单个音素中的每个,识别所述录音中的对应时间描述部分;对于所述第一文件中的每个拼音,将其每个音素与所述录音中的对应时间描述部分相匹配;对于所述抄本中的每个字符,确定所述第二文件中的对应的一个或多个拼音,并且确定与所述第二文件中的所述一个或多个拼音相对应的所述录音的一个或多个时间描述部分的声调;通过将音素与所述录音的所述对应时间描述部分中的音素进行比较,确定所述第一文件中每个拼音的每个音素的发音优度得分;通过将所述第二文件中字符的一个或多个拼音的所述声调标记与针对所述录音中的对应的一个或多个时间描述部分确定的所述声调进行比较,确定所述抄本中每个字符的声调正确性得分;以及确定所述抄本中每个字词的字词级得分,所述字词级得分基于所述发音优度得分和所述声调正确性得分。2.根据权利要求1所述的方法,其中,将所述抄本分割为所述分割文本包括识别所述抄本中的特征,然后标记所述抄本中的每个字符。3.根据权利要求2所述的方法,其中,所述抄本的每个字符被标记为开始、中间、结束或单例,并且其中,在每个结束字符之后和每个单例字符之后标识字词边界。4.根据权利要求1所述的方法,其中,将所述分割文本转换为分割发音输出由启发式拼音引擎执行。5.根据权利要求4所述的方法,其中,所述启发式拼音引擎采用RNN序列到序列模型。6.根据权利要求1所述的方法,其中,确定所述录音中的音素边界包括使用机器学习单元,所述机器学习单元被训练为识别音素以标识所述录音中的音素,并且被配置成为所述录音中的每个识别的音素标记开始时间和结束时间。7.根据权利要求6所...

【专利技术属性】
技术研发人员:陈启台陈铭龙杨棋宇钟振文宁格致
申请(专利权)人:庞帝教育公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1