一种评价语音音素正确性的方法、装置、设备及存储介质制造方法及图纸

技术编号:21895751 阅读:26 留言:0更新日期:2019-08-17 16:02
本发明专利技术公开了一种评价语音音素正确性的方法,通过获取针对预定文本录入的音频数据,该预定文本中至少包含一个目标音素;从音频数据中解析出目标音素对应的实际发音数据;对实际发音数据的音素正确性指标进行评价,生成反映目标音素发音正误情况的反馈信息。本申请所提供的方法能够详细反馈音素级别发音的正误情况,帮助用户把握音素发音准确性,提高学习的效率,提升学习的效果。并且,采用本申请在练习发音时,用户不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行相关的练习。此外,本申请还提供了一种具有上述技术效果的评价语音音素正确性的装置、设备以及计算机可读存储介质。

A Method, Device, Equipment and Storage Medium for Evaluating the Correctness of Phonemes

【技术实现步骤摘要】
一种评价语音音素正确性的方法、装置、设备及存储介质
本专利技术涉及语音
,特别是涉及一种评价语音音素正确性的方法、装置、设备以及计算机可读存储介质。
技术介绍
随着科学技术的发展,基于互联网的语言学习应用也得到了快速的发展。在一些语言学习应用中,应用提供商通过互联网将学习材料发送到客户端,用户经由客户端获取学习材料,进行对应的学习。对于语言学习,除了学习语法和词汇之外,发音能力是其中最重要的能力之一。通常情况下,用户会通过朗读、跟读等方式来提升自身的发音能力。然而,多数情况下用户无法得知自身发音是否准确。现有的方案为对练习的语音进行评价时,通常都是对单个音标或者整个单词、句子进行打分,用户仅能得到针对整个单词、句子的笼统的评价信息,并不能够获知在单词和句子场景下单个音素发音是否准确的信息,导致学习针对性差、学习效率不高、效果较差的问题。
技术实现思路
本专利技术的目的是提供一种评价语音音素正确性的方法、装置、设备以及计算机可读存储介质,以解决现有方案学习效率较低、学习效果较差的问题。为解决上述技术问题,本专利技术提供一种评价语音音素正确性的方法,包括:获取针对预定文本录入的音频数据,所述预定文本中至少包含一个目标音素;从所述音频数据中解析出所述目标音素对应的实际发音数据;对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息。可选地,所述从所述音频数据中解析出所述目标音素对应的实际发音数据包括:通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置,从对应位置处提取出所述目标音素对应的实际发音数据。可选地,所述对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息包括:计算所述目标音素对应的实际发音数据的后验概率评价指标;计算所述目标音素对应的实际发音数据的时长评价指标;将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中,得到所述实际发音数据的音素正确性指标;将所述音素正确性指标与预设阈值比较,当所述音素正确性指标高于所述预设阈值时,生成所述目标音素发音为正确的反馈信息;否则,生成所述目标音素发音为错误的反馈信息。可选地,所述计算所述目标音素对应的实际发音数据的后验概率评价指标包括:计算所述音频数据中每一个音素的似然度得分;将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分,得到所述目标音素对应的实际发音数据的后验概率评价指标。可选地,所述计算所述目标音素对应的实际发音数据的时长评价指标包括:预先在标准发音数据上统计每一个音素的音素时长,通过高斯模型建立表征音素时长与时长评价指标的对应关系;确定所述目标音素对应的实际发音数据的音素时长;根据高斯模型确定当前音素时长所对应的时长评价指标。可选地,在所述生成反映所述目标音素发音正误情况的反馈信息之后还包括:通过显示界面的视觉元素展示所述反馈信息,和/或通过特定音效提示所述反馈信息。本申请还提供了一种评价语音音素正确性的装置,包括:获取模块,用于获取针对预定文本录入的音频数据,所述预定文本中至少包含一个目标音素;解析模块,用于从所述音频数据中解析出所述目标音素对应的实际发音数据;生成模块,用于对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息。本申请还提供了一种评价语音音素正确性的设备,应用于服务端,所述设备包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如下步骤:获取针对预定文本录入的音频数据,所述预定文本中至少包含一个目标音素;从所述音频数据中解析出所述目标音素对应的实际发音数据;对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息。本申请还提供了一种评价语音音素正确性的设备,应用于客户端,所述设备包括:音频采集装置,用于录入针对预定文本的音频数据;通信装置,用于将所述音频数据发送至服务端,以便所述服务端从所述音频数据中解析出所述目标音素对应的实际发音数据;对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息;并且接收所述服务端发送的反馈信息;显示装置,用于将所述反馈信息在显示界面上进行显示。本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述评价语音音素正确性的方法的步骤。本专利技术所提供的评价语音音素正确性的方法,通过获取针对预定文本录入的音频数据,该预定文本中至少包含一个目标音素;从音频数据中解析出目标音素对应的实际发音数据;对实际发音数据的音素正确性指标进行评价,生成反映目标音素发音正误情况的反馈信息。本申请所提供的方法能够详细反馈音素级别发音的正误情况,帮助用户把握音素发音准确性,提高学习的效率,提升学习的效果。并且,采用本申请在练习发音时,用户不需要老师当面进行真人教学示范或纠正,因此克服了学习时间和空间的限制,用户可以随时随地进行相关的练习。此外,本申请还提供了一种具有上述技术效果的评价语音音素正确性的装置、设备以及计算机可读存储介质。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请所提供的评价语音音素正确性的方法的一种具体实施方式的流程图;图2为生成反映所述目标音素发音正误情况的反馈信息的过程流程图;图3为本申请所提供的评价语音音素正确性的方法的另一种具体实施方式的流程图;图4为音素练习正误反馈视觉化展现的示例图;图5为本专利技术实施例提供的评价语音音素正确性的装置的结构框图;图6为本专利技术实施例提供的评价语音音素正确性的设备应用于服务端的结构框图;图7为本专利技术实施例提供的评价语音音素正确性的设备应用于客户端的结构框图;图8为本专利技术实施例提供的评价语音音素正确性的系统的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“本文档来自技高网
...

【技术保护点】
1.一种评价语音音素正确性的方法,其特征在于,包括:获取针对预定文本录入的音频数据,所述预定文本中至少包含一个目标音素;从所述音频数据中解析出所述目标音素对应的实际发音数据;对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息。

【技术特征摘要】
1.一种评价语音音素正确性的方法,其特征在于,包括:获取针对预定文本录入的音频数据,所述预定文本中至少包含一个目标音素;从所述音频数据中解析出所述目标音素对应的实际发音数据;对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息。2.如权利要求1所述的评价语音音素正确性的方法,其特征在于,所述从所述音频数据中解析出所述目标音素对应的实际发音数据包括:通过强制切分对齐匹配出所述目标音素在所述音频数据中的开始结束位置,从对应位置处提取出所述目标音素对应的实际发音数据。3.如权利要求1或2所述的评价语音音素正确性的方法,其特征在于,所述对所述实际发音数据的音素正确性指标进行评价,生成反映所述目标音素发音正误情况的反馈信息包括:计算所述目标音素对应的实际发音数据的后验概率评价指标;计算所述目标音素对应的实际发音数据的时长评价指标;将所述后验概率评价指标以及所述时长评价指标输入至预先建立的评价模型中,得到所述实际发音数据的音素正确性指标;将所述音素正确性指标与预设阈值比较,当所述音素正确性指标高于所述预设阈值时,生成所述目标音素发音为正确的反馈信息;否则,生成所述目标音素发音为错误的反馈信息。4.如权利要求3所述的评价语音音素正确性的方法,其特征在于,所述计算所述目标音素对应的实际发音数据的后验概率评价指标包括:计算所述音频数据中每一个音素的似然度得分;将所述目标音素对应的实际发音数据的似然度得分除以所有音素的似然度得分,得到所述目标音素对应的实际发音数据的后验概率评价指标。5.如权利要求4所述的评价语音音素正确性的方法,其特征在于,所述计算所述目标音素对应的实际发音数据的时长评价指标包括:预先在标准发音数据上统计每一个音素的音素时长,通过高斯模型建立表征音素时长与时长评价指标的对应关...

【专利技术属性】
技术研发人员:刘晨晨沈欣尧余津锐杨晓飞蒋成林梁球斌高前勇刘扬唐义哲
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1