发音检错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21550177 阅读:23 留言:0更新日期:2019-07-06 22:50
本发明专利技术实施例公开了一种发音检错方法、装置、电子设备及存储介质,其中方法包括:基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元;将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段;计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度;依据相似度计算结果,判断用户的错误发音单元。本发明专利技术实施例实现了在多个级别进行发音检错,提高了定位用户错误发音单元的准确性。

Pronunciation error detection methods, devices, electronic devices and storage media

【技术实现步骤摘要】
发音检错方法、装置、电子设备及存储介质
本专利技术实施例涉及语音识别
,尤其涉及一种发音检错方法、装置、电子设备及存储介质。
技术介绍
在英文学习的过程中,口语练习,需要时常纠正发音,在这一过程中,需要正确评价每个音节甚至每个元音,辅音的发音。目前,在英文发音评测系统中,用户待输入的语音数据所对应的文本是已知的,系统得到音频后,将录入音频和相应文本进行强制对齐,以确定文本的每个音素(即单个音标)对应的音频片段,并将各音频片段与标准音素集进行似然计算,根据各音素的似然得分直接确定每个音素的发音效果。然而,现有的英文发音评测系统仍存在一定的不足:在强制对齐过程中,每个音素的持续时间短,且在时序上受前后发音影响,只根据某个音素的评分直接确定该音素的发音质量是不准确的。
技术实现思路
本专利技术实施例提供了一种发音检错方法、装置、电子设备及存储介质,以解决现有技术中存在的,仅根据单个音素的评分直接判定该音素发音质量时,判定准确性低的技术问题。第一方面,本专利技术实施例提供了一种发音检错方法,包括:基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元;将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段;计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度;依据相似度计算结果,判断用户的错误发音单元。第二方面,本专利技术实施例还提供了一种发音检错装置,包括:拆分模块,用于基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元;对齐处理模块,用于将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段;相似度计算模块,用于计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度;检错模块,用于依据相似度计算结果,判断用户的错误发音单元。第三方面,本专利技术实施例还提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的发音检错方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例所述的发音检错方法。本专利技术实施例提供了一种发音检错方法、装置、电子设备及存储介质,通过预设拆分规则将目标词句拆成不同时长的发音单元,并计算不同时长的发音单元各自对应的标准音和用户发音之间的相似度,并根据相似度结果确定错误发音单元。由此实现了在多个级别进行发音检错,提高了定位用户错误发音单元的准确性。附图说明图1是本专利技术实施例一提供的一种发音检错方法的流程示意图;图2是本专利技术实施例二提供的一种发音检错方法的流程示意图;图3是本专利技术实施例三提供的一种发音检错装置的结构示意图;图4是本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种发音检错方法的流程图,本实施例可适用于帮助用户进行纠正发音的情况,该方法可以由相应的发音检错装置执行,该装置可以采用软件和/或硬件的方式实现,并可配置于电子设备上。如图1所示,本专利技术实施例中提供的发音检错方法可以包括:S110、基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元。其中,不同时长的发音单元包括音素、音节和/或单词,音素为单个音标,音节包括至少两个相邻的音素。因此通过预设拆分规则对目标词句进行拆分处理后,可以得到多个音素级别的发音单元、多个音节级别的发音单元以及单词级别的发音单元。具体的,可按照如下操作进行拆分:(1)基于不拆分原则,保留目标词句,将目标词句作为发音单元。和/或(2)基于可回溯的元音切分原则,依次遍历目标词句的音标,遇到元音则在该元音后加入切分标记,遇到辅音且该辅音后没有元音,则将前一个切分标记删除,并在所述辅音后加入切分标记,根据切分标记确定目标词句的不同时长的发音单元。和/或(3)基于不可回溯的元音切分原则,依次遍历目标词句的音标,遇到元音则在该元音后加入切分标记,遇到辅音且该辅音后没有元音,则在该辅音后加入切分标记,根据切分标记确定目标词句的不同时长的发音单元。和/或(4)基于全切分原则,将目标词句的每个音标后加入切分标记,根据切分标记确定目标词句的发音单元。示例性的,按照上述操作对单词进行拆分。得到音素级别的发音单元为:jellyfish_ε、jellyfish_l、jellyfish_i、jellyfish_f、下划线右部的字符为音素。得到音节级别的发音单元为:jellyfish_li、下划线右部的字符为音节。得到单词级别的发音单元为:jellyfish。S120、将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段。示例性的,利用语音识别技术对用户朗读目标词句的音频数据进行识别,获取该音频数据对应的识别文本,以S110获取到的不同时长的发音单元为对齐标准,从识别文本中确定与不同时长的发音单元各自对齐的目标识别文本片段,根据目标识别文本片段确定其对应的音频片段。以单词为例,通过对齐处理,可确定该单词每个音素级别的发音单元和每个音节级别的发音单元各自对应的音频片段。而完整的音频数据为单词级别发音单元对应的音频。S130、计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度。为了判断用户发音的准确性,可预先获取确定的不同时长的发音单元的标准音频,并计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度,以便根据相似度确定各发音单元的准确度。示例性的,可通过对不同时长的发音单元各自对应的音频片段与不同时长的发音单元的标准音频进行似然计算,确定不同时长的发音单元各自的似然得分,以似然得分衡量各发音单元的准确度。以单词为例,通过似然计算,确定各发音单元的似然得分,详见表1。S140、依据相似度计算结果,判断用户的错误发音单元。示例性的,可通过依次遍历目标词句的每个音素,判定各音素的似然得分是否满足预设条件;将不满足预设条件的因素确定为错误发音的音素。其中,预设条件包括:音素的似然得分小于预设阈值,并且包括该音素的最短音节的似然得分小于预设阈值。其中预设阈值可根据实际情况设置,最短音节示例性的为该音素和与其相邻的一个音素组成。以表1为例,预设阈值为4500分,在持续时间最短的单音素中有如下三个音素得分小于预设阈值:jellyfish_l,jellyfish_i,进一步的,针对包含该音素的最短音节得分也小于预设阈值,因此判断音素发音错误。针对jellyfish_l,jellyfish_i,包含该音素的最短音节jellyfish_li,得分大于预设阈值,这里需要说明的是,每个音素在时序上本文档来自技高网...

【技术保护点】
1.一种发音检错方法,其特征在于,所述方法包括:基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元;将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段;计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度;依据相似度计算结果,判断用户的错误发音单元。

【技术特征摘要】
1.一种发音检错方法,其特征在于,所述方法包括:基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元;将用户朗读目标词句的音频数据和所述不同时长的发音单元进行对齐处理,确定所述不同时长的发音单元各自对应的音频片段;计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度;依据相似度计算结果,判断用户的错误发音单元。2.根据权利要求1所述的方法,其特征在于,基于预设拆分规则对目标词句进行拆分处理,得到所述目标词句的不同时长的发音单元,包括:保留目标词句,将目标词句作为所述发音单元;和/或依次遍历目标词句的音标,遇到元音则在所述元音后加入切分标记,遇到辅音且所述辅音后没有元音,则将前一个切分标记删除,并在所述辅音后加入切分标记,根据所述切分标记确定所述目标词句的不同时长的发音单元;和/或依次遍历目标词句的音标,遇到元音则在所述元音后加入切分标记,遇到辅音且所述辅音后没有元音,则在所述辅音后加入切分标记,根据所述切分标记确定所述目标词句的不同时长的发音单元;和/或将目标词句的每个音标后加入切分标记,根据所述切分标记确定所述目标词句的发音单元;相应的,所述不同时长的发音单元包括音素、音节和/或单词,所述音素为单个音标,所述音节包括至少两个相邻的音素。3.根据权利要求1所述的方法,其特征在于,所述计算所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频之间的相似度包括:对所述不同时长的发音单元各自对应的音频片段与所述不同时长的发音单元的标准音频进行似然计算,确定所述不同时长的发音单元各自的似然得分。4.根据权利要求3所述的方法,其特征在于,所述依据相似度计算结果,判断用户的错误发音单元,包括:依次遍历目标词句的每个音素,判定各音素的似然得分是否满足预设条件;将不满足所述预设条件的因素确定为错误发音的音素;其中,所述预设条件包括,音素的似然得分小于预设阈值,并且音素的最短音节的似然得分小于预设阈值。5.根据权利要求4所述的方法,其特征在于,在依次遍历目标词句的每个音素之前,所...

【专利技术属性】
技术研发人员:曾慧徐燃雷宇
申请(专利权)人:北京儒博科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1