一种基于机器视觉的纠正发音的方法技术

技术编号:31805773 阅读:21 留言:0更新日期:2022-01-08 11:07
本发明专利技术涉及计算机软件技术领域,具体涉及一种基于机器视觉的纠正发音的方法,包括:S1、实时同步采集用户发音音频和用户口型影像;S2、检测用户发音音频中是否包含发音混淆字:若是,进行S3;若否,进行S4;S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段,分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比,判断是否发音错误;S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比,判断是否发音错误;S5、提示发音错误,并输出标准混淆音频或者标准发音音频。本发明专利技术解决了无法纠正混淆发音的技术问题。法纠正混淆发音的技术问题。法纠正混淆发音的技术问题。

【技术实现步骤摘要】
一种基于机器视觉的纠正发音的方法


[0001]本专利技术涉及计算机软件
,具体涉及一种基于机器视觉的纠正发音的方法。

技术介绍

[0002]通常情况下,学习各种语言都会朗读、跟读来提升自身的发音能力,多数情况下学习者无法得知自身发音是否准确。故而,市面上出现了多种自带发音测评功能或者发音纠正功能的语言学习软件。
[0003]现有的语言学习软件所得到的发音测评结果无法指正具体发音错误,导致发音测评结果缺乏针对性。对此,已有中国专利出公开相应的语言学习的纠正发音的装置,通过输出预设的标准发音音频和标准口型影像,并获取跟读时的用户发音和用户口型,实时输出用户发音和用户口型影像;将用户发音与标准发音音频进行比对,将用户口型影像与标准口型影像进行比对,从而评估用户发音的准确度,辅助用户调整自己的发音口型和发音音调,达到纠正用户错误发音的效果。但是,对于某些混淆发音来说,比如平舌音与翘舌音,标准发音音频与标准口型影响存在很大的相似之处,会使得无法准确地识别并纠正发音错误。

技术实现思路

[0004]本专利技术提供一种基于机器视觉的纠正发音的方法,解决了现有技术无法准确识别并纠正混淆发音的技术问题。
[0005]本专利技术提供的基础方案为:一种基于机器视觉的纠正发音的方法,包括:
[0006]S1、实时同步采集用户发音音频和用户口型影像;
[0007]S2、检测用户发音音频中是否包含发音混淆字:若是,进行S3;若否,进行S4;
[0008]S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段,分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;
[0009]S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;
[0010]S5、提示发音错误,并输出标准混淆音频或者标准发音音频。
[0011]本专利技术的工作原理及优点在于:实时同步采集用户发音音频和用户口型影像,确保用户发音音频和用户口型影像在时间上是相互对应的;为了识别并纠正混淆发音,需要检测用户发音音频中是否包含发音混淆字,如果包含发音混淆字,就需要分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段,并分别将标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比,判断是否发音错误。通过这样的方式,不仅能够对平常的发音进行纠正,还能够对混淆发音进行纠正,避免遗漏掉对混淆发音的纠正。
[0012]本专利技术既能对平常的发音进行纠正,又能对混淆发音进行纠正,避免遗漏掉对混淆发音的纠正,解决了现有技术无法准确识别并纠正混淆发音的技术问题。
[0013]进一步,S2中,检测用户发音音频中是否包含发音混淆字包括:将用户发音音频转化成发音数字信号,并对数字信号进行特征提取,得到发音特征的关键参数,根据关键参数判定是否包含发音混淆字。
[0014]有益效果在于:由于多数发音混淆字的发音特征具有相似之处,关键参数则可以对发音特征进行量化,故而可以精确地检测用户发音音频中是否包含发音混淆字。
[0015]进一步,S3中,从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段之前,检测发音起始点和发音结束点,并剪切掉用户发音音频和用户口型影像中发音起始点之前的部分以及发音结束点之后的部分。
[0016]有益效果在于:通过这样的方式,对用户发音音频和用户口型影像进行“掐头去尾”的处理,确保用户发音音频和用户口型影像均是对应有声音的,减少处理的运算量。
[0017]进一步,S5中,还包括根据标准混淆音频得到标准混淆波形图,或者根据标准发音音频得到标准发音波形图,并显示标准混淆波形图或者标准发音波形图。
[0018]有益效果在于:这样显示出标准混淆波形图或者标准发音波形图,便于用户进行查看,并根据标准混淆波形图或者标准发音波形图模仿发音,提高纠正效率。
[0019]进一步,S5中,还包括显示标准混淆影像或者标准口型影像,标准混淆影像与标准混淆波形图同步对比显示,或者标准口型影像与标准发音波形图同步对比显示。
[0020]有益效果在于:这样进行对比显示,便于同步对比观察发音的变化特点与口型的变化特点,更加准确地指导用户纠正发音变化与口型变化。
[0021]进一步,S5中,还包括根据标准混淆音频或者标准发音音频给出纠正建议。
[0022]有益效果在于:直接给出纠正建议,相较于给出标准混淆音频或者标准发音音频来说,这种纠正更加快速、直接。
[0023]进一步,S3中,以音素为单位将标准混淆音频与混淆音频片段进行对比;S4中,以音素为单位将标准发音音频与用户发音音频进行对比。
[0024]有益效果在于:音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素,这样可以更加精细、更加准确地对比发音特点。
[0025]进一步,S3中,以帧为单位将标准混淆影像与混淆影像片段进行对比;S4中,以帧为单位将标准口型影像与用户口型影像进行对比。
[0026]有益效果在于:帧是影像动画中最小单位的单幅影像画面,连续的帧就可以形成动画,这样可以更加精细、更加准确地对比发音的动作、发音时的口型变化规律。
[0027]进一步,S3中,从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段之前,对用户发音音频和用户口型影像进行降噪处理。
[0028]有益效果在于:这样可以提高用户发音音频和用户口型影像的质量,确保提取过程的准确性与精确性。
附图说明
[0029]图1为本专利技术一种基于机器视觉的纠正发音的方法实施例的流程图。
具体实施方式
[0030]下面通过具体实施方式进一步详细的说明:
[0031]实施例1
[0032]实施例基本如附图1所示,包括:
[0033]S1、实时同步采集用户发音音频和用户口型影像;
[0034]S2、检测用户发音音频中是否包含发音混淆字:若是,进行S3;若否,进行S4;
[0035]S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段,分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;
[0036]S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;
[0037]S5、提示发音错误,并输出标准混淆音频或者标准发音音频。
[0038]具体实施过程如下:
[0039]S1、实时同步采集用户发音音频和用户口型影像。比如说,通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的纠正发音的方法,其特征在于,包括:S1、实时同步采集用户发音音频和用户口型影像;S2、检测用户发音音频中是否包含发音混淆字:若是,进行S3;若否,进行S4;S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段,分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比,判断是否发音错误:若是,进行S5;若否,返回S1;S5、提示发音错误,并输出标准混淆音频或者标准发音音频。2.如权利要求1所述的基于机器视觉的纠正发音的方法,其特征在于,S2中,检测用户发音音频中是否包含发音混淆字包括:将用户发音音频转化成发音数字信号,并对数字信号进行特征提取,得到发音特征的关键参数,根据关键参数判定是否包含发音混淆字。3.如权利要求2所述的基于机器视觉的纠正发音的方法,其特征在于,S3中,从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段之前,检测发音起始点和发音结束点,并剪切掉用户发音音频和用户口型影像中发音起始点之前的部分以及发音结束点之后的部分。...

【专利技术属性】
技术研发人员:张舰文
申请(专利权)人:重庆医药高等专科学校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1