一种基于机器视觉的纠正发音的方法技术

技术编号：31805773 阅读：21 留言：0更新日期：2022-01-08 11:07

本发明专利技术涉及计算机软件技术领域，具体涉及一种基于机器视觉的纠正发音的方法，包括：S1、实时同步采集用户发音音频和用户口型影像；S2、检测用户发音音频中是否包含发音混淆字：若是，进行S3；若否，进行S4；S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段，分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比，判断是否发音错误；S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比，判断是否发音错误；S5、提示发音错误，并输出标准混淆音频或者标准发音音频。本发明专利技术解决了无法纠正混淆发音的技术问题。法纠正混淆发音的技术问题。法纠正混淆发音的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器视觉的纠正发音的方法

[0001]本专利技术涉及计算机软件
，具体涉及一种基于机器视觉的纠正发音的方法。

技术介绍

[0002]通常情况下，学习各种语言都会朗读、跟读来提升自身的发音能力，多数情况下学习者无法得知自身发音是否准确。故而，市面上出现了多种自带发音测评功能或者发音纠正功能的语言学习软件。
[0003]现有的语言学习软件所得到的发音测评结果无法指正具体发音错误，导致发音测评结果缺乏针对性。对此，已有中国专利出公开相应的语言学习的纠正发音的装置，通过输出预设的标准发音音频和标准口型影像，并获取跟读时的用户发音和用户口型，实时输出用户发音和用户口型影像；将用户发音与标准发音音频进行比对，将用户口型影像与标准口型影像进行比对，从而评估用户发音的准确度，辅助用户调整自己的发音口型和发音音调，达到纠正用户错误发音的效果。但是，对于某些混淆发音来说，比如平舌音与翘舌音，标准发音音频与标准口型影响存在很大的相似之处，会使得无法准确地识别并纠正发音错误。

技术实现思路

[0004]本专利技术提供一种基于机器视觉的纠正发音的方法，解决了现有技术无法准确识别并纠正混淆发音的技术问题。
[0005]本专利技术提供的基础方案为：一种基于机器视觉的纠正发音的方法，包括：
[0006]S1、实时同步采集用户发音音频和用户口型影像；
[0007]S2、检测用户发音音频中是否包含发音混淆字：若是，进行S3；若否，进行S4；
[0008]S3、分别从用户发音音频和用户...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的纠正发音的方法，其特征在于，包括：S1、实时同步采集用户发音音频和用户口型影像；S2、检测用户发音音频中是否包含发音混淆字：若是，进行S3；若否，进行S4；S3、分别从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段，分别将预设的标准混淆音频和标准混淆影像与混淆音频片段和混淆影像片段进行对比，判断是否发音错误：若是，进行S5；若否，返回S1；S4、分别将预设的标准发音音频和标准口型影像与用户发音音频和用户口型影像进行对比，判断是否发音错误：若是，进行S5；若否，返回S1；S5、提示发音错误，并输出标准混淆音频或者标准发音音频。2.如权利要求1所述的基于机器视觉的纠正发音的方法，其特征在于，S2中，检测用户发音音频中是否包含发音混淆字包括：将用户发音音频转化成发音数字信号，并对数字信号进行特征提取，得到发音特征的关键参数，根据关键参数判定是否包含发音混淆字。3.如权利要求2所述的基于机器视觉的纠正发音的方法，其特征在于，S3中，从用户发音音频和用户口型影像提取包含发音混淆字对应时段的混淆音频片段和混淆影像片段之前，检测发音起始点和发音结束点，并剪切掉用户发音音频和用户口型影像中发音起始点之前的部分以及发音结束点之后的部分。...

【专利技术属性】
技术研发人员：张舰文，
申请(专利权)人：重庆医药高等专科学校，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人