一种唇语识别方法技术

技术编号：39899246 阅读：7 留言：0更新日期：2023-12-30 13:13

本发明专利技术实施例公开了一种唇语识别方法

全部详细技术资料下载

【技术实现步骤摘要】
一种唇语识别方法、装置、芯片及终端

[0001]本专利技术涉及计算机机器学习与人工智能
，特别是涉及一种唇语识别方法
、
装置
、
芯片及终端
。

技术介绍

[0002]唇语在人类交流和言语理解中起着至关重要的作用，据研究表明，人类的唇读能力很差，而听力受损的人只能得到低于
30
％的准确率
。
因此，良好的唇语识别技术可用于改进助听器，改善无声
、
安全
、
嘈杂环境中的语言信息的获取等，具有巨大的实用性，因此成为日益受到关注的领域
。
但是现有的唇语识别技术中会存在相同的口型由于发音者的面部嘴唇区域特征不同，以及视频录制中可能产生的动态模糊，导致唇语识别效果不佳的问题
。

技术实现思路

[0003]基于此，本专利技术提供一种唇语识别方法
、
装置
、
芯片及终端，主要解决针对中文唇语识别不佳的问题，并通过实验验证了其有效性和可行性
。
[0004]第一方面，提供一种唇语识别方法，包括：
[0005]获取第一人脸图像；
[0006]按照预设模糊算法对第一人脸图像进行模糊处理，得到第二人脸图像；
[0007]基于模糊处理后的各第二人脸图像，计算各自的人脸模糊度；
[0008]基于相邻的第二人脸图像，计算人脸模糊度变化率；
[0009]筛选满足预设变化率要求的第二人脸图像，作为第三人脸...

【技术保护点】

【技术特征摘要】
1.
一种唇语识别方法，其特征在于，包括：获取第一人脸图像；按照预设模糊算法对第一人脸图像进行模糊处理，得到第二人脸图像；基于模糊处理后的各第二人脸图像，计算各自的人脸模糊度；基于相邻的第二人脸图像，计算人脸模糊度变化率；筛选满足预设变化率要求的第二人脸图像，作为第三人脸图像；提取第三人脸图像的梅尔频谱图；将梅尔频谱图输入
WaveNet
声码器，利用
WaveNet
声码器合成视觉语音，实现唇语识别
。2.
如权利要求1所述的唇语识别方法，其特征在于，所述按照预设模糊算法对第一人脸图像进行模糊处理包括：采用如下公式对第一人脸图像进行模糊处理：其中，
(x
fu
，
y
fu
)
表示模糊图片的像素点坐标，
η
(x
fu
，
y
fu
)
表示加性噪声，表示卷积过程，表示原始输入图像，表示模糊函数，表示模糊图像
。3.
如权利要求2所述的唇语识别方法，其特征在于，所述计算各自的人脸模糊度包括：采用如下公式计算各自的人脸模糊度：
CI
表示人脸模糊度，
J
表示分辨率水平上限，
PQ
j
表示在分辨率水平
j
下的模糊质量因数；其中，
PQ
j
由如下公式定义：其中，
PNB
j
(x
fu
，
y
fu
)
表示在分辨率
j
下时，像素点
(x
fu
，
y
fu
)
的模糊状态；表示图像模糊像素总数；
PNE
j
(x
fu
，
y
fu
)
表示在分辨率
j
下时，像素点
(x
fu
，
y
fu
)
的清晰状态；表示图像清晰像素总数
。4.
如权利要求3所述的唇语识别方法，其特征在于，所述计算人脸模糊度变化率包括：采用如下公式计算人脸模糊度变化率：其中，表示计算人脸模糊度变化率的初始图像序号，表示计算人脸模糊度变化率
的结束图片序号，
ξ
表示可察觉边缘闯值常数，表示循环变量，
CJ
表示人脸模糊度变化率，
CI
表示人脸模糊度
。5.
如权利要求4所述的唇语识别方法，其特征在于，所述筛选满足预设变化率要求的第二人脸图像，作为第...

【专利技术属性】
技术研发人员：王汉波，郭军，柯武生，
申请(专利权)人：山东睿芯半导体科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人