一种唇语识别方法技术

技术编号:39899246 阅读:7 留言:0更新日期:2023-12-30 13:13
本发明专利技术实施例公开了一种唇语识别方法

【技术实现步骤摘要】
一种唇语识别方法、装置、芯片及终端


[0001]本专利技术涉及计算机机器学习与人工智能
,特别是涉及一种唇语识别方法

装置

芯片及终端


技术介绍

[0002]唇语在人类交流和言语理解中起着至关重要的作用,据研究表明,人类的唇读能力很差,而听力受损的人只能得到低于
30
%的准确率

因此,良好的唇语识别技术可用于改进助听器,改善无声

安全

嘈杂环境中的语言信息的获取等,具有巨大的实用性,因此成为日益受到关注的领域

但是现有的唇语识别技术中会存在相同的口型由于发音者的面部嘴唇区域特征不同,以及视频录制中可能产生的动态模糊,导致唇语识别效果不佳的问题


技术实现思路

[0003]基于此,本专利技术提供一种唇语识别方法

装置

芯片及终端,主要解决针对中文唇语识别不佳的问题,并通过实验验证了其有效性和可行性

[0004]第一方面,提供一种唇语识别方法,包括:
[0005]获取第一人脸图像;
[0006]按照预设模糊算法对第一人脸图像进行模糊处理,得到第二人脸图像;
[0007]基于模糊处理后的各第二人脸图像,计算各自的人脸模糊度;
[0008]基于相邻的第二人脸图像,计算人脸模糊度变化率;
[0009]筛选满足预设变化率要求的第二人脸图像,作为第三人脸图像;
[0010]提取第三人脸图像的梅尔频谱图;
[0011]将梅尔频谱图输入
WaveNet
声码器,利用
WaveNet
声码器合成视觉语音,实现唇语识别

[0012]可选的,所述按照预设模糊算法对第一人脸图像进行模糊处理包括:
[0013]采用如下公式对第一人脸图像进行模糊处理:
[0014][0015]其中,
(x
fu

y
fu
)
表示模糊图片的像素点坐标,
η
(x
fu

y
fu
)
表示加性噪声,表示卷积过程,表示原始输入图像,表示模糊函数,表示模糊图像

[0016]可选的,所述计算各自的人脸模糊度包括:
[0017]采用如下公式计算各自的人脸模糊度:
[0018][0019]CI
表示人脸模糊度,
J
表示分辨率水平上限,
PQ
j
表示在分辨率水平
j
下的模糊质量
因数;
[0020]其中,
PQ
j
可由如下公式定义:
[0021][0022]其中,
PNB
j
(x
fu

y
fu
)
表示在分辨率
j
下时,像素点
(x
fu

y
fu
)
的模糊状态;表示图像模糊像素总数;
[0023]PNE
j
(x
fu

y
fu
)
表示在分辨率
j
下时,像素点
(x
fu

y
fu
)
的清晰状态;表示图像清晰像素总数

[0024]可选的,所述计算人脸模糊度变化率包括:
[0025]采用如下公式计算人脸模糊度变化率:
[0026][0027]其中,表示计算人脸模糊度变化率的初始图像序号,表示计算人脸模糊度变化率的结束图片序号,
ξ
表示可察觉边缘闯值常数,取值为
0.63

CJ
表示人脸模糊度变化率,
CI
表示人脸模糊度

[0028]可选的,所述筛选满足预设变化率要求的第二人脸图像,作为第三人脸图像包括:
[0029]将第二人脸图像的人脸模糊度变化率与预设变化率阈值范围进行比较;其中预设变化率阈值范围包括
[0,2

)

[30

,1];
[0030]若第二人脸图像的人脸模糊度变化率处于
[0,2

)

[30

,1]范围内,判定满足预设变化率要求,以将该第二人脸图像作为第三人脸图像;否则,判定不满足预设变化率要求,以将该第二人脸图像删除

[0031]可选的,所述提取第三人脸图像的梅尔频谱图包括:
[0032]采用基于
LSTM
单元和
Attention
单元的文本语音合成模型
Tacotron2
改进为视觉语音合成模型,提取第三人脸图像的梅尔频谱图;
[0033]其中,视觉语音合成模型包括多通道注意力的视觉特征提取模块

双向
LSTM
单元的时序特征提取模块

位置敏感注意力的语意特征提取模块

梅尔频谱解码器以及
WaveNet
声码器

[0034]可选的,所述唇语识别方法还包括:
[0035]将
WaveNet
声码器输出的视觉语音输入到视觉语音识别模型,以利用视觉语音识别模型将视觉语音转换为文本输出;
[0036]其中,视觉语音识别模型由
VGG
网络改进的梅尔频谱编码器和
CTC
算法连接而成

[0037]第二方面,提供一种唇语识别装置,包括:
[0038]获取模块,用于获取第一人脸图像;
[0039]模糊处理模块,用于按照预设模糊算法对第一人脸图像进行模糊处理,得到第二人脸图像;
[0040]第一计算模块,用于基于模糊处理后的各第二人脸图像,计算各自的人脸模糊度;
[0041]第二计算模块,用于基于相邻的第二人脸图像,计算人脸模糊度变化率;
[0042]筛选模块,用于筛选满足预设变化率要求的第二人脸图像,作为第三人脸图像;
[0043]特征提取模块,用于提取第三人脸图像的梅尔频谱图;
[0044]识别模块,用于将梅尔频谱图输入
WaveNet
声码器,利用
WaveNet
声码器合成视觉语音,实现唇语识别

[0045]第三方面,提供一种芯片,包括第一处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上任一项所述的唇语识别方法的各个步骤

[0046]第四方面,提供一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种唇语识别方法,其特征在于,包括:获取第一人脸图像;按照预设模糊算法对第一人脸图像进行模糊处理,得到第二人脸图像;基于模糊处理后的各第二人脸图像,计算各自的人脸模糊度;基于相邻的第二人脸图像,计算人脸模糊度变化率;筛选满足预设变化率要求的第二人脸图像,作为第三人脸图像;提取第三人脸图像的梅尔频谱图;将梅尔频谱图输入
WaveNet
声码器,利用
WaveNet
声码器合成视觉语音,实现唇语识别
。2.
如权利要求1所述的唇语识别方法,其特征在于,所述按照预设模糊算法对第一人脸图像进行模糊处理包括:采用如下公式对第一人脸图像进行模糊处理:其中,
(x
fu

y
fu
)
表示模糊图片的像素点坐标,
η
(x
fu

y
fu
)
表示加性噪声,表示卷积过程,表示原始输入图像,表示模糊函数,表示模糊图像
。3.
如权利要求2所述的唇语识别方法,其特征在于,所述计算各自的人脸模糊度包括:采用如下公式计算各自的人脸模糊度:
CI
表示人脸模糊度,
J
表示分辨率水平上限,
PQ
j
表示在分辨率水平
j
下的模糊质量因数;其中,
PQ
j
由如下公式定义:其中,
PNB
j
(x
fu

y
fu
)
表示在分辨率
j
下时,像素点
(x
fu

y
fu
)
的模糊状态;表示图像模糊像素总数;
PNE
j
(x
fu

y
fu
)
表示在分辨率
j
下时,像素点
(x
fu

y
fu
)
的清晰状态;表示图像清晰像素总数
。4.
如权利要求3所述的唇语识别方法,其特征在于,所述计算人脸模糊度变化率包括:采用如下公式计算人脸模糊度变化率:其中,表示计算人脸模糊度变化率的初始图像序号,表示计算人脸模糊度变化率
的结束图片序号,
ξ
表示可察觉边缘闯值常数,表示循环变量,
CJ
表示人脸模糊度变化率,
CI
表示人脸模糊度
。5.
如权利要求4所述的唇语识别方法,其特征在于,所述筛选满足预设变化率要求的第二人脸图像,作为第...

【专利技术属性】
技术研发人员:王汉波郭军柯武生
申请(专利权)人:山东睿芯半导体科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1