无声唇语识别方法及系统技术方案

技术编号：24012932 阅读：42 留言：0更新日期：2020-05-02 02:22

一种无声唇语识别方法及系统，通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域，通过用户说话行为在相位上对毫米波信号进行调制并部分反射，通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构，得到用户说话行为信息。本发明专利技术具有无需接触、穿透性强、精度高等优点；能够精确追踪唇部的精细位移运动，很好地检测出准确的语音命令。

Silent lip recognition method and system

全部详细技术资料下载

【技术实现步骤摘要】
无声唇语识别方法及系统
本专利技术涉及的是一种信息安全领域的技术，具体是一种基于小型120GHz干涉雷达系统的无声唇语识别方法及系统。
技术介绍
随着与计算机设备的交互变得越来越普遍，交互的趋势是变得更自然和更智能。人们因此开发了各种各样的自然用户交互界面，如触摸屏、注视跟踪、手势识别和语音识别系统，其中语音识别尤受关注，因为它与人们在日常生活中发出命令的方式相似。然而，在一些场合下人们并不方便去使用语音识别，例如应该保持安静的场合，或者希望在公共场合隐私能得到保护的情况。另外，一些人可能会因为疾病而失去发声的能力，他们对语言交流的需求也应该得到重视。因此，无声唇语感知的概念出现了。目前人们也研究了几种进行无声唇语感知的方法。
技术实现思路
本专利技术提出一种基于毫米波雷达干涉相位的无声唇语识别方法及系统，并针对现有技术毫米波非线性相位调制中的相位模糊问题，提出一种无声唇语识别方法及系统，具有无需接触、穿透性强、精度高等优点；能够精确追踪唇部的精细位移运动，很好地检测出准确的语音命令。本专利技术是通过以下技术方案实现的：本专利技术涉及一种无声唇语识别方法，通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域，通过用户说话行为在相位上对毫米波信号进行调制并部分反射，通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构，得到用户说话行为信息。本专利技术涉及一种无声唇语识别系统，包括：供电单元、雷达收发机、载波发生单元和中频放大单元，其中：供电单元与其他各单元相...

【技术保护点】
1.一种无声唇语识别方法，其特征在于，通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域，通过用户说话行为在相位上对毫米波信号进行调制并部分反射，通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构，得到用户说话行为信息；/n所述的载波为调频连续波。/n

【技术特征摘要】
1.一种无声唇语识别方法，其特征在于，通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域，通过用户说话行为在相位上对毫米波信号进行调制并部分反射，通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构，得到用户说话行为信息；
所述的载波为调频连续波。

2.根据权利要求1所述的方法，其特征是，所述的载波为锯齿波Xc(t)＝Acos[2πfct+φ(t)]，其中：A为振幅，fc为载波频率，为发射器的相位噪声；
所述的反射信号，经转换至基带后得到：其中：AI和AQ为I与Q信号的振幅，θ为恒定相移，为残余的相位噪声，λ为载波波长，DCI和DCQ为I与Q信号中的直流偏移量。

3.根据权利要求1所述的方法，其特征是，所述的校正后的信号为：

4.根据权利要求1所述的方法，其特征是，所述的基于三角变换的语音相位模糊线性重构是指：依次对校正信号和信号进行微分后再进行积分，从而得到位移信息，具体时域表达式及其离散形式为：在得到无声唇语运动的位移信息后，进一步利用机器学习中的特征提取方法得到多维特征向量，或者使用深度学习中的卷积神经网络实现优化拟合以识别不同唇语的特征。

5.一种实现上述任一权利要求所述方法的无声唇语识别系统，其特征在于，包括：供电单元、雷达收发机、载波发生单元和中频放大单元，其中：供电单元与其他各单元相连并提...

【专利技术属性】
技术研发人员：顾昌展，温力，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人