无声唇语识别方法及系统技术方案

技术编号:24012932 阅读:33 留言:0更新日期:2020-05-02 02:22
一种无声唇语识别方法及系统,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。本发明专利技术具有无需接触、穿透性强、精度高等优点;能够精确追踪唇部的精细位移运动,很好地检测出准确的语音命令。

Silent lip recognition method and system

【技术实现步骤摘要】
无声唇语识别方法及系统
本专利技术涉及的是一种信息安全领域的技术,具体是一种基于小型120GHz干涉雷达系统的无声唇语识别方法及系统。
技术介绍
随着与计算机设备的交互变得越来越普遍,交互的趋势是变得更自然和更智能。人们因此开发了各种各样的自然用户交互界面,如触摸屏、注视跟踪、手势识别和语音识别系统,其中语音识别尤受关注,因为它与人们在日常生活中发出命令的方式相似。然而,在一些场合下人们并不方便去使用语音识别,例如应该保持安静的场合,或者希望在公共场合隐私能得到保护的情况。另外,一些人可能会因为疾病而失去发声的能力,他们对语言交流的需求也应该得到重视。因此,无声唇语感知的概念出现了。目前人们也研究了几种进行无声唇语感知的方法。
技术实现思路
本专利技术提出一种基于毫米波雷达干涉相位的无声唇语识别方法及系统,并针对现有技术毫米波非线性相位调制中的相位模糊问题,提出一种无声唇语识别方法及系统,具有无需接触、穿透性强、精度高等优点;能够精确追踪唇部的精细位移运动,很好地检测出准确的语音命令。本专利技术是通过以下技术方案实现的:本专利技术涉及一种无声唇语识别方法,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。本专利技术涉及一种无声唇语识别系统,包括:供电单元、雷达收发机、载波发生单元和中频放大单元,其中:供电单元与其他各单元相连并提供工作电压,雷达收发机输入端可通过开关自主选择与载波发生单元相连或与固定的参考电压相连,雷达收发机输出端与中频放大单元相连并传输I/Q信号,中频放大单元与信号输出端相连并传输放大后的I/Q信号。所述的载波为调频连续波,优选为锯齿波。技术效果本专利技术整体解决了通过毫米波雷达干涉相位的测量方法获得唇部多普勒相位模糊问题。与现有技术相比,本专利技术能够利用毫米波雷达干涉相位的方法来测量唇部运动引起的多普勒相移,采用120GHz毫米波感知唇语,并定制了包括射频前端、中频、电源管理、信号发射等在内的全集成120GHz毫米波雷达小型化系统,辅以基于相干雷达的相位线性重构算法实现微小嘴唇运动的信号重构。附图说明图1为本专利技术基于短距毫米波雷达传感的无声唇语识别方法示意图;图2为本专利技术雷达传感器系统示意图;图3为实施例中两种不同脉冲重复时间和振幅的锯齿信号示意图;图4为实施例中频放大器输出的命令短语“Cancel”和“Up”的I/Q信号、I/Q信号归一化频谱图图5为实施例中八个命令短语的I/Q信号及位移波形示意图;图中:(a)“Delete”;(b)“Left”;(c)“Off”;(d)“Yes”;(e)“Go”;(f)“Next”;(g)“Stop”;(h)“Play”.图6为实施例中三个命令句子的I/Q信号及位移波形示意图;图中:(a)“Buya/7:30/ticket/for/frozen/tonight”;(b)“How’sthe/weather/today”;(c)“TextLucyandtellher/thatthehotelfordinner/isbooked”。具体实施方式如图2所示,为本实施例涉及的实现上述方法的120GHz毫米波雷达传感系统,它使用了一个元件表面贴片处理的3.24厘米×4.27厘米的双面印刷电路板,并且具有调频连续波(FMCW)和连续波(CW)的两种模式,CW模式和FMCW模式都允许雷达干涉,其中FMCW模式具有测距能力,极大地扩展了感知维度。该传感系统采用SiliconRadar公司的TRX_120_001雷达射频收发器,其频率范围为119.1GHz至125.9GHz,Tx功率为-7dBm至1dBm。该系统包括:用于提供5v电压的电源模块及电源管理电路、分别与电源模块相连的芯片形式的雷达收发机、载波发生单元和中频放大单元。所述的电源模块包括USBtype-C连接器和低压差稳压器(LDO),输出稳定的3.3V电压。所述的雷达收发机包括:功率放大器(PowerAmplifier)、低噪声放大器(LNA)、正交混频器、多相滤波器、压控振荡器(VCO)、封装收发天线(TX/RX)和本地振荡器,其中:功率放大器分别与本地振荡器和发送天线相连并传送发送信号,低噪声放大器的输入端与接收天线相连并传输接收信号,正交混频器与低噪声放大器相连并传输转换至基带的接收信号,多相滤波器与压控振荡器相连,压控振荡器分别与输入电压和本地振荡器相连。所述的载波发生单元是以三角波发生电路为基础设计的自激振荡电路,利用二极管的单向导电性,可以实现不同的积分路径,该电路包括:同相输入的滞回比较器和积分运算电路,其中:当前向积分的时间常数远大于后向积分的时间常数时,上升沿的斜率与下降沿的斜率差别很大,从而将三角波转化为锯齿波。所述的自激振荡电路中进一步设有微调电位器用于控制锯齿波的振幅和周期,以实现在参考电压附近的可调扫描。所述的传感系统中进一步设有与雷达收发机相连的用于提高射频混频器输出的信噪比(SNR)水平的中频放大器(IFamplifier)。如图3所示,为两个锯齿波信号例子,两个不同的波形曲线分别代表不同振幅和脉冲重复时间的锯齿波。120GHz本地振荡器(LO)的四个模拟调谐输入端短路相连,并通过开关选择与CW模式下的固定电压输出端或FMCW模式下的锯齿波输出端相连接,使本地振荡器相应地工作在固定频点或一定的带宽范围内。如图1所示,本实施例涉及上述系统的无声唇语识别方法,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息。所述的毫米波信号,即载波为:Xc(t)=Acos[2πfct+φ(t)],其中:A为振幅,fc为载波频率,为发射器的相位噪声。所述的反射信号,经转换至基带后得到:其中:AI和AQ为I与Q信号的振幅,θ为恒定相移,为残余的相位噪声,λ为载波波长,DCI和DCQ为I与Q信号中的直流偏移量。所述的校正后的信号为:对于120GHz毫米波,其波长只有2.5mm,这很容易导致相位模糊,因为面部肌肉的运动很可能超过半个波长。这种情况下,它需要进行复杂的相位展开。所述的基于三角变换的语音相位模糊线性重构是指:依次对校正信号和信号进行微分后再进行积分,从而得到位移信息,具体时域表达式及其离散形式为:在得到无声唇语运动的位移信息后,进一步利用各种信号处理方法,例如:利用传统机器学习中的特征提取方法得到多维特征向量,或者使用深度学习中的卷积神经网络(CNN)来实现优化拟合,以识别不同唇语的特征。本实施例通过在办公环境下进行效果评价:需将雷达传感器系统与数据采集设备(DAQ)相连接,以获取本文档来自技高网...

【技术保护点】
1.一种无声唇语识别方法,其特征在于,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息;/n所述的载波为调频连续波。/n

【技术特征摘要】
1.一种无声唇语识别方法,其特征在于,通过连续发出作为载波的毫米波信号并聚焦于用户口腔区域,通过用户说话行为在相位上对毫米波信号进行调制并部分反射,通过对反射信号转换至基带并校正后采用基于三角变换的语音相位模糊线性重构,得到用户说话行为信息;
所述的载波为调频连续波。


2.根据权利要求1所述的方法,其特征是,所述的载波为锯齿波Xc(t)=Acos[2πfct+φ(t)],其中:A为振幅,fc为载波频率,为发射器的相位噪声;
所述的反射信号,经转换至基带后得到:其中:AI和AQ为I与Q信号的振幅,θ为恒定相移,为残余的相位噪声,λ为载波波长,DCI和DCQ为I与Q信号中的直流偏移量。


3.根据权利要求1所述的方法,其特征是,所述的校正后的信号为:


4.根据权利要求1所述的方法,其特征是,所述的基于三角变换的语音相位模糊线性重构是指:依次对校正信号和信号进行微分后再进行积分,从而得到位移信息,具体时域表达式及其离散形式为:在得到无声唇语运动的位移信息后,进一步利用机器学习中的特征提取方法得到多维特征向量,或者使用深度学习中的卷积神经网络实现优化拟合以识别不同唇语的特征。


5.一种实现上述任一权利要求所述方法的无声唇语识别系统,其特征在于,包括:供电单元、雷达收发机、载波发生单元和中频放大单元,其中:供电单元与其他各单元相连并提...

【专利技术属性】
技术研发人员:顾昌展温力
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1