一种基于音频信号的无接触手写输入识别方法技术

技术编号:37417211 阅读:12 留言:0更新日期:2023-04-30 09:40
本发明专利技术涉及一种基于音频信号的无接触手写输入识别方法,属于语音识别与移动计算应用技术领域。本发明专利技术使用移动设备中的扬声器持续播放预先定义的音频信号,并利用麦克风采集手指手写时反射的音频信号。当用户手写输入时,手的移动会引起反射音频信号的变化。通过设计一个轻量级分类网络研究音频传输信道的细粒度变化,实时识别用户的手写输入内容。利用数据增强技术在手写距离和手写速度两个维度扩充数据集,从而适应不同用户的手写习惯。此外,通过拼写纠错算法修正分类网络的识别结果,提高了容错能力。高了容错能力。高了容错能力。

【技术实现步骤摘要】
一种基于音频信号的无接触手写输入识别方法


[0001]本专利技术涉及一种手写输入识别方法,尤其涉及一种利用智能手机扬声器和麦克风的基于主动声学传感的无接触手写输入识别方法,从而扩展人机交互方式,属于语音识别与移动计算应用


技术介绍

[0002]触屏交互作为一种简单、直接的人机交互方式,被广泛应用在各种移动设备(如智能手机和智能平板)上。但是,随着移动设备使用场景的不断拓展,仅通过手指在触摸屏上接触进行交互的方式逐渐难以满足人们日益增长的需求。
[0003]随着智能可穿戴设备的普及,越来越多的用户开始使用这些设备完成休闲娱乐、健康监测等活动。然而,为了确保便携性,可穿戴设备通常只配备了小尺寸(约1英寸)屏幕,用户很难在如此小的屏幕上进行手写输入等触屏交互。因此,为了克服可穿戴设备上触摸屏交互的局限性,研究一种方便有效的屏幕外手写输入识别方案是十分有必要的。
[0004]目前,有一些手写输入识别方法,利用广泛部署在腕带设备中的运动传感器实现。例如,当用户使用佩戴腕带设备的手进行手写时,运动传感器可以感知用户手运动引起的数据变化,进而识别出手写输入的内容。然而,研究发现,人们往往倾向于将腕带设备佩戴在非惯用手上以避免磕碰,但手写输入常使用的是惯用手。在这种情况下,腕带设备无法捕捉惯用手的行为信息,进而无法完成手写内容识别。如果强行改变用户的行为习惯,将腕带设备佩戴在惯用手上,将导致较差的用户体验。
[0005]此外,还有一些手写输入识别方法,利用移动设备上常见的音频设备(扬声器和麦克风)来实现,主要基于两种方式:被动声学传感和主动声学传感。其中,被动声学传感使用麦克风直接收集用户手指在设备附近平面上滑动产生的音频来识别输入内容,但这种方法很容易受到环境噪声和手写平面材料的影响。主动声学传感利用扬声器播放音频信号进行感测,当用户在设备附近手写时,音频信号会被用户的手指遮挡并反射回麦克风。通过分析反射信号的变化模式,可以识别用户的输入内容。与被动声学传感不同,基于主动声学传感的方法不依赖于手写平面材料,但现有的基于主动声学传感的解决方案或者计算成本昂贵,造成用户的额外负担,或者需要多对音频设备,无法应用于大部分只配备一对音频设备的移动设备,可扩展性较差。
[0006]综上所述,现有的手写输入识别方法均存在各种缺陷和不足,亟需新方法来克服上述的局限性。

技术实现思路

[0007]本专利技术的目的是为了克服现有技术存在的缺陷和不足,创造性地提出一种基于音频信号的无接触手写输入识别方法。本方法利用移动设备上的一对麦克风和扬声器组合来采集手写时手指移动所反射的音频信号,从而识别设备附近的手写内容,实现手写输入识别。
[0008]本专利技术的创新点包括:使用移动设备中的扬声器持续播放预先定义的音频信号,并利用麦克风采集手指手写时反射的音频信号。当用户手写输入时,手的移动会引起反射音频信号的变化。通过设计一个轻量级分类网络研究音频传输信道的细粒度变化,实时识别用户的手写输入内容。利用数据增强技术在手写距离和手写速度两个维度扩充数据集,从而适应不同用户的手写习惯。此外,通过拼写纠错算法修正分类网络的识别结果,提高了容错能力。
[0009]本专利技术的目的是通过以下技术方案实现的。
[0010]一种基于音频信号的无接触手写输入识别方法,包括以下步骤:步骤1:使用移动设备中的扬声器逐帧播放预先定义的音频信号,利用麦克风采集手指手写输入时反射的音频信号。
[0011]在真实的环境中,存在丰富的多径效应。为了区分不同的传输路径,本专利技术优选具有强自相关和弱互相关的巴克码作为原始信号来设计发射信号,具体方法如下:首先,拼接两个13位的巴克码,获得26位巴克码,以避免频率泄露。
[0012]然后,使用12倍频域插值得到基带序列信号,对该信号进行调制,以限制信号的带宽。
[0013]步骤2:对麦克风采集的音频信号进行预处理,消除环境噪声和音频设备的固有时延的影响。
[0014]具体地,可以采用以下方法处理:首先,通过带通滤波器去除音频噪声(如说话声、音乐声等)。
[0015]然后,借助具有最大能量的经直接路径传输的信号的到达时间来对齐信号,降低音频设备的固有时延的影响。
[0016]步骤3:对信号进行IQ解调(I:in

phase,同相;q: quadrature,正交),得到基带复信号,以获得更丰富的信息。
[0017]由于麦克风接收到的音频信号是通带实信号,故需要进行IQ解调来构造基带复信号以获得更丰富的手写信息。具体地,可以采用以下方式实现:首先,将对齐后的音频信号分别与余弦波和正弦波相乘,获得正交分量和同相分量。
[0018]然后,使用截止频率为2kHz的低通滤波器滤除和的高频部分。
[0019]最后,结合IQ分量构造基带复信号。
[0020]步骤4:估算差分信道脉冲响应(CIR)消除静态多径效应的影响。
[0021]具体地,可以采用以下方法实现:首先,使用最小二乘法计算信道脉冲响应(CIR)。
[0022]然后,将信道脉冲响应(CIR)沿时间轴作差,获得差分信道脉冲响应(dCIR),消除静态多径效应的影响。
[0023]步骤5:对信号进行后处理,消除随机噪声,减少后续计算开销并分割手写输入信号。
[0024]具体地,后处理可以采用以下方法实现:首先,采用平滑滤波器抑制差分信道脉冲响应(dCIR)中的异常值,消除采样过程中引入的随机噪声。
[0025]然后,对差分信道脉冲响应(dCIR)进行2倍下采样,以减少后续计算开销。
[0026]最后,基于对数短时能量和自适应阈值实现单个字符/单词的信号分割。
[0027]步骤6:使用分类模型,对手写内容进行分类。
[0028]具体地,可以采用以下方法:首先,利用数据增强技术,在手写距离和手写速度两个维度上对数据集进行扩充。
[0029]然后,使用基于卷积门控循环单元(CNN

GRU)的分类模型对手写内容进行字符级分类。
[0030]步骤7:使用基于编辑距离和词频的拼写纠错工具提供单词建议,修正用户手写错误/模型分类错误,输出手写输入识别结果。
[0031]具体地,将步骤6获得的分类结果输入到现有的拼写纠错工具(如symspellpy)中。基于最小编辑距离和词频来修正用户手写错误或模型分类错误,输出手写输入识别结果。
有益效果
[0032]本专利技术方法,与现有技术相比,具有以下优点:1.本专利技术仅依靠移动设备中常见的扬声器和麦克风便可实现基于主动声学传感的高精度、低延迟和鲁棒的无接触手写输入识别。其中,扬声器播放预先定义的发射信号,麦克风接收手指手写时移动过程反射的信号。本专利技术有助于降低接触公共触摸屏所导致的疾病传播风险,同时克服可穿戴设备的屏幕尺寸限制。
[0033]2.本专利技术通过去噪算法、对齐算法、解调算法和差分信道脉冲响应估计算法从麦克风采集到的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频信号的无接触手写输入识别方法,其特征在于,包括以下步骤:步骤1:使用移动设备中的扬声器逐帧播放预先定义的音频信号,利用麦克风采集手指手写输入时反射的音频信号;步骤2:对麦克风采集的音频信号进行预处理,消除环境噪声和音频设备的固有时延的影响;首先,通过带通滤波器去除音频噪声;然后,借助具有最大能量的经直接路径传输的信号的到达时间来对齐信号,降低音频设备的固有时延的影响;步骤3:对信号进行IQ解调,得到基带复信号,以获得更丰富的信息;步骤4:估算差分信道脉冲响应,消除静态多径效应的影响;首先使用最小二乘法计算信道脉冲响应,然后将信道脉冲响应沿时间轴作差,获得差分信道脉冲响应,消除静态多径效应的影响;步骤5:对信号进行后处理,消除随机噪声,减少后续计算开销并分割手写输入信号;首先,采用平滑滤波器抑制差分信道脉冲响应中的异常值,消除采样过程中引入的随机噪声;然后,对差分信道脉冲响应进行2倍下采样;最后,基于对数短时能量和自适应阈值实现单个字符/单词的信号分割;步骤6:使用分类模型,对手写内容进行分类;首先,利用数据增强技术,在手写距离和手写速度两个维度上对数据集进行扩充;然后使用基于卷积门控循环单元的分类模型对手写内容进行字符级分类;步骤7:使用基于编辑距离和词频的拼写纠错工具提供单词建议,修正用户手写错误/模型分类错误,输出手写输入识别结果。2.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法,其特征在于,步骤1中,采取具有强自相关和弱互相关的巴克码作为原始信号来设计发射信号;步骤1.1:拼接两个13位的巴克码,获得26位巴克码,避免频率泄露;步骤1.2:使用12倍频域插值得到基带序列信号,对该信号进行调制,以限制信号的带宽。3.如权利要求2所述的一种基于音频信号的无接触手写输入识别方法,其特征在于,使用频域插值法得到基带序列信号,然后对信号进行调制来限制信号的带宽;首先通过快速傅里叶变换算法,将步骤1.1得到的拼接的巴克码信号转换到频域,在频域中对信号进行零填充,使其变为之前长度的12倍;然后,使用快速傅里叶逆变换算法将其转换到时域,得到基带序列信号;最后,使用20kHz载波频率,将信号带宽限制在18kHz~22kHz的范围内;为减少相邻帧之间的干扰,为信号添加168个采样点的空白间隔,信号每帧的长度为480个采样点;发射信号为:,其中,表示经过频域插值后的基带序列信号,表示载波频率,表示圆周率,表示瞬时时刻。4.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法,其特征在于,步骤2包括以下步骤:步骤2.1:通过带通滤波器去除音频噪声;
当麦克风采集到反射音频信号后,首先使用带通滤波器去除音频噪声,然后使用零相位滤波器减少由滤波引入的信号相位偏移;步骤2.2:借助经过直接路径传输的音频信号的到达时间来对齐信号,以降低音频设备的固有时延的影响。5.如权利要求4所述的一种基于音频信号的无接触手写输入识别方法,其特征在于,步骤2.2包括以下步骤:首先,计算音频信号的短时能量来定位信号经过直接路径到达的起始帧;第帧的短时能量为:,表示麦克风接收到的第帧中第个采样点的值;将起始帧定位在接收信号的前20帧内;设置一个动态阈值,;当连续3个帧的能量超过,则将第1个帧判定为起始帧;然后,计算起始帧和发射信号之间的强自相关性,相关性最大的时刻即为信号经过直接路径到达麦克风的时刻;最后,根据直接路径的长度计算信号传输的时间,从而消除音频设备的固有播放时延。6.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法,其特征在于,步骤3中,设环境中有条传播路径,根据信号的叠加原理,麦克风接收的音频信号为:,其中和分别表示音频信号经过第个传播路径的衰减和延迟,表示发射信号,表示经过频域插值后的基带序列信号,表示瞬时时刻,表示圆周率,表示载波频率;首先,将对齐后的音频信号分别与余弦波和正弦波相乘,获得正交分量和同相分量;然后,使用截止频...

【专利技术属性】
技术研发人员:李凡孟玲曾秋阳刘晓晨
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1