一种基于音频信号的无接触手写输入识别方法技术

技术编号：37417211 阅读：12 留言：0更新日期：2023-04-30 09:40

本发明专利技术涉及一种基于音频信号的无接触手写输入识别方法，属于语音识别与移动计算应用技术领域。本发明专利技术使用移动设备中的扬声器持续播放预先定义的音频信号，并利用麦克风采集手指手写时反射的音频信号。当用户手写输入时，手的移动会引起反射音频信号的变化。通过设计一个轻量级分类网络研究音频传输信道的细粒度变化，实时识别用户的手写输入内容。利用数据增强技术在手写距离和手写速度两个维度扩充数据集，从而适应不同用户的手写习惯。此外，通过拼写纠错算法修正分类网络的识别结果，提高了容错能力。高了容错能力。高了容错能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音频信号的无接触手写输入识别方法

[0001]本专利技术涉及一种手写输入识别方法，尤其涉及一种利用智能手机扬声器和麦克风的基于主动声学传感的无接触手写输入识别方法，从而扩展人机交互方式，属于语音识别与移动计算应用

技术介绍

[0002]触屏交互作为一种简单、直接的人机交互方式，被广泛应用在各种移动设备（如智能手机和智能平板）上。但是，随着移动设备使用场景的不断拓展，仅通过手指在触摸屏上接触进行交互的方式逐渐难以满足人们日益增长的需求。
[0003]随着智能可穿戴设备的普及，越来越多的用户开始使用这些设备完成休闲娱乐、健康监测等活动。然而，为了确保便携性，可穿戴设备通常只配备了小尺寸（约1英寸）屏幕，用户很难在如此小的屏幕上进行手写输入等触屏交互。因此，为了克服可穿戴设备上触摸屏交互的局限性，研究一种方便有效的屏幕外手写输入识别方案是十分有必要的。
[0004]目前，有一些手写输入识别方法，利用广泛部署在腕带设备中的运动传感器实现。例如，当用户使用佩戴腕带设备的手进行手写时，运动传感器可以感知用户手运动引起的数据变化，进而识别出手写输入的内容。然而，研究发现，人们往往倾向于将腕带设备佩戴在非惯用手上以避免磕碰，但手写输入常使用的是惯用手。在这种情况下，腕带设备无法捕捉惯用手的行为信息，进而无法完成手写内容识别。如果强行改变用户的行为习惯，将腕带设备佩戴在惯用手上，将导致较差的用户体验。
[0005]此外，还有一些手写输入识别方法，利用移动设备上常见的音频设备（扬声器和麦克风）来...

【技术保护点】

【技术特征摘要】
1.一种基于音频信号的无接触手写输入识别方法，其特征在于，包括以下步骤：步骤1：使用移动设备中的扬声器逐帧播放预先定义的音频信号，利用麦克风采集手指手写输入时反射的音频信号；步骤2：对麦克风采集的音频信号进行预处理，消除环境噪声和音频设备的固有时延的影响；首先，通过带通滤波器去除音频噪声；然后，借助具有最大能量的经直接路径传输的信号的到达时间来对齐信号，降低音频设备的固有时延的影响；步骤3：对信号进行IQ解调，得到基带复信号，以获得更丰富的信息；步骤4：估算差分信道脉冲响应，消除静态多径效应的影响；首先使用最小二乘法计算信道脉冲响应，然后将信道脉冲响应沿时间轴作差，获得差分信道脉冲响应，消除静态多径效应的影响；步骤5：对信号进行后处理，消除随机噪声，减少后续计算开销并分割手写输入信号；首先，采用平滑滤波器抑制差分信道脉冲响应中的异常值，消除采样过程中引入的随机噪声；然后，对差分信道脉冲响应进行2倍下采样；最后，基于对数短时能量和自适应阈值实现单个字符/单词的信号分割；步骤6：使用分类模型，对手写内容进行分类；首先，利用数据增强技术，在手写距离和手写速度两个维度上对数据集进行扩充；然后使用基于卷积门控循环单元的分类模型对手写内容进行字符级分类；步骤7：使用基于编辑距离和词频的拼写纠错工具提供单词建议，修正用户手写错误/模型分类错误，输出手写输入识别结果。2.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法，其特征在于，步骤1中，采取具有强自相关和弱互相关的巴克码作为原始信号来设计发射信号；步骤1.1：拼接两个13位的巴克码，获得26位巴克码，避免频率泄露；步骤1.2：使用12倍频域插值得到基带序列信号，对该信号进行调制，以限制信号的带宽。3.如权利要求2所述的一种基于音频信号的无接触手写输入识别方法，其特征在于，使用频域插值法得到基带序列信号，然后对信号进行调制来限制信号的带宽；首先通过快速傅里叶变换算法，将步骤1.1得到的拼接的巴克码信号转换到频域，在频域中对信号进行零填充，使其变为之前长度的12倍；然后，使用快速傅里叶逆变换算法将其转换到时域，得到基带序列信号；最后，使用20kHz载波频率，将信号带宽限制在18kHz～22kHz的范围内；为减少相邻帧之间的干扰，为信号添加168个采样点的空白间隔，信号每帧的长度为480个采样点；发射信号为：，其中，表示经过频域插值后的基带序列信号，表示载波频率，表示圆周率，表示瞬时时刻。4.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法，其特征在于，步骤2包括以下步骤：步骤2.1：通过带通滤波器去除音频噪声；
当麦克风采集到反射音频信号后，首先使用带通滤波器去除音频噪声，然后使用零相位滤波器减少由滤波引入的信号相位偏移；步骤2.2：借助经过直接路径传输的音频信号的到达时间来对齐信号，以降低音频设备的固有时延的影响。5.如权利要求4所述的一种基于音频信号的无接触手写输入识别方法，其特征在于，步骤2.2包括以下步骤：首先，计算音频信号的短时能量来定位信号经过直接路径到达的起始帧；第帧的短时能量为：，表示麦克风接收到的第帧中第个采样点的值；将起始帧定位在接收信号的前20帧内；设置一个动态阈值，；当连续3个帧的能量超过，则将第1个帧判定为起始帧；然后，计算起始帧和发射信号之间的强自相关性，相关性最大的时刻即为信号经过直接路径到达麦克风的时刻；最后，根据直接路径的长度计算信号传输的时间，从而消除音频设备的固有播放时延。6.如权利要求1所述的一种基于音频信号的无接触手写输入识别方法，其特征在于，步骤3中，设环境中有条传播路径，根据信号的叠加原理，麦克风接收的音频信号为：，其中和分别表示音频信号经过第个传播路径的衰减和延迟，表示发射信号，表示经过频域插值后的基带序列信号，表示瞬时时刻，表示圆周率，表示载波频率；首先，将对齐后的音频信号分别与余弦波和正弦波相乘，获得正交分量和同相分量；然后，使用截止频...

【专利技术属性】
技术研发人员：李凡，孟玲，曾秋阳，刘晓晨，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人