一种基于声波感知的端到端连续手势输入方法技术

技术编号：38144934 阅读：6 留言：0更新日期：2023-07-08 10:02

本发明专利技术公开了一种基于声波感知的端到端连续手势输入方法。该方法包括：利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号；从所述声波序列信号检测出独立的连续或离散的字符手势数据，并合成伪单词数据，进而形成等大小窗口的声波序列；将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型，识别出每一个时间片对应的一个字符手势；根据CTC的编码规则，将连续字符对应的时间片进行合并，得到用户连续文本手势。本发明专利技术能够根据采集的声波信号，实现连续手势书写输入。实现连续手势书写输入。实现连续手势书写输入。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声波感知的端到端连续手势输入方法

[0001]本专利技术涉及手势识别
，更具体地，涉及一种基于声波感知的端到端连续手势输入方法。

技术介绍

[0002]随着智能设备的多样化，如智能耳机，智能眼镜，智能手表，智能车载，智能音响，智能家具等，智能设备的尺寸，形态变得越来越丰富。智能设备本身也不再像以往，必须配置有键盘，甚至屏幕也不一定配备。面对这样的变化，人与智能设备的交互技术也迎来了新的挑战，即如何利用智能设备本身配备的传感器实现高效、自然的交互。当前，利用声波作为感知媒介的人机交互方案已经被广泛研究，但已有的工作只能够对离散的手势进行识别，即手势之间需要有明显的停顿，形成时间上的隔离。尽管此种方案对于一些简单的交互任务能够满足需求，但是对于文本输入这样的交互需求，却显得举步维艰。因为单词的长度是不同的，这就导致不同的单词的样本长度是不同的，且单词的数量非常庞大，所以无法如同以往的思路，将每一个单词作为一个离散的手势进行识别。
[0003]手势识别任务，首先需要预先设定手势集合，每个手势对应一个标签。其次，再选用一种或多种感知媒介对手势信息进行捕捉，常见的感知媒介如，视觉，Wi
‑
Fi，射频信号，惯性传感器，声波等。其中，视觉、Wi
‑
Fi和射频信号都需要额外的设备作为辅助，而惯性传感器若是应用于可穿戴设备上，则需额外的辅助设备，而声波则是例外，因为现在已有的智能设备基本都配备了至少一组声音收发器(如麦克风和扬声器)。传统的手势识别交互技术基本将任务设定为识别任...

【技术保护点】

【技术特征摘要】
1.一种基于声波感知的端到端连续手势输入方法，包括以下步骤：利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号；从所述声波序列信号检测出独立的连续或离散的字符手势数据，并合成伪单词数据，进而形成等大小窗口的声波序列；将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型，识别出每一个时间片对应的一个字符手势；根据CTC的编码规则，将连续字符对应的时间片进行合并，得到用户连续文本手势。2.根据权利要求1所述的方法，其特征在于，通过以下步骤训练所述连续文本手势识别模型：采集数据集，该数据集包含用户实施字符手势对应的一个或多个声波序列信号；对所述数据集进行预处理以构建训练数据集，该训练数据集反映伪连续字符手势所切分出的等大小窗口序列与字符手势标签之间的对应关系；利用所述训练数据集预训练特征提取器，该特征提取器用于提取与手势动作相对移动相关的特征；在所述特征提取器的基础上添加语言模型，形成端到端连续文本手势识别模型，其中语言模型用于捕捉时间序列的上下文信息，其输入是所述特征提取器的输出，其输出为字符标签序列；利用所述训练数据集训练所述连续文本手势识别模型，并且训练过程中，冻结预训练的特征提取器。3.根据权利要求2所述的方法，其特征在于，对所述数据集进行预处理以构建训练数据集包括：对所述数据集利用点阻滤波器进行滤波；对滤波后的数据做快速傅里叶变换，以将一维声信号序列转换成二维的时频图；基于所述时频图，通过动作检测算法识别出每个手势对应的时频图；对于所识别出的每个手势对应的时频图，通过合成方式，伪造连续的字符手势数据，获得伪连续字符手势数据集；将所述伪连续字符手势数据集的样本切分为等大小窗口序列，形成所述训练...

【专利技术属性】
技术研发人员：邹永攀，郑灿林，陈威宇，伍楷舜，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人