当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于声波感知的端到端连续手势输入方法技术

技术编号:38144934 阅读:6 留言:0更新日期:2023-07-08 10:02
本发明专利技术公开了一种基于声波感知的端到端连续手势输入方法。该方法包括:利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号;从所述声波序列信号检测出独立的连续或离散的字符手势数据,并合成伪单词数据,进而形成等大小窗口的声波序列;将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型,识别出每一个时间片对应的一个字符手势;根据CTC的编码规则,将连续字符对应的时间片进行合并,得到用户连续文本手势。本发明专利技术能够根据采集的声波信号,实现连续手势书写输入。实现连续手势书写输入。实现连续手势书写输入。

【技术实现步骤摘要】
一种基于声波感知的端到端连续手势输入方法


[0001]本专利技术涉及手势识别
,更具体地,涉及一种基于声波感知的端到端连续手势输入方法。

技术介绍

[0002]随着智能设备的多样化,如智能耳机,智能眼镜,智能手表,智能车载,智能音响,智能家具等,智能设备的尺寸,形态变得越来越丰富。智能设备本身也不再像以往,必须配置有键盘,甚至屏幕也不一定配备。面对这样的变化,人与智能设备的交互技术也迎来了新的挑战,即如何利用智能设备本身配备的传感器实现高效、自然的交互。当前,利用声波作为感知媒介的人机交互方案已经被广泛研究,但已有的工作只能够对离散的手势进行识别,即手势之间需要有明显的停顿,形成时间上的隔离。尽管此种方案对于一些简单的交互任务能够满足需求,但是对于文本输入这样的交互需求,却显得举步维艰。因为单词的长度是不同的,这就导致不同的单词的样本长度是不同的,且单词的数量非常庞大,所以无法如同以往的思路,将每一个单词作为一个离散的手势进行识别。
[0003]手势识别任务,首先需要预先设定手势集合,每个手势对应一个标签。其次,再选用一种或多种感知媒介对手势信息进行捕捉,常见的感知媒介如,视觉,Wi

Fi,射频信号,惯性传感器,声波等。其中,视觉、Wi

Fi和射频信号都需要额外的设备作为辅助,而惯性传感器若是应用于可穿戴设备上,则需额外的辅助设备,而声波则是例外,因为现在已有的智能设备基本都配备了至少一组声音收发器(如麦克风和扬声器)。传统的手势识别交互技术基本将任务设定为识别任务,在选择其中的一种或多种感知媒介采集完数据之后,通过识别模型(如深度神经网络)进行一对一的分类,即只能够针对单一离散手势的识别。
[0004]在现有技术中,手势识别分为离散型的手势识别技术和连续型手势识别技术。传统的离散型手势识别技术只针对离散的手势,这些方案主要利用感知媒介对不同手势的特异性反应,如超声波的多普勒效应(DopplerEffect)对手势活动进行物理建模,由于不同的手势引起的声波频率的变化模式不同,从而能够区分出不同的手势。利用该特性构建离散的手势集合,将该特征作为深度神经网络的输入进行手势识别。同样的,还有基于Wi

Fi信号,视觉信号等技术方案。这种方式假设每一次交互都只使用一个手势信号,应用场景窄,不适应于连续的手势交互,并且对新用户和新环境的使用效果不佳。
[0005]如上所述,传统的手势识别任务只能够针对离散手势的识别,但是就文本输入这样的交互任务而言,传统的手势识别任务有很大的局限性。针对该问题,有学者创新性的将手势识别任务转化为手势翻译任务,将原本必须视为单一手势的输入转化为一个时序手势输入,不再拘束于一个样本内存在多少个手势。借助语音翻译领域的技术路线实现了对连续手势的识别。但是当前已有的工作的应用面窄,只能应用于智能手表这种设备,此外,需要采集大量的连续手势样本对模型进行训练,而且需要用户提供部分数据,导致用户有较高的使用成本。
[0006]综上,在现有技术中,传统的离散手势识别技术若应用到文本输入上,则不符合用
户的自然书写规律。因为用户更习惯于以单词为基本单位进行书写,而不是以字符为单位进行书写。而最新的连续手势识别技术,首先是以惯性传感单元作为信息传递媒介,故而需要佩戴具有惯性传感单元的智能设备,也就是需要额外的设备来辅助输入,从而影响了用户体验。此外,已有的工作在多系统模型进行训练时,需要采集大量的单词级数据,同时为了提高新用户的使用效果,还需要用户提供一部分个人数据对系统进行定制,这将给系统的搭建和用户带来较高的使用代价。

技术实现思路

[0007]本专利技术的目的是克服上述现有技术的缺陷,提供一种基于声波感知的端到端连续手势输入方法。该方法包括以下步骤:
[0008]利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号;
[0009]从所述声波序列信号检测出独立的连续或离散的字符手势数据,并合成伪单词数据,进而形成等大小窗口的声波序列;
[0010]将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型,识别出每一个时间片对应的一个字符手势;
[0011]根据CTC的编码规则,将连续字符对应的时间片进行合并,得到用户连续文本手势。
[0012]与现有技术相比,本专利技术的优点在于,提出了基于声波感知的端到端连续文本输入方法,将连续文本手势识别转化为类翻译问题,并借助CTC(ConnectionistTemporalClassification)技术解决连续文本识别所带来的输入与输出序列长度不一,难以为数据标注标签的问题,从而实现了单词级的文本书写。
[0013]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0014]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0015]图1是根据本专利技术一个实施例的基于声波感知的端到端连续手势输入方法的流程图;
[0016]图2是根据本专利技术一个实施例的基于声波感知的端到端连续手势输入方法的过程示意图;
[0017]图3是根据本专利技术一个实施例的一个真实的连续字符手势文本样例;
[0018]图4是根据本专利技术一个实施例的连续文本手势识别模型的架构图;
[0019]图5是根据本专利技术一个实施例的预处理方法验证效果图。
具体实施方式
[0020]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本
专利技术的范围。
[0021]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0022]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0023]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0024]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0025]结合图1和图2所示,所提供的基于声波感知的端到端连续手势输入方法包括以下步骤。
[0026]步骤S110,采集用户书写的连续字符手势数据集和离散字符手势数据集。
[0027]在下文中,以利用智能设备采集声波样本为例描述本专利技术,智能设备可以是智能手机、智能手表、智能音箱等各种类型的设备。
[0028]当前智能设备普遍配置至少一对音频收发器(扬声器和麦克风)。首先,激活智能设备的扬声器连续播放固定高频的声波信号,并使用麦克风接收回传的声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声波感知的端到端连续手势输入方法,包括以下步骤:利用智能设备内置的音频收发器采集用户按照目标单词书写手势时对应的一个或多个声波序列信号;从所述声波序列信号检测出独立的连续或离散的字符手势数据,并合成伪单词数据,进而形成等大小窗口的声波序列;将所述等大小窗口的声波序列输入到经训练的连续文本手势识别模型,识别出每一个时间片对应的一个字符手势;根据CTC的编码规则,将连续字符对应的时间片进行合并,得到用户连续文本手势。2.根据权利要求1所述的方法,其特征在于,通过以下步骤训练所述连续文本手势识别模型:采集数据集,该数据集包含用户实施字符手势对应的一个或多个声波序列信号;对所述数据集进行预处理以构建训练数据集,该训练数据集反映伪连续字符手势所切分出的等大小窗口序列与字符手势标签之间的对应关系;利用所述训练数据集预训练特征提取器,该特征提取器用于提取与手势动作相对移动相关的特征;在所述特征提取器的基础上添加语言模型,形成端到端连续文本手势识别模型,其中语言模型用于捕捉时间序列的上下文信息,其输入是所述特征提取器的输出,其输出为字符标签序列;利用所述训练数据集训练所述连续文本手势识别模型,并且训练过程中,冻结预训练的特征提取器。3.根据权利要求2所述的方法,其特征在于,对所述数据集进行预处理以构建训练数据集包括:对所述数据集利用点阻滤波器进行滤波;对滤波后的数据做快速傅里叶变换,以将一维声信号序列转换成二维的时频图;基于所述时频图,通过动作检测算法识别出每个手势对应的时频图;对于所识别出的每个手势对应的时频图,通过合成方式,伪造连续的字符手势数据,获得伪连续字符手势数据集;将所述伪连续字符手势数据集的样本切分为等大小窗口序列,形成所述训练...

【专利技术属性】
技术研发人员:邹永攀郑灿林陈威宇伍楷舜
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1