System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种手语识别系统中手语动作与非手语动作辨别分类方法、存储介质和电子设备技术方案_技高网
当前位置: 首页 > 专利查询>河南大学专利>正文

一种手语识别系统中手语动作与非手语动作辨别分类方法、存储介质和电子设备技术方案

技术编号:41328004 阅读:4 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种手语识别系统中手语动作与非手语动作辨别分类方法、存储介质和电子设备,基于原手语分类网络的预测分数对手语动作进行辨别分类,具体步骤为:分别将若干已训练的手语动作样本和若干非手语动作样本输入手语识别系统的预测网络中得到预测分数;对预测分数进行预处理;搭建用于分类预测分数的分类网络;将预处理后的预测分数输入神经网络中进行训练,将训练好的分类网络置入手语识别系统的手语分类模型输出与最终预测之间,将手语分类模型输出的预测分数进行处理后输入分类网络中,根据分类网络的分类结果判断目标是否为已训练的手语动作。通过本发明专利技术可以弥补现有手语识别系统的缺陷,使手语识别系统能够准确地区分。

【技术实现步骤摘要】

本专利技术涉及智能学习,尤其涉及一种手语识别系统中手语动作与非手语动作辨别分类方法。


技术介绍

1、目前,手语是聋人与聋人以及聋人与听人之间重要的沟通桥梁,是聋人与他人交流所依赖的工具。然而绝大多数听人都不懂手语的使用,这使得聋人很难得到良好的出行体验。目前国内有少数手语识别相关的软件,但它们大都是单向的文字或语音转手语,只有个别的软件有不成熟的手语转文字或语音功能,然而它们在识别手语时并不能区分出手语之外的动作,比如识别的对象做出了与手语无关的动作,手语识别软件却能够给出所谓的“手语语义”,这显然会极大程度地影响手语翻译的准确性。单向的文字或语音转手语显然并不能让听人理解聋人表达的含义,而手语转文字或语音目前还有很大的缺陷。


技术实现思路

1、本专利技术的目的是提供一种手语识别系统中手语动作与非手语动作辨别分类方法、存储介质和电子设备,使得手语识别系统能够准确地区分出手语动作和非手语动作。

2、本专利技术采用的技术方案为:

3、一种手语识别系统中手语动作与非手语动作辨别分类方法,

4、包括如下步骤:

5、s1:分别将若干已训练的手语动作样本和若干非手语动作样本输入手语识别系统的预测网络中得到预测分数;

6、s2:对预测分数进行预处理;

7、s3:搭建用于分类预测分数的分类网络;

8、s4:将预处理后的预测分数输入分类网络中的神经网络模型中进行训练;

9、s5:将训练好的分类网络置入手语识别系统的预测网络输出与最终预测之间,将手语分类模型输出的预测分数进行处理后输入分类网络中,根据分类网络的分类结果判断目标是否为已训练的手语动作。

10、所述的步骤s1中,通过以下方法得到手语动作样本和非手语动作样本:已训练手语动作样本来自训练手语的预测网络的训练集,验证集或测试集;非手语动作样本为和已训练手语动作不同的动作或行为,通过手动录制视频或上网查找符合条件的数据集。

11、已训练手语动作样本和若干非手语动作样本的总数为1000以上,且两者数量相等。

12、所述步骤s1中得到预测分数的具体方法为:

13、将所有手语动作样本和非手语动作样本输入预测网络模型中得到的输出即为需要的预测分数。

14、所述的步骤s2的具体过程为:

15、(1)将每个手语动作样本和非手语动作样本的预测分数分别按照数值从小到大排列,得到排序后的预测分数,可以观察到已训练手语动作样本的预测分数分布和非手语动作样本的预测分数分布有所差异;

16、计算相邻两个数值的差,得到n-1个差值;

17、其中n是手语分类算法训练的类数,也是单个样本的预测分数的数据数量;若n为奇数,则删掉排序后的预测分数中间的数据,若n为偶数,则删掉排序后的预测分数中间两个数据中的任意一个,得到n-1个删减后的预测分数数据;

18、(2)建立一个形状为(b,2,n-1)的张量;

19、其中b为批大小,(i,0,n-1)和(i,1,n-1)分别为第i个样本的预测分数的n-1个差值和第i个样本的预测分数的n-1个删减后的预测分数数据;

20、该形状为(b,2,n-1)的张量即为分类算法的神经网络模型的输入;

21、(3)建立一个形状为(1,n)的数组,令该数组的第1维赋值为排序后的预测分数,该数组即为分类算法的逻辑回归模型的输入;

22、(4)建立一个列表,令该列表赋值为排序后的预测分数,该列表即为分类算法的k近邻模型的输入。

23、所述步骤s3中用于分类预测分数的分类网络由三个子模型构成,具体为:一个神经网络模型,一个逻辑回归模型,一个k近邻模型;最终的预测结果为三个模型的联合预测结果,具体过程为:得到三个模型的预测结果,选择出现次数最多的结果作为最终预测结果。

24、所述步骤s3中神经网络的具体结构为:

25、依次连接两个一维卷积层,一个一维最大池化层,一个dropout层,再连接两个一维卷积层,一个一维最大池化层,一个dropout层,然后再连接一个flatten层将数据降维,最后连接两个全连接层;其中每个卷积后都连接一个relu激活函数。

26、所述步骤s3中所述神经网络结构中的四个一维卷积层按连接顺序的参数分别为:

27、conv1d(in_channels=2,out_channels=64,kernel_size=3,padding=2),

28、conv1d(in_channels=64,out_channels=64,kernel_size=3,padding=2),

29、conv1d(in_channels=64,out_channels=128,kernel_size=3,padding=2),conv1d(in_channels=128,out_channels=128,kernel_size=3,padding=2),其中conv1d表示一维卷积,in_channels和out_channels分别表示输入通道数和输出通道数,kernel_size表示卷积核大小,padding表示充填大小;

30、两个最大池化层的参数分别为:

31、max_pool1d(kernel_size=3,stride=2),

32、max_pool1d(kernel_size=3,stride=2,padding=1),

33、其中max_pool1d表示一维最大池化,kernel_size表示池化层的窗口大小,stride表示步长,padding表示充填大小;

34、两个dropout层的dropout rate设为0.5;

35、两个全连接层的参数分别为:

36、linear(in_features=59*128,out_features=1000),

37、linear(in_features=1000,out_features=2),

38、其中linear表示全连接层,in_features表示输入维度,out_features表示输出维度。

39、将步骤s2中预处理后的张量输入神经网络中进行训练时,使用交叉熵损失函数,且在计算损失之前先使用softmax函数处理神经网络的输出,损失函数具体为:

40、

41、其中y∈[0,1]表示样本类别标签,表示样本的类别预测,y0和y1分别表示第0类和第1类的样本类别标签。

42、一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行如上所述手语识别系统中手语动作与非手语动作辨别分类方法。

43、一种电子设备,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执本文档来自技高网...

【技术保护点】

1.一种手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于:

2.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述的步骤S1中,通过以下方法得到手语动作样本和非手语动作样本:

3.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤S1中得到预测分数的具体方法为:

4.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述的步骤S2的具体过程为:

5.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤S3中用于分类预测分数的分类网络由三个子模型构成,具体为:一个神经网络模型,一个逻辑回归模型,一个K近邻模型;最终的预测结果为三个模型的联合预测结果,具体过程为:得到三个模型的预测结果,选择出现次数最多的结果作为最终预测结果。

6.根据权利要求5所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤S3中神经网络的具体结构为:

7.根据权利要求6所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤S3中所述神经网络结构中的四个一维卷积层按连接顺序的参数分别为:

8.根据权利要求4所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,将步骤S2中预处理后的张量输入神经网络中进行训练时,使用交叉熵损失函数,且在计算损失之前先使用softmax函数处理神经网络的输出,损失函数具体为:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行权利要求1-8任意一项手语识别系统中手语动作与非手语动作辨别分类方法。

10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1-8任一所述的手语识别系统中手语动作与非手语动作辨别分类方法。

...

【技术特征摘要】

1.一种手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于:

2.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述的步骤s1中,通过以下方法得到手语动作样本和非手语动作样本:

3.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤s1中得到预测分数的具体方法为:

4.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述的步骤s2的具体过程为:

5.根据权利要求1所述的手语识别系统中手语动作与非手语动作辨别分类方法,其特征在于,所述步骤s3中用于分类预测分数的分类网络由三个子模型构成,具体为:一个神经网络模型,一个逻辑回归模型,一个k近邻模型;最终的预测结果为三个模型的联合预测结果,具体过程为:得到三个模型的预测结果,选择出现次数最多的结果作为最终预测结果。

6.根据权利要求5所述的手语识别系统中手语动作与非手语动作辨别分...

【专利技术属性】
技术研发人员:陈莹万富瑞喻方吴俊霆董孟豪连晨轩陈慧彬李义赵永志陈立家王赞代震
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1