利用AR眼镜进行手语识别的方法、AR眼镜及存储介质技术

技术编号：41300828 阅读：3 留言：0更新日期：2024-05-13 14:48

本发明专利技术涉及人工智能领域，具体涉及一种利用AR眼镜进行手语识别的方法、AR眼镜及存储介质，旨在提高手语识别的精准度。本发明专利技术的手语识别方法包括：通过AR眼镜获取交流视频；将交流视频输入第一YOLOv8模型检测是否存在唇语；若存在唇语，则根据交流视频分别生成手势语句和唇语语句并组合为识别结果；若不存在唇语，则根据交流视频生成手势语句作为识别结果；将识别结果以文本的形式在AR眼镜上进行显示或以语音形式播放。本发明专利技术使用唇语与手语双重识别的方法，提高了手语识别的精准度，利用AR眼镜进行识别增加了手语识别的实时性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体涉及一种利用ar眼镜进行手语识别的方法、ar眼镜及存储介质。

技术介绍

1、手语是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言，它是“有声语言的重要辅助工具”，而对于听力障碍的人来说，它则是主要的交际工具。

2、对于无手语基础的用户，在与手语人士进行沟通时，可以先通过摄像头采集手语人士进行手语沟通的视频数据，然后从视频数据中提取包括手势动作的图像帧，再采用手势识别模型对关键图像帧中的手势动作进行识别，得到手势动作对应的语义信息，最后可以采用ar(augmented real ity，增强现实)技术在三维空间中向与手语人士沟通的用户展示语义信息。

3、但是现有技术中，通过手语翻译出来的文字比较生硬，而且由于识别角度或者手势变换比较迅速的原因，有时候中间手势无法正确识别的时候，甚至串联出来的语句与所想表达的意思区别很大，需要以较为缓慢的速度进行手势表达，才可以较为正确地对全部手势进行完整识别。

技术实现思路

1、为了解决现有技术中的上述问题，本专利技术提出了一种利用ar眼镜进行手语识别的方法、ar眼镜及存储介质，提高了手语识别的精准度。

2、本专利技术的第一方面，提出一种利用ar眼镜进行手语识别的方法，所述方法包括：

3、通过ar眼镜获取交流视频；

4、将所述交流视频输入第一yolov8模型检测是否存在唇语；</p>

5、若存在唇语，则根据所述交流视频分别生成手势语句和唇语语句并组合为识别结果；

6、若不存在唇语，则根据所述交流视频生成手势语句作为识别结果；

7、将所述识别结果以文本的形式在所述ar眼镜上进行显示或以语音形式播放。

8、优选地，“根据所述交流视频分别生成手势语句和唇语语句并组合为识别结果”的步骤包括：

9、将所述交流视频输入第二yolov8模型获取原子动作序列和对应的第一离散语句以及手势置信度均值；

10、将所述原子动作序列和所述第一离散语句输入双门lstm模型，生成手势对应的第二离散语句；

11、将所述交流视频输入所述第一yolov8模型获取唇语对应的第三离散语句以及唇语置信度均值；

12、将所述第二离散语句输入第一transformer模型，使得所述第一transformer模型结合上下文语境对所述第二离散语句进行语义理解，进而对缺失或不通顺的部分进行补充或调整，得到所述手势语句；

13、将所述第三离散语句输入第二transformer模型，使得所述第二transformer模型结合上下文语境对所述第三离散语句进行语义理解，进而对缺失或不通顺的部分进行补充或调整，得到所述唇语语句；

14、根据所述手势置信度均值、所述唇语置信度均值和预设权重对所述手势语句和所述唇语语句进行组合，得到识别结果；

15、将所述识别结果分别反馈到所述第一transformer模型和所述第二transformer模型，融入所述上下文语境中参与后续的语义理解。

16、优选地，所述预设权重包括手势权重和唇语权重，且所述手势权重与所述唇语权重的和为1；

17、“根据所述手势置信度均值、所述唇语置信度均值和预设权重对所述手势语句和所述唇语语句进行组合，得到识别结果”的步骤包括：

18、若所述手势置信度均值与所述手势权重的乘积大于或等于所述唇语置信度均值与所述唇语权重的乘积，则将所述手势语句作为识别结果，否则将所述唇语语句作为识别结果。

19、优选地，“根据所述交流视频生成手势语句作为识别结果”的步骤包括：

20、将所述交流视频输入第二yolov8模型获取原子动作序列和对应的第一离散语句；

21、将所述原子动作序列和所述第一离散语句输入双门lstm模型，生成手势对应的第二离散语句；

22、将所述第二离散语句输入第一transformer模型，使得所述第一transformer模型结合上下文语境对所述第二离散语句进行语义理解，进而对缺失或不通顺的部分进行补充或调整，得到识别结果；

23、将所述识别结果反馈到所述第一transformer模型，融入所述上下文语境中参与后续的语义理解。

24、优选地，“通过ar眼镜获取交流视频”的步骤包括：

25、若当前图像中存在模糊、重影或残影现象，则丢弃所述当前图像并重新获取一帧；

26、若所述当前图像的亮度低于预设的亮度范围，则打开所述ar眼镜的补光灯；

27、若所述当前图像的亮度高于所述预设的亮度范围，则调整所述当前图像的亮度到所述预设的亮度范围；

28、若所述当前图像的分辨率高于预设的分辨率范围，则将所述当前图像压缩到预设的分辨率范围。

29、优选地，所述第一yolov8模型预先使用包含唇语视频的第一训练集进行训练；所述第二yolov8模型预先使用包含手势视频的第二训练集进行训练。

30、优选地，所述双门lstm模型包括：2个输入门、2个遗忘门和1个输出门；

31、所述第一transformer模型和所述第二transformer模型的训练方法包括：

32、构建第三训练集，所述第三训练集包括：由手势生成的离散语句和由唇语生成的离散语句；

33、从所述第三训练集中选取离散语句输入到待训练transformer模型；

34、根据所述待训练transformer模型的输出结果与真实标签进行比较并计算损失函数；

35、使用反向传播算法更新所述待训练transformer模型的参数；

36、重复执行，直到所述损失函数最小；

37、复制训练好的transformer模型作为所述第一transformer模型和所述第二transformer模型。

38、优选地，所述手势权重和所述唇语权重的确定方法包括：

39、构建数据集，所述数据集中包括视频片段和对应的正确语句；所述视频片段中同时包含手势和唇语；

40、每次从所述数据集中选取一个视频片段；

41、将选取的视频片段输入到所述第二yolov8模型获取手语动作序列和对应的第一离散语句；

42、将所述手语动作序列和所述第一离散语句输入双门lstm模型，生成手势对应的第二离散语句；

43、将所述选取的视频片段输入所述第一yolov8模型获取唇语对应的第三离散语句；

44、将所述第二离散语句和所述第三离散语句分别输入所述第一transformer模型和所述第二transformer模型，分别得到手势语句和唇语语句；

45、利用tf-idf算法分别计算所述手势语句和所述唇语语句与所述正确语句之间的相似度，得到手语相似度和唇语相似度本文档来自技高网...

【技术保护点】

1.一种利用AR眼镜进行手语识别的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的利用AR眼镜进行手语识别的方法，其特征在于，“根据所述交流视频分别生成手势语句和唇语语句并组合为识别结果”的步骤包括：

3.根据权利要求2所述的利用AR眼镜进行手语识别的方法，其特征在于，所述预设权重包括手势权重和唇语权重，且所述手势权重与所述唇语权重的和为1；

4.根据权利要求1所述的利用AR眼镜进行手语识别的方法，其特征在于，“根据所述交流视频生成手势语句作为识别结果”的步骤包括：

5.根据权利要求1-4中任一项所述的利用AR眼镜进行手语识别的方法，其特征在于，“通过AR眼镜获取交流视频”的步骤包括：

6.根据权利要求2所述的利用AR眼镜进行手语识别的方法，其特征在于，

7.根据权利要求2所述的利用AR眼镜进行手语识别的方法，其特征在于，所述双门LSTM模型包括：2个输入门、2个遗忘门和1个输出门；

8.根据权利要求3所述的利用AR眼镜进行手语识别的方法，其特征在于，所述手势权重和所述唇语权重的确定方法包括：

9.一种AR眼镜，其特征在于，所述AR眼镜根据如权利要求1-8中任一项所述方法进行手语识别。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1-8中任一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种利用ar眼镜进行手语识别的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的利用ar眼镜进行手语识别的方法，其特征在于，“根据所述交流视频分别生成手势语句和唇语语句并组合为识别结果”的步骤包括：

3.根据权利要求2所述的利用ar眼镜进行手语识别的方法，其特征在于，所述预设权重包括手势权重和唇语权重，且所述手势权重与所述唇语权重的和为1；

4.根据权利要求1所述的利用ar眼镜进行手语识别的方法，其特征在于，“根据所述交流视频生成手势语句作为识别结果”的步骤包括：

5.根据权利要求1-4中任一项所述的利用ar眼镜进行手语识别的方法，其特征在于，“通过a...

【专利技术属性】
技术研发人员：曹晋，崔海涛，李星，
申请(专利权)人：谷东科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人