一种手语识别方法及相关装置、设备、存储介质制造方法及图纸

技术编号：37478029 阅读：14 留言：0更新日期：2023-05-07 09:19

本申请公开了一种手语识别方法及相关装置、设备、存储介质，手语识别方法包括：获取分句视频帧序列，分句视频帧序列是对手语动作序列进行采集得到，分句视频帧序列中的手语动作所表达内容为一个分句；对分句视频帧序列按照分词进行划分，得到若干分词视频帧序列，分句视频帧序列中的手语动作所表达内容为一个分词；对各分词视频帧序列进行动作识别，得到各分词视频帧序列对应的分词；利用各分词视频帧序列对应的分词，得到分句视频帧序列对应的分句。上述方案，能够提高视频通话沟通效率。能够提高视频通话沟通效率。能够提高视频通话沟通效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种手语识别方法及相关装置、设备、存储介质

[0001]本申请涉及视频识别领域，特别是涉及一种手语识别方法及相关装置、设备、存储介质。

技术介绍

[0002]在现有通话场景下，一般采用文本和语音互转的方式实现听障人士的视频电话交流，但是该方法并不能提高沟通效率。并且视频电话场景的即时性高，用户对视频电话沟通有着较高的效率期待，在视频电话沟通的过程中，很多用户并不会积极等待听障人士进行打字沟通，从而导致实际沟通效果差，用户满意度低。

技术实现思路

[0003]本申请至少提供一种手语识别方法及相关装置、设备、存储介质，能够提高视频通话沟通效率。
[0004]本申请第一方面提供了一种手语识别方法，该方法包括：获取分句视频帧序列，分句视频帧序列是对手语动作序列进行采集得到，分句视频帧序列中的手语动作所表达内容为一个分句；对分句视频帧序列按照分词进行划分，得到若干分词视频帧序列，分词视频帧序列中的手语动作所表达内容为一个分词；对各分词视频帧序列进行动作识别，得到各分词视频帧序列对应的分词；利用各分词视频帧序列对应的分词，得到分句视频帧序列对应的分句。
[0005]其中，对各分词视频帧序列进行动作识别，得到各分词视频帧序列对应的分词，包括：对于各分词视频帧序列，提取分词视频帧序列的分词语义特征；从若干预设语义特征中，查找出与分词语义特征匹配的预设语义特征；将查找出的预设语义特征对应的分词作为分词视频帧序列对应的分词。
[0006]其中，从若干预设语义特征中，查找出与分词语义特征匹配的预设语...

【技术保护点】

【技术特征摘要】
1.一种手语识别方法，其特征在于，包括：获取分句视频帧序列，所述分句视频帧序列是对手语动作序列进行采集得到，所述分句视频帧序列中的手语动作所表达内容为一个分句；对所述分句视频帧序列按照分词进行划分，得到若干分词视频帧序列，所述分词视频帧序列中的手语动作所表达内容为一个分词；对各所述分词视频帧序列进行动作识别，得到各所述分词视频帧序列对应的分词；利用各所述分词视频帧序列对应的分词，得到所述分句视频帧序列对应的分句。2.根据权利要求1所述的方法，其特征在于，所述对各所述分词视频帧序列进行动作识别，得到各所述分词视频帧序列对应的分词，包括：对于各所述分词视频帧序列，提取所述分词视频帧序列的分词语义特征；从若干预设语义特征中，查找出与所述分词语义特征匹配的所述预设语义特征；将查找出的所述预设语义特征对应的分词作为所述分词视频帧序列对应的分词。3.根据权利要求2所述的方法，其特征在于，所述从若干预设语义特征中，查找出与所述分词语义特征匹配的所述预设语义特征，包括：获取所述分词语义特征分别与各所述预设语义特征之间的相似度；将所述相似度最高的所述预设语义特征，作为与所述分词语义特征匹配的所述预设语义特征；和/或，所述分词语义特征是利用视觉编码器提取得到的，所述方法还包括：获取若干样本分词视频帧序列，所述若干样本分词视频帧序列包括第一样本视频帧序列、至少一个第二样本视频帧序列和至少一个第三样本视频帧序列，所述第一样本视频帧序列和第二样本视频帧序列为不同手语演示者对同一分词进行手语动作的视频帧序列，所述第一样本视频帧序列和第三样本视频帧序列为对不同分词进行手语动作的视频帧序列；利用所述视觉编码器分别对所述样本分词视频帧序列进行特征提取，得到所述样本分词视频帧序列对应的样本语义特征；利用所述第一样本视频帧序列和第二样本视频帧序列之间关于所述样本语义特征的第一相似度、所述第一样本视频帧序列与第三样本视频帧序列之间关于所述样本语义特征的第二相似度，得到特征提取损失；利用所述特征提取损失调整所述视觉编码器的参数；其中，至少一个所述预设语义特征为所述样本分词视频帧序列对应的样本语义特征。4.根据权利要求1所述的方法，其特征在于，所述对所述分句视频帧序列按照分词进行划分，得到若干分词视频帧序列，包括：从所述分句视频帧序列中，查找出属于两个手语动作之间的分隔的若干词间隔视频帧；对于各相邻两个所述词间隔视频帧，从所述分句视频帧序列中获取所述相邻两个所述词间隔视频帧之间的视频帧，作为所述相邻两个所述词间隔视频帧对应的所述分词视频帧序列。5.根据权利要求4所述的方法，其特征在于，所述从所述分句视频帧序列中，查找出属于两个手语动作之间的分隔的若干词间隔视频帧，包括：每获取所述分句视频帧序列中的一视频帧对应的第一视频帧序列，对所述视频帧对应
的第一视频帧序列进行词间隔识别，得到所述视频帧的词间隔识别结果，其中，所述视频帧对应的第一视频帧序列包括所述视频帧以及位于所述视频帧之后的第一数量视频帧；响应于所述视频帧的词间隔识别结果满足预设词间隔要求，确定所述视频帧为所述词间隔视频帧。6.根据权利要求5所述的方法，其特征在于，所述词间隔识别结果是利用词间隔识别器进行词间隔识别得到的；和/或，所述视频帧的词间隔识别结果为所述视频帧的词间隔分数，所述预设词间隔要求为所述视频帧的词间隔分数大于预设阈值。7.根据权利要求1所述的方法，其特征在于，所述获取分句视频帧序列，包括：每获取一第二视频帧序列，对所述第二视频帧序列进行运动状态识别，得到所述第二视频帧序列的状态识别结...

【专利技术属性】
技术研发人员：彭英伦，陈茂东，刘平平，
申请(专利权)人：广州市讯飞樽鸿信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人