【技术实现步骤摘要】
一种手语连续句的视频合成方法、装置以及设备
[0001]本专利技术涉及数据处理
,尤其涉及一种手语连续句的视频合成方法、装置以及设备。
技术介绍
[0002]手语是聋人之间相互沟通的重要语言,它主要依靠手势等肢体动作或面部表情等传递信息。然而,现有的大多语料,如《国家通用手语词典》仅仅关注手语词汇而非句子,这大大增加了聋人学习手语达到正常沟通程度的成本。同时,在手语翻译人才极度匮乏的当下,以计算机视觉为代表的手语翻译与合成技术可以作为手语翻译人员的补充替代,但目前学界和业界均缺乏大规模的手语句子语料训练模型,从而导致模型拟合性能受限。综上,手语句子语料的扩充,不仅能有效促进聋人学习手语,也能通过促进手语翻译与合成技术发展,间接方便聋人与正常人交流。因此,在句子层面扩充手语语料库是十分有必要的。
[0003]然而,通过直接录制手语连续句的方式来扩充手语语料库,需要消耗大量的人力物力,光是做一句完整的手语就有一定学习成本。与之相对,手语词汇相对有限且简单,但是根据词汇组合而成的句子却可以在数量和形式上均达到极其丰富 ...
【技术保护点】
【技术特征摘要】
1.一种手语连续句的视频合成方法,其特征在于,包括:接收手语连续句文本,所述手语连续句文本包括多个单词视频,每个单词视频包括多个单帧图像;获得每个单词视频的初始裁剪框,所述初始裁剪框覆盖所述单词视频中所有单帧图像的完整手部动作;依据所有单词视频的初始裁剪框获得每个单词视频的最大裁剪框;依据每个单词视频的最大裁剪框裁剪对应的单词视频,并将裁剪后的单词视频拼接起来,形成手语连续句视频。2.根据权利要求1所述的手语连续句的视频合成方法,其特征在于,获得每个单词视频的初始裁剪框,具体包括:获得所述单词视频中每个单帧图像的人体裁剪框,所述人体裁剪框覆盖所述单帧图像的完整手部动作;取所述单词视频中每个单帧图像的人体裁剪框的最大包络,形成所述单词视频的初始裁剪框。3.根据权利要求2所述的手语连续句的视频合成方法,其特征在于,识别单帧图像的人体裁剪框,具体包括:检测每个单帧图像中与人体位置、手语动作相关的人体关键点;依据所述人体关键点获得所述单帧图像中人体的第一顶部纵坐标、第一底部纵坐标、第一左手外侧横坐标、第一右手外侧横坐标以及第一人体中心位置;将第一顶部纵坐标、第一底部纵坐标、第一左手外侧横坐标、第一右手外侧横坐标以及第一人体中心位置确定的范围作为所述人体裁剪框。4.根据权利要求3所述的手语连续句的视频合成方法,其特征在于,将所述单词视频中所有单帧图像的第一顶部纵坐标和第一左手外侧横坐标中的最小值作为所述初始裁剪框的第二顶部纵坐标和第二左手外侧横坐标,将所述所有单帧图像的第一底部纵坐标和第一人体中心位置的中值作为所述初始裁剪框的第二底部纵坐标和第二人体中心位置,将所述所有单帧图像的第一右手外侧横坐标中的最大值作为所述初始裁剪框的第二右手外侧横坐标。5.根据权利要求1所述的手语连续句的视频合成方法,其特征在于,依据所有单词视频的初始裁剪框获得所述单词视频的最大裁剪框,具体包括:取所有单词视频的初始裁剪框的最大包络;将所述最大包络与每个单词视频的第二人体中心位置进行对齐,获得所述单词视频的最大裁剪框。6.根据权利要求3所述的手语连续句的视频合成方法,其特征在于,所述第一顶部纵坐标为第三顶部纵坐标和第四顶部纵坐标中的最小值,所述第三顶部纵坐标为所述单帧图像中人体的左肩部纵坐标和右肩部纵坐标的平均值与左肩部横坐标和右肩部横坐标之间的差值的1.2倍的差值;所述第四顶部纵坐标为左腕部纵坐标和右腕部纵坐标的平均值与手掌宽度之间的差值。7.根据权利要求3所述的手语连续句的视频合成方法,其特征在于,所述第一左手外侧横坐标是第三左手外侧横...
【专利技术属性】
技术研发人员:王啸天,陈茂东,程大龙,
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。