语音数据生成方法、装置、终端及存储介质制造方法及图纸

技术编号:22296831 阅读:26 留言:0更新日期:2019-10-15 05:45
本公开关于一种语音数据生成方法、装置、终端及存储介质,涉及互联网技术领域,该方法包括:从待处理的视频中获取至少一个目标视频帧;对至少一个目标视频帧的手部图像进行手势识别,得到至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,目标语句包含至少一个手势类型对应的词语;根据目标语句,生成目标语句对应的语音数据。通过播放语音数据就可以了解到视频中的手语想要表达的内容,实现了听障人士与健听人士之间的无障碍交流。待处理的视频可以由普通摄像头拍摄得到,该方案不依赖特定的设备,可以直接在手机、电脑等终端上直接运行,没有额外的成本,可以更好地在听障人群中普及。

Voice data generation methods, devices, terminals and storage media

【技术实现步骤摘要】
语音数据生成方法、装置、终端及存储介质
本公开涉及互联网
,尤其涉及一种语音数据生成方法、装置、终端及存储介质。
技术介绍
中国的听障人群数量超过2000万人口,他们在日常生活中只能通过手语或者文字与其他人进行交流,但是大部分人不能很好地理解手语,因此,听障人士只能通过手写或者在电子设备上输入文字等方式与其他人进行交流,但是这种交流方式极大地降低了交流的效率。目前,听障人士也可以通过一些体感设备来实现与其他用户的正常交流,该体感设备上设置有深度摄像头,该体感设备通过深度摄像头获取用户的手势动作,对该手势动作进行分析获取该手势动作对应的文字信息,将得到的文字信息显示在屏幕上。但是,通常情况下该体感设备体积较大,听障人士无法随身携带,因此,这种方案依然无法实现听障人士与其他人的正常交流。
技术实现思路
本公开提供一种语音数据生成方法、装置、终端及存储介质,以至少解决相关技术中听障人士与健听人士之间交流困难的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种语音数据生成方法,该方法包括:从待处理的视频中获取至少一个目标视频帧,所述目标视频帧为包括手部图像的视频帧;对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,所述目标语句包含所述至少一个手势类型对应的词语;根据所述目标语句,生成所述目标语句对应的语音数据。在一种可能实现方式中,所述对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型,包括:对每个目标视频帧的手部图像进行手势识别,基于所述每个目标视频帧中手部图像中的手部轮廓,获取所述每个目标视频帧的手势形状;基于所述每个目标视频帧的手势形状以及手势形状与手势类型的对应关系,确定所述每个目标视频帧对应的手势类型。在一种可能实现方式中,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句之前,所述方法还包括:当有目标数量的连续目标视频帧的手势类型相同时,将相同的手势类型作为所述连续目标视频帧对应的手势类型。在一种可能实现方式中,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,包括:当识别出的手势类型为目标手势类型时,基于目标视频帧对应的手势类型、手势类型与词语的对应关系,获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语,所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧,所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧;将所述至少一个词语进行组合,得到所述目标语句。在一种可能实现方式中,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,包括:每识别出一个手势类型时,基于所述手势类型以及手势类型与词语的对应关系,获取所述手势类型对应的词语,将所述词语作为所述目标语句。在一种可能实现方式中,所述根据所述目标语句,生成所述目标语句对应的语音数据之后,所述方法还包括:当识别出的手势类型为目标手势类型时,则对第一目标视频帧和第二目标视频帧之间的目标视频帧所对应的词语进行语法检测,所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧,所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧;当语法检测未通过时,基于所述第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语重新生成新的目标语句,所述新的目标语句包括所述至少一个词语。在一种可能实现方式中,所述根据所述目标语句,生成所述目标语句对应的语音数据,包括下述任一步骤:当所述目标视频帧中包括人脸图像时,对所述人脸图像进行人脸识别,得到所述人脸图像对应的表情类型,基于所述表情类型,生成第一语音数据,所述第一语音数据的声调符合所述表情类型;当所述目标视频帧中包括人脸图像时,对所述人脸图像进行人脸识别,得到所述人脸图像所属的年龄范围,基于所述年龄范围,获取所述年龄范围对应的音色数据,基于所述音色数据,生成第二语音数据,所述第二语音数据的音色符合所述年龄范围;当所述目标视频帧中包括人脸图像时,对所述人脸图像进行人脸识别,得到所述人脸图像对应的性别类型,基于所述性别类型,获取所述性别类型对应的音色数据,基于所述音色数据,生成第三语音数据,所述第三语音数据的音色符合所述性别类型;基于所述手势类型的变化速度,确定所述变化速度对应的情感数据,基于所述情感数据,生成第四语音数据,所述第四语音数据的音调符合所述变化速度。在一种可能实现方式中,所述根据所述目标语句,生成所述目标语句对应的语音数据,包括:基于所述目标语句中的字符元素以及字符元素与发音的对应关系,获取所述目标语句对应的发音序列;基于所述发音序列,生成所述目标语句对应的语音数据。在一种可能实现方式中,所述从待处理的视频中获取至少一个目标视频帧,包括:将所述待处理的视频输入卷积神经网络中,由所述卷积神经网络将所述待处理的视频拆分为多个视频帧;对于任一视频帧,当检测到所述视频帧中包括手部图像时,对手部图像进行标注,将所述视频帧作为目标视频帧;当检测到所述视频帧中不包括手部图像时,将所述视频帧丢弃。根据本公开实施例的第二方面,提供一种语音数据生成装置,该装置包括:获取单元,被配置为执行从待处理的视频中获取至少一个目标视频帧,所述目标视频帧为包括手部图像的视频帧;识别单元,被配置为执行对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型;语句生成单元,被配置为执行基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,所述目标语句包含所述至少一个手势类型对应的词语;语音数据生成单元,被配置为执行根据所述目标语句,生成所述目标语句对应的语音数据。在一种可能实现方式中,所述识别单元包括:手势形状获取子单元,被配置为执行对每个目标视频帧的手部图像进行手势识别,基于所述每个目标视频帧中手部图像中的手部轮廓,获取所述每个目标视频帧的手势形状;手势类型获取子单元,被配置为执行基于所述每个目标视频帧的手势形状以及手势形状与手势类型的对应关系,确定所述每个目标视频帧对应的手势类型。在一种可能实现方式中,所述装置还包括:确定单元,被配置为执行当有目标数量的连续目标视频帧的手势类型相同时,将相同的手势类型作为所述连续目标视频帧对应的手势类型。在一种可能实现方式中,所述语句生成单元包括:词语获取子单元,被配置为执行当识别出的手势类型为目标手势类型时,基于目标视频帧对应的手势类型、手势类型与词语的对应关系,获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语,所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧,所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧;组合子单元,被配置为执行将所述至少一个词语进行组合,得到所述目标语句。在一种可能实现方式中,所述语句生成单元,还被被配置为执行每识别出一个手势类型时,基于所述手势类型以及手势类型与词语的对应关系,获取所述手势类型对应的词语,将所述词语作为所述目标语句。在一种可能实现方式中,所述装置还包括:语法检测单元,被配置为执行当识别出的手势类型为目标手势类型时,则对第一目标视频帧和第二本文档来自技高网...

【技术保护点】
1.一种语音数据生成方法,其特征在于,所述方法包括:从待处理的视频中获取至少一个目标视频帧,所述目标视频帧为包括手部图像的视频帧;对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,所述目标语句包含所述至少一个手势类型对应的词语;根据所述目标语句,生成所述目标语句对应的语音数据。

【技术特征摘要】
1.一种语音数据生成方法,其特征在于,所述方法包括:从待处理的视频中获取至少一个目标视频帧,所述目标视频帧为包括手部图像的视频帧;对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型;基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,所述目标语句包含所述至少一个手势类型对应的词语;根据所述目标语句,生成所述目标语句对应的语音数据。2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个目标视频帧的手部图像进行手势识别,得到所述至少一个目标视频帧对应的手势类型,包括:对每个目标视频帧的手部图像进行手势识别,基于所述每个目标视频帧中手部图像中的手部轮廓,获取所述每个目标视频帧的手势形状;基于所述每个目标视频帧的手势形状以及手势形状与手势类型的对应关系,确定所述每个目标视频帧对应的手势类型。3.根据权利要求2所述的方法,其特征在于,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句之前,所述方法还包括:当有目标数量的连续目标视频帧的手势类型相同时,将相同的手势类型作为所述连续目标视频帧对应的手势类型。4.根据权利要求1所述的方法,其特征在于,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,包括:当识别出的手势类型为目标手势类型时,基于目标视频帧对应的手势类型、手势类型与词语的对应关系,获取第一目标视频帧和第二目标视频帧之间的目标视频帧对应的词语,所述第一目标视频帧为本次识别出所述目标手势类型的目标视频帧,所述第二目标视频帧为前一次识别出所述目标手势类型的目标视频帧;将所述至少一个词语进行组合,得到所述目标语句。5.根据权利要求1所述的方法,其特征在于,所述基于至少一个手势类型以及手势类型与词语的对应关系,得到目标语句,包括:每识别出一个手势类型时,基于所述手势类型以及手势类...

【专利技术属性】
技术研发人员:常兵虎胡玉坤车浩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1