多媒体信息的处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33528238 阅读:16 留言:0更新日期:2022-05-19 01:54
本公开涉及一种多媒体信息的处理方法、装置、设备及存储介质。本公开通过获取听障人士打手语的原视频信息,并对该原视频信息中的手语画面进行视觉识别,得到第一手语文本序列。另外,还可以对该手语画面进行图像处理,得到能够表征手语语气的第一特征信息。进一步,根据该第一手语文本序列和第一特征信息,生成具有该语气的第一自然语言文本,使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思,从而保证正常人和听障人士可以正常沟通、交流。交流。交流。

【技术实现步骤摘要】
多媒体信息的处理方法、装置、设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种多媒体信息的处理方法、装置、设备及存储介质。

技术介绍

[0002]在真实的沟通场景中,正常人之间的沟通是可以无障碍的,例如,沟通双方可以通过文字、语音等方式进行沟通。但是,在正常人和听障人士沟通的场景中,正常人可能看不懂听障人士的手语,因此,可以通过手语翻译软件来实现手语和自然语言之间的双向翻译。
[0003]但是,本申请的专利技术人发现,当前的手语翻译软件可以将听障人士的手语翻译成手语文本序列,但是,手语文本序列并不足以完整或准确表达出听障人士真正想要表达的意思,因此,会导致正常人和听障人士之间的沟通不顺畅。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种多媒体信息的处理方法、装置、设备及存储介质,使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思,从而保证正常人和听障人士可以正常沟通、交流。
[0005]第一方面,本公开实施例提供一种多媒体信息的处理方法,包括:
[0006]获取原视频信息,所述原视频信息包括第一用户的手语画面;
[0007]对所述手语画面进行视觉识别,得到第一手语文本序列;
[0008]对所述手语画面进行图像处理,得到第一特征信息,所述第一特征信息用于表征手语的第一语气;
[0009]根据所述第一手语文本序列和所述第一特征信息,生成具有所述第一语气的第一自然语言文本。
[0010]第二方面,本公开实施例提供一种多媒体信息的处理装置,包括:
[0011]第一获取模块,用于获取原视频信息,所述原视频信息包括第一用户的手语画面;
[0012]视觉识别模块,用于对所述手语画面进行视觉识别,得到第一手语文本序列;
[0013]图像处理模块,用于对所述手语画面进行图像处理,得到第一特征信息,所述第一特征信息用于表征手语的第一语气;
[0014]第一生成模块,用于根据所述第一手语文本序列和所述第一特征信息,生成具有所述第一语气的第一自然语言文本。
[0015]第三方面,本公开实施例提供一种电子设备,包括:
[0016]存储器;
[0017]处理器;以及
[0018]计算机程序;
[0019]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实
现如第一方面所述的方法。
[0020]第四方面,本公开实施例提供一种用于处理多媒体信息的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
[0021]本公开实施例提供的多媒体信息的处理方法、装置、设备及存储介质,通过获取听障人士打手语的原视频信息,并对该原视频信息中的手语画面进行视觉识别,得到第一手语文本序列。另外,还可以对该手语画面进行图像处理,得到能够表征手语语气的第一特征信息。进一步,根据该第一手语文本序列和第一特征信息,生成具有该语气的第一自然语言文本,使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思,从而保证正常人和听障人士可以正常沟通、交流。
附图说明
[0022]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0023]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1为本公开实施例提供的多媒体信息的处理方法流程图;
[0025]图2为本公开实施例提供的一种应用场景的示意图;
[0026]图3为本公开实施例提供的另一种应用场景的示意图;
[0027]图4为本公开另一实施例提供的多媒体信息的处理方法流程图;
[0028]图5为本公开另一实施例提供的手语识别链路的示意图;
[0029]图6为本公开另一实施例提供的抽帧的流程图;
[0030]图7为本公开另一实施例提供的人脸区域特征提取的示意图;
[0031]图8为本公开另一实施例提供的单流模型的示意图;
[0032]图9为本公开另一实施例提供的双流模型的示意图;
[0033]图10为本公开另一实施例提供的多任务模型的示意图;
[0034]图11为本公开另一实施例提供的多媒体信息的处理方法流程图;
[0035]图12为本公开另一实施例提供的手语合成链路的示意图;
[0036]图13为本公开另一实施例提供的多任务模型在单输入情况下的示意图;
[0037]图14为本公开实施例提供的多媒体信息的处理装置的结构示意图;
[0038]图15为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
[0039]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0040]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0041]在正常人和听障人士沟通的场景中,正常人可能看不懂听障人士的手语,因此,可以通过手语翻译软件来实现手语和自然语言之间的双向翻译。但是,本申请的专利技术人发现,当前的手语翻译软件可以将听障人士的手语翻译成手语文本序列,但是,手语文本序列并不足以完整或准确表达出听障人士真正想要表达的意思,因此,会导致正常人和听障人士之间的沟通不顺畅。针对该问题,本公开实施例提供了一种多媒体信息的处理方法,该方法可以适用于单向或双向的手语翻译产品中,其中,单向的手语翻译可以是从手语到自然语言的翻译或从自然语言到手语的翻译。双向的手语翻译包括手语识别链路和手语合成链路,手语识别链路完成从手语到自然语言的翻译,例如,将听障人士的手语翻译成自然语言。手语合成链路完成从自然语言到手语的翻译,例如,将自然语言翻译成手语。
[0042]具体的,在手语识别链路中,本公开实施例可以根据视觉识别得到的手语文本序列和可用于判断语气的因素,生成包含正确语气的自然语言句子。例如,输入是“苹果/脆/好”和疑问的表情特征,输出是“苹果脆吗?”。
[0043]在手语合成链路中,本公开实施例可以根据自然语言句子和可用于判断语气的因素,生成手语文本序列和语气类别。例如,输入是“苹果脆吗?”和语调,输出为“苹果/脆/好”和疑问类别。其中,手语文本序列也可以称为手语词汇序列。自然语言句子也可以称为自然语言文本。下面结合具体的实施例对该方法进行介绍。
[0044]图1为本公开实施例提供的多媒体信息的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体信息的处理方法,其中,所述方法包括:获取原视频信息,所述原视频信息包括第一用户的手语画面;对所述手语画面进行视觉识别,得到第一手语文本序列;对所述手语画面进行图像处理,得到第一特征信息,所述第一特征信息用于表征手语的第一语气;根据所述第一手语文本序列和所述第一特征信息,生成具有所述第一语气的第一自然语言文本。2.根据权利要求1所述的方法,其中,所述第一特征信息包括如下至少一种:所述手语画面中人脸区域所对应的面部特征;所述手语画面中所述第一用户的表情类别;所述手语画面中所述第一用户的面部关键点。3.根据权利要求1所述的方法,其中,根据所述第一手语文本序列和所述第一特征信息,生成具有所述第一语气的第一自然语言文本,包括:确定所述第一手语文本序列对应的第一数值化表示、以及所述第一特征信息对应的第一时空表示;将所述第一数值化表示和所述第一时空表示输入第一预设模型,利用所述第一预设模型生成具有所述第一语气的第一自然语言文本。4.根据权利要求3所述的方法,其中,所述第一预设模型包括编码器、解码器和特征融合模块;利用所述第一预设模型生成具有所述第一语气的第一自然语言文本,包括:通过所述特征融合模块对所述第一数值化表示和所述第一时空表示进行融合处理,得到融合结果;将所述融合结果依次经过所述编码器和所述解码器,由所述解码器生成具有所述第一语气的第一自然语言文本。5.根据权利要求4所述的方法,其中,所述编码器包括第一编码器和第二编码器;将所述融合结果依次经过所述编码器和所述解码器,由所述解码器生成具有所述第一语气的第一自然语言文本,包括:通过所述第一编码器对所述第一数值化表示进行处理,得到第一编码结果;通过所述第二编码器对所述第一时空表示进行处理,得到第二编码结果;将所述第一编码结果和所述第二编码结果输入所述解码器,由所述解码器生成具有所述第一语气的第一自然语言文本。6.根据权利要求1所述的方法,其中,所述方法还包括:获取第二用户的原音频信息;对所述原音频信息进行语音识别,得到第二自然语言文本;根据所述原音频信息和所述第二自然语言文本,确定第二特征信息,所述第二特征信息用于表征所述原音频信息的第二语气;根据所述第二自然语言文本和所述第二特征信息,生成第二手语文本序列和所述第二语气的类别信息。7.根据权利要求6所述的方法,其中,所述方法还包括:
根据所述第二手语文本序列和所述第二语气的类别信息,生成目标视频信息,所述目标视频信息包括虚拟人物,所述第二语气的类别信息用于确定所述虚拟人物的面部特征、表情类别、面部关键点中的至少一个。8.根据权利要求6所述的方法,其中,...

【专利技术属性】
技术研发人员:张家硕祖新星
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1