多媒体信息的处理方法、装置、设备及存储介质制造方法及图纸

技术编号：33528238 阅读：16 留言：0更新日期：2022-05-19 01:54

本公开涉及一种多媒体信息的处理方法、装置、设备及存储介质。本公开通过获取听障人士打手语的原视频信息，并对该原视频信息中的手语画面进行视觉识别，得到第一手语文本序列。另外，还可以对该手语画面进行图像处理，得到能够表征手语语气的第一特征信息。进一步，根据该第一手语文本序列和第一特征信息，生成具有该语气的第一自然语言文本，使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思，从而保证正常人和听障人士可以正常沟通、交流。交流。交流。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体信息的处理方法、装置、设备及存储介质

[0001]本公开涉及信息
，尤其涉及一种多媒体信息的处理方法、装置、设备及存储介质。

技术介绍

[0002]在真实的沟通场景中，正常人之间的沟通是可以无障碍的，例如，沟通双方可以通过文字、语音等方式进行沟通。但是，在正常人和听障人士沟通的场景中，正常人可能看不懂听障人士的手语，因此，可以通过手语翻译软件来实现手语和自然语言之间的双向翻译。
[0003]但是，本申请的专利技术人发现，当前的手语翻译软件可以将听障人士的手语翻译成手语文本序列，但是，手语文本序列并不足以完整或准确表达出听障人士真正想要表达的意思，因此，会导致正常人和听障人士之间的沟通不顺畅。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多媒体信息的处理方法、装置、设备及存储介质，使得具有语气的第一自然语言文本可以完整、准确地表达听障人士真正想要表达的意思，从而保证正常人和听障人士可以正常沟通、交流。
[0005]第一方面，本公开实施例提供一种多媒体信息的处理方法，包括：
[0006]获取原视频信息，所述原视频信息包括第一用户的手语画面；
[0007]对所述手语画面进行视觉识别，得到第一手语文本序列；
[0008]对所述手语画面进行图像处理，得到第一特征信息，所述第一特征信息用于表征手语的第一语气；
[0009]根据所述第一手语文本序列和所述第一特征信息，生成具有所述第一语气的第一自然语言文本。...

【技术保护点】

【技术特征摘要】
1.一种多媒体信息的处理方法，其中，所述方法包括：获取原视频信息，所述原视频信息包括第一用户的手语画面；对所述手语画面进行视觉识别，得到第一手语文本序列；对所述手语画面进行图像处理，得到第一特征信息，所述第一特征信息用于表征手语的第一语气；根据所述第一手语文本序列和所述第一特征信息，生成具有所述第一语气的第一自然语言文本。2.根据权利要求1所述的方法，其中，所述第一特征信息包括如下至少一种：所述手语画面中人脸区域所对应的面部特征；所述手语画面中所述第一用户的表情类别；所述手语画面中所述第一用户的面部关键点。3.根据权利要求1所述的方法，其中，根据所述第一手语文本序列和所述第一特征信息，生成具有所述第一语气的第一自然语言文本，包括：确定所述第一手语文本序列对应的第一数值化表示、以及所述第一特征信息对应的第一时空表示；将所述第一数值化表示和所述第一时空表示输入第一预设模型，利用所述第一预设模型生成具有所述第一语气的第一自然语言文本。4.根据权利要求3所述的方法，其中，所述第一预设模型包括编码器、解码器和特征融合模块；利用所述第一预设模型生成具有所述第一语气的第一自然语言文本，包括：通过所述特征融合模块对所述第一数值化表示和所述第一时空表示进行融合处理，得到融合结果；将所述融合结果依次经过所述编码器和所述解码器，由所述解码器生成具有所述第一语气的第一自然语言文本。5.根据权利要求4所述的方法，其中，所述编码器包括第一编码器和第二编码器；将所述融合结果依次经过所述编码器和所述解码器，由所述解码器生成具有所述第一语气的第一自然语言文本，包括：通过所述第一编码器对所述第一数值化表示进行处理，得到第一编码结果；通过所述第二编码器对所述第一时空表示进行处理，得到第二编码结果；将所述第一编码结果和所述第二编码结果输入所述解码器，由所述解码器生成具有所述第一语气的第一自然语言文本。6.根据权利要求1所述的方法，其中，所述方法还包括：获取第二用户的原音频信息；对所述原音频信息进行语音识别，得到第二自然语言文本；根据所述原音频信息和所述第二自然语言文本，确定第二特征信息，所述第二特征信息用于表征所述原音频信息的第二语气；根据所述第二自然语言文本和所述第二特征信息，生成第二手语文本序列和所述第二语气的类别信息。7.根据权利要求6所述的方法，其中，所述方法还包括：
根据所述第二手语文本序列和所述第二语气的类别信息，生成目标视频信息，所述目标视频信息包括虚拟人物，所述第二语气的类别信息用于确定所述虚拟人物的面部特征、表情类别、面部关键点中的至少一个。8.根据权利要求6所述的方法，其中，...

【专利技术属性】
技术研发人员：张家硕，祖新星，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人