一种多模态信息传输方法、装置、设备及存储介质制造方法及图纸

技术编号:37568198 阅读:20 留言:0更新日期:2023-05-15 07:47
本申请实施例提供一种多模态信息传输方法、装置、设备及存储介质。在该方法中,可获取待传输的目标音频和多模态描述信息,根据所述多模态描述信息在目标音频上对应的音频起止时间,对多模态描述信息进行编码得到多模态编码;将多模态编码与目标音频进行融合得到融合信息;向接收设备发送融合信息。通过这种方式,对多模态编码和目标音频进行融合,可使得多模态编码和目标音频能够进行同步传输,解决了不同类型的信息在传输过程中由于时延不同从而导致相互等待的技术问题。同时,多模态编码根据多模态描述信息在目标音频上对应的音频起止时间得到,可使得被传输的目标音频与多模态编码具有信息对应性,进一步便于后续进行信息处理。处理。处理。

【技术实现步骤摘要】
一种多模态信息传输方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种多模态信息传输方法、装置、设备及存储介质。

技术介绍

[0002]随着机器人相关技术的发展,机器人可传输多模态信息,并基于多模态信息与用户进行多种形式地交互,比如,机器人可采集与用户相关的视觉信息、触觉信息和音频信息等多模态信息,机器人基于可基于多模态信息控制多种执行器向用户展示表情和动作,输出相应的语音等等。在上述过程中,不同组件之间需要进行多模态信息的传输。现有技术中,多模态信息在传输过程中由于时延不同往往会存在相互等待的问题,从而导致机器人与用户交互时的多个交互形式之间存在冲突。

技术实现思路

[0003]本申请的多个方面提供一种多模态信息传输方法、装置、设备及存储介质,用以解决不同类型的信息在传输过程中由于时延不同从而导致相互等待的技术问题。
[0004]本申请实施例提供一种多模态信息传输方法,适用于发送设备,包括:获取待传输的目标音频和多模态描述信息;根据所述多模态描述信息在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行编码,得到多模态编码;将所述多模态编码与所述目标音频进行融合,得到融合信息;向接收设备发送所述融合信息。
[0005]进一步可选地,根据所述多模态描述信息在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行编码,得到多模态编码,包括:根据所述多模态描述信息,确定至少一个多模态信息片段;任一多模态信息片段包括动作、表情以及视觉描述信息中的至少一种;根据所述至少一个多模态信息片段以及所述至少一个多模态信息片段在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行序列化编码,得到所述多模态编码。
[0006]进一步可选地,所述方法还包括:根据所述至少一个多模态信息片段在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行序列化编码时,在所述至少一个多模态信息片段的编码头部,分别添加模态标识;任一多模态信息片段的模态标识,用于标记所述多模态信息片段的编码结果在融合信息中的位置。
[0007]进一步可选地,所述多模态描述信息在所述目标音频上对应的音频起止时间,根据所述目标音频以及所述多模态描述信息的采集时间确定;或者,所述多模态描述信息在所述目标音频上对应的音频起止时间,根据所述目标音频的输出时间以及所述多模态描述信息的输出时间确定。
[0008]进一步可选地,将所述多模态编码与所述目标音频进行融合,得到融合信息,包括:将UAC音频类的第一传输通道和第二传输通道分别作为所述多模态编码以及所述目标音频的传输通道;将所述第一传输通道和所述第二传输通道进行通道混合,得到用于传输
融合信息的混合通道;向接收设备发送所述融合信息,包括:将所述混合通道中的融合信息写入预设传输协议对应的协议接口,以使接收设备通过所述协议接口读取所述混合信息。
[0009]本申请实施例还提供一种多模态信息传输方法,适用于接收设备,包括:接收发送设备发送的融合信息;所述融合信息根据多模态编码与目标音频融合得到;所述多模态编码根据多模态描述信息以及所述多模态描述信息在所述目标音频上对应的音频起止时间编码得到;对所述融合信息进行解码,得到所述多模态编码和所述目标音频。
[0010]进一步可选地,得到所述多模态编码和所述目标音频之后,还包括:根据所述多模态编码,生成多模态交互指令;利用多模态交互组件,根据所述多模态交互指令在所述目标音频上对应的音频起止时间,输出所述目标音频和所述多模态交互指令。
[0011]进一步可选地,对所述融合信息进行解码,得到所述多模态编码,包括:从所述融合信息中,识别至少一个模态标识;任一模态标识位于对应的多模态信息片段的编码头部;根据所述至少一个模态标识,从所述融合信息中确定至少一个编码头部位置;根据所述至少一个编码头部位置,从所述融合信息中解码出至少一个多模态信息片段;任一多模态信息片段包括动作、表情以及视觉描述信息中的至少一种。
[0012]本申请实施例还提供一种机器人,包括:发送组件以及接收组件;所述发送组件,用于:获取待传输的目标音频和多模态描述信息;根据所述多模态描述信息在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行编码,得到多模态编码;将所述多模态编码与所述目标音频进行融合,得到融合信息;将所述融合信息发送至所述接收组件;所述接收组件,用于:接收所述发送组件发送的所述融合信息,并对所述融合信息进行解码,得到所述多模态编码和所述目标音频。
[0013]本申请实施例还提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于:存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令,以用于:执行所述多模态信息传输方法中的步骤。
[0014]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器能够实现所述多模态信息传输方法中的步骤。
[0015]在本实施例中,可获取待传输的目标音频和多模态描述信息,根据所述多模态描述信息在目标音频上对应的音频起止时间,对多模态描述信息进行编码得到多模态编码;将多模态编码与目标音频进行融合得到融合信息;向接收设备发送融合信息。通过这种方式,对多模态编码和目标音频进行融合,可使得多模态编码和目标音频能够进行同步传输,解决了不同类型的信息在传输过程中由于时延不同从而导致相互等待的技术问题。同时,多模态编码根据多模态描述信息在目标音频上对应的音频起止时间得到,可使得被传输的目标音频与多模态编码具有信息对应性,进一步便于后续进行信息处理。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1为本申请一示例性实施例提供的适用于发送设备的多模态信息传输方法的流程示意图;
[0018]图2为本申请一示例性实施例提供的序列化编码过程的示意图;
[0019]图3为本申请一示例性实施例提供的适用于接收设备的多模态信息传输方法的流程示意图;
[0020]图4为本申请一示例性实施例提供的机器人的示意图;
[0021]图5为本申请一示例性实施例提供的电子设备的示意图。
具体实施方式
[0022]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]现有技术中,多模态信息在传输过程中由于时延不同往往会存在相互等待的问题,从而导致机器人与用户交互时的多个交互形式之间存在冲突。针对此技术问题,在本申请一些实施例中,提供了一种解决方案。以下将结合附图,详本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态信息传输方法,适用于发送设备,其特征在于,包括:获取待传输的目标音频和多模态描述信息;根据所述多模态描述信息在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行编码,得到多模态编码;将所述多模态编码与所述目标音频进行融合,得到融合信息;向接收设备发送所述融合信息。2.根据权利要求1所述的方法,其特征在于,根据所述多模态描述信息在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行编码,得到多模态编码,包括:根据所述多模态描述信息,确定至少一个多模态信息片段;任一多模态信息片段包括动作、表情以及视觉描述信息中的至少一种;根据所述至少一个多模态信息片段以及所述至少一个多模态信息片段在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行序列化编码,得到所述多模态编码。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述至少一个多模态信息片段在所述目标音频上对应的音频起止时间,对所述多模态描述信息进行序列化编码时,在所述至少一个多模态信息片段的编码头部,分别添加模态标识;任一多模态信息片段的模态标识,用于标记所述多模态信息片段的编码结果在融合信息中的位置。4.根据权利要求1

3任一项所述的方法,其特征在于,所述多模态描述信息在所述目标音频上对应的音频起止时间,根据所述目标音频以及所述多模态描述信息的采集时间确定;或者,所述多模态描述信息在所述目标音频上对应的音频起止时间,根据所述目标音频的输出时间以及所述多模态描述信息的输出时间确定。5.根据权利要求1

3任一项所述的方法,其特征在于,将所述多模态编码与所述目标音频进行融合,得到融合信息,包括:将UAC音频类的第一传输通道和第二传输通道分别作为所述多模态编码以及所述目标音频的传输通道;将所述第一传输通道和所述第二传输通道进行通道混合,得到用于传输融合信息的混合通道;向接收设备发送所述融合信息,包括:将所述混合通道中的融合信息写入预设传输协议对应的协议接口,以使接收设备通过所述协议接口读取所述混合信息。6.一种多模态信息传输方法,适用于接收设...

【专利技术属性】
技术研发人员:车云飞
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1