对话生成方法、视频评论方法、装置、设备及存储介质制造方法及图纸

技术编号:25521835 阅读:15 留言:0更新日期:2020-09-04 17:12
本发明专利技术提供了一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质;方法包括:分别对输入语句以及多媒体信息进行编码处理,得到对应输入语句的编码向量、以及对应多媒体信息的编码向量;对输入语句的编码向量以及多媒体信息的编码向量进行编码处理,得到多媒体信息的特征向量;对输入语句的编码向量以及多媒体信息的特征向量进行融合处理,得到融合向量;对融合向量进行解码处理,得到用于回复输入语句的回复语句。通过本发明专利技术,能够自动并准确地生成对话,增强参与视频的互动的吸引力。

【技术实现步骤摘要】
对话生成方法、视频评论方法、装置、设备及存储介质
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。相关技术中缺乏模拟真实用户就多媒体信息进行对话的有效方案,主要依赖于人工方案,例如根据多媒体信息的内容,对关于多媒体信息进行讨论的输入语句进行回复,使得回复语句能够承接输入语句。但是,这种方式效率太低,无法适用于线上应用。
技术实现思路
本专利技术实施例提供一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质,能够自动并准确和高效地形成针对多媒体信息的对话。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的对话生成方法,包括:分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。上述技术方案中,所述对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句,包括:对所述融合向量以及已经生成的词语进行线性映射,得到所述下一个待生成词语的概率分布;将所述概率分布中最大概率所对应的词语确定为下一个生成的词语;根据生成词语的顺序,将所述生成词语组成用于回复所述输入语句的回复语句。上述技术方案中,所述方法还包括:通过对话生成模型,对训练样本中输入语句的编码向量以及多媒体信息的编码向量进行还原处理,得到对应所述训练样本中输入语句的各还原词语的概率;根据所述对应所述训练样本中输入语句的各还原词语的概率,构建所述对话生成模型的编码损失函数;通过所述对话生成模型,对所述训练样本中的融合向量进行预测处理,得到每个生成词语的概率;根据所述每个生成词语的概率,构建所述对话生成模型的解码损失函数;将所述编码损失函数与所述解码损失函数相加,以得到所述对话生成模型的整体损失函数;更新所述对话生成模型的参数直至所述整体损失函数收敛,将所述整体损失函数收敛时所述对话生成模型的更新的参数,作为训练后的所述对话生成模型的参数。本专利技术实施例提供一种基于人工智能的视频评论方法,包括:呈现视频中的内容;根据所述内容的视频信息和音频信息,生成关于所述内容的对话形式的评论信息;呈现所述对话形式的评论信息。本专利技术实施例提供一种基于人工智能的对话生成装置,包括:编码模块,用于分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;自编码模块,用于对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;解码模块,用于对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;生成模块,用于对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。上述技术方案中,所述编码模块还用于根据所述输入语句的输入内容,获得所述输入语句的语义向量以及位置向量;对所述输入语句的语义向量以及位置向量进行融合处理,得到所述输入语句的编码向量。上述技术方案中,所述编码模块还用于对所述输入语句的词序列进行词编码处理,得到所述输入语句的语义向量;对所述输入语句中各词语的位置进行位置编码处理,得到所述输入语句的位置向量。上述技术方案中,所述多媒体信息包括视频信息和音频信息;所述编码模块还用于根据所述视频信息的图像内容,获得所述视频信息的语义向量以及位置向量,并对所述视频信息的语义向量以及位置向量进行融合处理,以得到所述视频信息的编码向量;根据所述音频信息的音频内容,获得所述音频信息的语义向量以及位置向量,并对所述音频信息的语义向量以及位置向量进行融合处理,以得到所述音频信息的编码向量。上述技术方案中,所述编码模块还用于对所述视频信息中的每个图像帧进行特征提取处理,得到所述每个图像帧的特征向量,并对所述每个图像帧的特征向量进行组合,得到所述视频信息的特征向量;对所述视频信息的特征向量进行非线性映射处理,得到所述视频信息的中间特征向量;对所述视频信息中的每个图像帧的位置进行位置编码处理,得到所述视频信息的位置向量;将所述视频信息的中间特征向量与所述位置向量相加,以得到所述视频信息的编码向量。上述技术方案中,所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量;所述自编码模块还用于对所述输入语句的编码向量进行自注意力处理,得到所述输入语句的注意力向量;对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理,得到所述视频信息的特征向量,并对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理,得到所述音频信息的特征向量。上述技术方案中,所述自编码模块还用于通过自编码器的第i层编码层,对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理,得到所述第i层编码层的输入语句的注意力向量;其中,1<i≤N,i、N为自然数,N为所述自编码器的编码层的总层数;通过所述自编码器的第i层编码层,对所述第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特征向量进行多头注意力处理,得到所述第i层编码层的视频信息的特征向量;通过所述自编码器的第i层编码层,对所述第i层编码层的视频信息的特征向量、以及第i-1层编码层输出的音频信息的编码向量进行多头注意力处理,得到所述第i层编码层的音频信息的特征向量。上述技术方案中,所述编码模块还用于对文本信息进行编码处理,得到所述文本信息的编码向量;所述解码模块还用于通过解码器分别对所述输入语句的编码向量、所述文本信息的编码向量以及所述多媒体信息的特征向量进行解码处理,得到对应所述输入语句的解码向量、对应所述文本信息的解码向量以及对应所述多媒体信息的解码向量;对所述输入语句的解码向量、所述文本信息的解码向量以及所述多媒体信息的解码向量进行拼接处理,得到所述融合向量。上述技术方案中,所述解码模块还用于通过所述解码器对所述文本信息的编码向量进行自注意力处理,得到所述文本信息的解码向量;...

【技术保护点】
1.一种基于人工智能的对话生成方法,其特征在于,包括:/n分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;/n对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;/n对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;/n对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。/n

【技术特征摘要】
1.一种基于人工智能的对话生成方法,其特征在于,包括:
分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;
对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;
对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;
对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。


2.根据权利要求1所述的方法,其特征在于,所述对输入语句进行编码处理,得到所述输入语句的编码向量,包括:
根据所述输入语句的输入内容,获得所述输入语句的语义向量以及位置向量;
对所述输入语句的语义向量以及位置向量进行融合处理,得到所述输入语句的编码向量。


3.根据权利要求2所述的方法,其特征在于,所述根据所述输入语句的输入内容,获得所述输入语句的语义向量以及位置向量,包括:
对所述输入语句的词序列进行词编码处理,得到所述输入语句的语义向量;
对所述输入语句中各词语的位置进行位置编码处理,得到所述输入语句的位置向量。


4.根据权利要求1所述的方法,其特征在于,
所述多媒体信息包括视频信息和音频信息;
所述对多媒体信息进行编码处理,得到所述多媒体信息的编码向量,包括:
根据所述视频信息的图像内容,获得所述视频信息的语义向量以及位置向量,并对所述视频信息的语义向量以及位置向量进行融合处理,以得到所述视频信息的编码向量;
根据所述音频信息的音频内容,获得所述音频信息的语义向量以及位置向量,并对所述音频信息的语义向量以及位置向量进行融合处理,以得到所述音频信息的编码向量。


5.根据权利要求4所述的方法,其特征在于,所述根据所述视频信息的图像内容,获得所述视频信息的语义向量以及位置向量,并对所述视频信息的语义向量以及位置向量进行融合处理,以得到所述视频信息的编码向量,包括:
对所述视频信息中的每个图像帧进行特征提取处理,得到所述每个图像帧的特征向量,并对所述每个图像帧的特征向量进行组合,得到所述视频信息的特征向量;
对所述视频信息的特征向量进行非线性映射处理,得到所述视频信息的中间特征向量;
对所述视频信息中的每个图像帧的位置进行位置编码处理,得到所述视频信息的位置向量;
将所述视频信息的中间特征向量与所述位置向量相加,以得到所述视频信息的编码向量。


6.根据权利要求1所述的方法,其特征在于,
所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量;
所述对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量,包括:
对所述输入语句的编码向量进行自注意力处理,得到所述输入语句的注意力向量;
对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理,得到所述视频信息的特征向量,并
对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理,得到所述音频信息的特征向量。


7.根据权利要求6所述的方法,其特征在于,所述对所述输入语句的编码向量进行自注意力处理,得到所述输入语句的注意力向量,包括:
通过自编码器的第i层编码层,对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理,得到所述第i层编码层的输入语句的注意力向量;
其中,1<i≤N,i、N为自然数,N为所述自编码器的编码层的总层数;
所述对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理,得到所述视频信息的特征向量,并对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理,得到所述音频信息的特征向量,包括:
通过所述自编码器的第i层编码层,对所述第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特...

【专利技术属性】
技术研发人员:魏瑶高俊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1