【技术实现步骤摘要】
对话生成方法、视频评论方法、装置、设备及存储介质
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。相关技术中缺乏模拟真实用户就多媒体信息进行对话的有效方案,主要依赖于人工方案,例如根据多媒体信息的内容,对关于多媒体信息进行讨论的输入语句进行回复,使得回复语句能够承接输入语句。但是,这种方式效率太低,无法适用于线上应用。
技术实现思路
本专利技术实施例提供一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质,能够自动并准确和高效地形成针对多媒体信息的对话。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的对话生成方法,包括:分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;对所述输入语句的编码向量以及所述多媒体信息的特征向
【技术保护点】
1.一种基于人工智能的对话生成方法,其特征在于,包括:/n分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;/n对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;/n对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;/n对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。/n
【技术特征摘要】
1.一种基于人工智能的对话生成方法,其特征在于,包括:
分别对输入语句以及多媒体信息进行编码处理,得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量;
对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量;
对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理,得到融合向量;
对所述融合向量进行解码处理,得到用于回复所述输入语句的回复语句。
2.根据权利要求1所述的方法,其特征在于,所述对输入语句进行编码处理,得到所述输入语句的编码向量,包括:
根据所述输入语句的输入内容,获得所述输入语句的语义向量以及位置向量;
对所述输入语句的语义向量以及位置向量进行融合处理,得到所述输入语句的编码向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述输入语句的输入内容,获得所述输入语句的语义向量以及位置向量,包括:
对所述输入语句的词序列进行词编码处理,得到所述输入语句的语义向量;
对所述输入语句中各词语的位置进行位置编码处理,得到所述输入语句的位置向量。
4.根据权利要求1所述的方法,其特征在于,
所述多媒体信息包括视频信息和音频信息;
所述对多媒体信息进行编码处理,得到所述多媒体信息的编码向量,包括:
根据所述视频信息的图像内容,获得所述视频信息的语义向量以及位置向量,并对所述视频信息的语义向量以及位置向量进行融合处理,以得到所述视频信息的编码向量;
根据所述音频信息的音频内容,获得所述音频信息的语义向量以及位置向量,并对所述音频信息的语义向量以及位置向量进行融合处理,以得到所述音频信息的编码向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述视频信息的图像内容,获得所述视频信息的语义向量以及位置向量,并对所述视频信息的语义向量以及位置向量进行融合处理,以得到所述视频信息的编码向量,包括:
对所述视频信息中的每个图像帧进行特征提取处理,得到所述每个图像帧的特征向量,并对所述每个图像帧的特征向量进行组合,得到所述视频信息的特征向量;
对所述视频信息的特征向量进行非线性映射处理,得到所述视频信息的中间特征向量;
对所述视频信息中的每个图像帧的位置进行位置编码处理,得到所述视频信息的位置向量;
将所述视频信息的中间特征向量与所述位置向量相加,以得到所述视频信息的编码向量。
6.根据权利要求1所述的方法,其特征在于,
所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量;
所述对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理,得到所述多媒体信息的特征向量,包括:
对所述输入语句的编码向量进行自注意力处理,得到所述输入语句的注意力向量;
对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理,得到所述视频信息的特征向量,并
对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理,得到所述音频信息的特征向量。
7.根据权利要求6所述的方法,其特征在于,所述对所述输入语句的编码向量进行自注意力处理,得到所述输入语句的注意力向量,包括:
通过自编码器的第i层编码层,对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理,得到所述第i层编码层的输入语句的注意力向量;
其中,1<i≤N,i、N为自然数,N为所述自编码器的编码层的总层数;
所述对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理,得到所述视频信息的特征向量,并对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理,得到所述音频信息的特征向量,包括:
通过所述自编码器的第i层编码层,对所述第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特...
【专利技术属性】
技术研发人员:魏瑶,高俊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。