基于多模态融合的智能应答方法、装置、机器可读介质及设备制造方法及图纸

技术编号:27742048 阅读:23 留言:0更新日期:2021-03-19 13:35
本发明专利技术公开了一种基于多模态融合的智能应答方法,包括:获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;对图像信息和文本信息进行特征提取,得到图像特征信息和文本特征信息;将所述图像特征信息与文本特征信息进行融合,得到融合模态数据信息;对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。本发明专利技术利用多模态的特征在人机交互场景中进行问句答句的预测,有利于信息的完整性、不同模态之间的信息互补以及在后续的生成模型中学习单独模态的信息重要度和模态信息间的关系,并且融合多模态的信息使得人机交互系统能够生成更加完整、流畅的回答,并增加答句的语义丰富度和逻辑性。

【技术实现步骤摘要】
基于多模态融合的智能应答方法、装置、机器可读介质及设备
本专利技术涉及人工智能领域,具体涉及一种基于多模态融合的智能应答方法、装置、机器可读介质及设备。
技术介绍
人机交互系统是自然语言处理领域重要的研究方向之一,人机多轮交互也是图灵测试的核心。当前的人机交互系统局限于语音和文本的交互方式,随着语音助手、智能客服的普及应用,具有视听说的多模态对话系统,在零售、客服、安防、金融、中介、教育等很多领域变得越来越重要。然而,在人机交互系统中,如何有效的融合多模态信息,更加细致精准的理解用户意图,进而给出准确顺畅的回答,值得研究和解决。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于多模态融合的智能应答方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。为实现上述目的及其他相关目的,本专利技术提供一种基于多模态融合的智能应答方法,包括:获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;对所述图像信息和所述文本信息进行特征提取,得到图像特征信息和文本特征信息;将所述图像特征信息与所述文本特征信息进行融合,得到融合模态数据信息;对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。可选地,所述文本信息包括时间序列信息、对话角色信息、对话文本信息,相应的所述文本特征信息包括:时间序列特征信息、对话角色特征信息、对话文本特征信息。可选地,所述将所述图像特征信息与所述文本特征信息进行融合,包括:将所述图像特征信息转换成图像特征矩阵;将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵;将所述图像特征矩阵与所述文本特征矩阵对应元素相加,得到融合模态数据信息。可选地,所述将所述图像特征信息转换成图像特征矩阵,包括:通过预训练的深度卷积神经网络将所述图像特征信息转换为图像特征向量;若包括一个图像特征向量,则该图像特征向量为图像特征矩阵;若包括多个图像特征向量,则将所述多个图像特征向量相连形成图像特征矩阵。可选地,所述将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵,包括:对所述文本特征信息进行分词处理,得到时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词;分别通过Embedding将时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词转换成词向量;分别将表示时间序列特征信息的每个词向量、对话角色特征信息的每个词向量、对话文本特征信息的每个词向量相连形成时间序列特征矩阵、对话角色特征矩阵、对话文本特征矩阵;将所述时间序列特征矩阵、所述对话角色特征矩阵、所述对话文本特征矩阵的对应元素进行组合,得到文本特征矩阵。可选地,通过生成语言模型对所述融合模态数据信息进行特征提取得到预测文本答句矩阵以及对所述预测文本答句矩阵进行转换得到目标文本答句。可选地,所述生成语言模型至少包括多头自注意力层、全连接层、Softmax层。可选地,通过所述多头自注意力层完成对所述融合模态数据信息进行特征提取得到预测文本答句矩阵。可选地,所述对所述预测文本答句矩阵进行转换得到目标文本答句,包括:通过所述全连接层将所预测文本答句矩阵的维度转换到字典维度;通过Softmax层获取所述预测文本答句矩阵在字典维度上的概率分布;根据所述概率分布得到目标文本答句。可选地,所述生成语言模型包括多模态分层编解码MHRED(MultimodalHierarchicalEncoderDecoder)、BART或GPT(GenerativePre-Training)。为实现上述目的及其他相关目的,本专利技术提供一种基于多模态融合的智能应答装置,包括:问答信息获取模块,用于获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;特征提取模块,用于对所述图像信息和所述文本信息进行特征提取,得到图像特征信息和文本特征信息;特征融合模块,用于将所述图像特征信息与所述文本特征信息进行融合,得到融合模态数据信息;答句输出模块,用于对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。可选地,所述特征融合模块包括:图像特征转换子模块,用于将所述图像特征信息转换成图像特征矩阵;文本特征转换子模块,用于将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵;特征融合子模块,用于将所述图像特征矩阵与所述文本特征矩阵对应元素相加,得到融合模态数据信息。可选地,所述图像特征转换子模块包括:图像特征向量转换子模块,用于通过预训练的深度卷积神经网络将所述图像特征信息转换为图像特征向量;若包括一个图像特征向量,则该图像特征向量为图像特征矩阵;若包括多个图像特征向量,则将所述多个图像特征向量相连形成图像特征矩阵。可选地,所述文本特征转换子模块包括:分词单元,用于对所述文本特征信息中的时间序列特征信息、对话角色特征信息、对话文本特征信息进行分词处理,得到时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词;向量转换单元,用于分别通过Embedding将时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词转换成词向量;第一组合单元,分别将表示时间序列特征信息的每个词向量、对话角色特征信息的每个词向量、对话文本特征信息的每个词向量相连形成时间序列特征矩阵、对话角色特征矩阵、对话文本特征矩阵;第二组合单元,用于将所述时间序列特征矩阵、所述对话角色特征矩阵、所述对话文本特征矩阵的对应元素进行组合,得到文本特征矩阵。可选地,通过生成语言模型对所述融合模态数据信息进行特征提取得到预测文本答句矩阵以及对所述预测文本答句矩阵进行转换得到目标文本答句。可选地,所述生成语言模型至少包括多头自注意力层、全连接层、Softmax层;其中,通过所述多头自注意力层完成对所述融合模态数据信息进行特征提取得到预测文本答句矩阵;通过所述全连接层将所预测文本答句矩阵的维度转换到字典维度;通过Softmax层获取所述预测文本答句矩阵在字典维度上的概率分布;根据所述概率分布得到目标文本答句。为实现上述目的及其他相关目的,本专利技术还提供一种基于多模态融合的智能应答设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。为实现上述目的及其他相关目的,本专利技术还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。如上所述,本专利技术提供的一种基于多模态融合的智能应答方法、装置、机器可读介质及设备,具有以下有益效果:...

【技术保护点】
1.一种基于多模态融合的智能应答方法,其特征在于,包括:/n获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;/n对所述图像信息和所述文本信息进行特征提取,得到图像特征信息和文本特征信息;/n将所述图像特征信息与所述文本特征信息进行融合,得到融合模态数据信息;/n对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。/n

【技术特征摘要】
1.一种基于多模态融合的智能应答方法,其特征在于,包括:
获取人机交互场景下的问答信息,所述问答信息包括图像信息和文本信息;
对所述图像信息和所述文本信息进行特征提取,得到图像特征信息和文本特征信息;
将所述图像特征信息与所述文本特征信息进行融合,得到融合模态数据信息;
对所述融合模态数据信息进行特征提取并对提取的预测文本答句矩阵进行转换,得到目标文本答句。


2.根据权利要求1所述的基于多模态融合的智能应答方法,其特征在于,所述文本信息包括时间序列信息、对话角色信息、对话文本信息,相应的所述文本特征信息包括:时间序列特征信息、对话角色特征信息、对话文本特征信息。


3.根据权利要求1所述的基于多模态融合的智能应答方法,其特征在于,所述将所述图像特征信息与所述文本特征信息进行融合,包括:
将所述图像特征信息转换成图像特征矩阵;
将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵;
将所述图像特征矩阵与所述文本特征矩阵对应元素相加,得到融合模态数据信息。


4.根据权利要求3所述的基于多模态融合的智能应答方法,其特征在于,所述将所述图像特征信息转换成图像特征矩阵,包括:
通过预训练的深度卷积神经网络将所述图像特征信息转换为图像特征向量;
若包括一个图像特征向量,则该图像特征向量为图像特征矩阵;
若包括多个图像特征向量,则将所述多个图像特征向量相连形成图像特征矩阵。


5.根据权利要求3所述的基于多模态融合的智能应答方法,其特征在于,所述将所述文本特征信息转换成与图像特征矩阵维度相同的文本特征矩阵,包括:
对所述文本特征信息进行分词处理,得到时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词;
分别通过Embedding将时间序列特征信息的分词、对话角色特征信息的分词、对话文本特征信息的分词转换成词向量;
分别将表示时间序列特征信息的每个词向量、对话角色特征信息的每个词向量、对话文本特征信息的每个词向量相连形成时间序列特征矩阵、对话角色特征矩阵、对话文本特征矩阵;
将所述时间序列特征矩阵、所述对话角色特征矩阵、所述对话文本特征矩阵的对应元素进行组合,得到文本特征矩阵。


6.根据权利要求1所述的基于多模态融合的智能应答方法,其特征在于,通过生成语言模型对所述融合模态数据信息进行特征提取得到预测文本答句矩阵以及对所述预测文本答句矩阵进行转换得到目标文本答句。


7.根据权利要求6所述的基于多模态融合的智能应答方法,其特征在于,所述生成语言模型至少包括多头自注意力层、全连接层、Softmax层。


8.根据权利要求7所述的基于多模态融合的智能应答方法,其特征在于,通过所述多头自注意力层完成对所述融合模态数据信息进行特征提取得到预测文本答句矩阵。


9.根据权利要求7所述的基于多模态融合的智能应答方法,其特征在于,所述对所述预测文本答句矩阵进行转换得到目标文本答句,包括:
通过所述全连接层将所预测文本答句矩阵的维度转换到字典维度;
通过Softmax层获取所述预测文本答句矩阵在字典维度上的概率分布;
根据所述概率分布得到目标文本答句。


10.根据权利要求1所述的基于多模态融合的智能应答方法,其特征在于,所述生成语言模型包括多模态分层编解码MHRED(MultimodalHierarchicalEncoderDecoder)、BAR...

【专利技术属性】
技术研发人员:苏磊
申请(专利权)人:云从科技集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1