一种多模态的智能问答系统及方法技术方案

技术编号:13183723 阅读:241 留言:0更新日期:2016-05-11 15:18
本发明专利技术公开一种多模态的智能问答系统和方法,其方法中用户可输入多模态信息问题,而用户输入的多模态信息问题经过映射处理为统一的向量空间,最后根据统一的向量空间进行转换分析后获取对应该多模态信息问题的精准的答案。本发明专利技术对于多模态信息,无论是文本、图片,视频及以上三种信息类型的任意组合均可统一进行处理,具有并行分布处理、高度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点,从而使得智能问答系统具备针对多模态信息的统一计算和处理能力,可以提高用户信息查询的丰富性,提高了用户问答的体验,使问答系统更加智能化。

【技术实现步骤摘要】

本专利技术涉及计算机智能问答
,尤其涉及一种多模态的智能问答系统及方 法。
技术介绍
近年来,随着自然语言处理技术的发展,智能问答系统受到了极大的关注,出现了 微软小冰、讯飞语点等公众网络应答机器人及中科微喂等企业级智能问答系统。一个优质 的问答系统可以解决客户常见的问题,降低人工开销,并能提供24小时无间断服务。 随着大数据与人工智能的发展,问答系统对于智能化的需求越来越明显,尤其是 在智能问答系统中多模态信息的查询和直观展示。多模态的智能问答系统,可以允许用户 进行多媒体信息的查询,包括图片、音频、视频、图片加文本和视频加本文等信息,从而满足 用户多媒体输入的需求,提高用户信息查询的丰富性。同时,它也支持答案的多媒体形式的 展示,利用丰富的媒体形式,对用户提出的问题给出一个准确和形象的答案。 智能问答技术(Question Answering,QA)是综合运用了自然语言处理、信息检索、 语义分析、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同,自动问答 系统以自然语言句子提问,系统分析并理解用户的问题,返回用户想要的答案。问答系统能 给用户提供更加精确的信息服务,用户不需要阅读搜索引擎返回的文档列表去查找答案, 从而提高了效率。当前,智能问答系统的研究仍旧集中在文本信息的交互上,问题和答案的 呈现模式都是文本信息。基于文本的智能问答系统主要的技术为:自然语言处理、信息检 索、知识表示、语义理解等技术。通常分为文本预处理,文本分析、答案选择等模块,在文本 分析模块主要是对文本信息进行问题分类、关键词提取和关键词拓展,从而判断出用户的 问答意向,然后通过信息检索模块找到对应的文本答案。 然而,随着互联网及移动互联网的快速发展,多媒体信息量的急剧增长,对于智能 问答系统在信息的多模态、直观性和丰富性上提出了更高的要求,基于文本的智能问答新 系统无法满足目前多媒体问答的需求。传统基于文本智能问答系统主要存在以下问题: 1、无法满足用户对多模态信息的查询,只能以单一的文本信息进行交互; 2、问答系统的答案的呈现模式为文本模式,展示方式不够直观形象,缺乏多媒体 形式的展示; 3、缺乏多模态处理的流程和模式,不能满足智能问答系统的可扩展性。以上的原因阻碍着问答系统智能化的发展,无法满足多媒体形式下的智能问答系 统的需求。
技术实现思路
为了解决上述技术问题,本专利技术提出了,旨在 解决用户的多模态信息的输入和处理分析,提高用户问答的体验,增强问答系统的智能化。 本专利技术的系统包括: 多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包 括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本 图片视频组合信息; 分类模块,用于根据输入模块和编码格式对输入的信息进行分类,分类后的信息 类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图 片视频组合信息;其中,语音信息被转换为文本信息; 映射模块,用于将分类后的信息分别映射到相应的向量空间;文本图片组合信息、 文本视频组合信息和文本图片视频组合信息被拆分为文本信息、图片信息和视频信息分别 处理; 答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对 所述多模态信息问题的答复。 进一步地,所述映射模块包括文本映射单元,图像映射单元和视频映射单元。 所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。 所述图片映射单元用于根据卷积神经网络提取图像特征,并将提取的特征映射到 图片向量空间。 所述视频映射单元用于将所述视频信息转换为图像序列,根据卷积神经网络将所 述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量 空间映射为视频向量空间。 所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。 相应地,本专利技术还提供了一种多模态的智能问答方法,包括以下步骤: S1、多接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信 息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息; S2、对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信 息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息; S3、将分类后的信息分别映射到相应的向量空间; S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息 问题的答复。 步骤S3进一步包括:根据循环神经网络将所述文本信息映射到文本向量空间。 步骤S3进一步包括:根据卷积神经网络提取图像特征,并将提取的特征映射到图 片向量空间。 步骤S3进一步包括:将所述视频信息转换为图像序列,根据卷积神经网络将所述 图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空 间映射为视频向量空间。 步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或 生成对用户输入问题的处理指令。 本专利技术取得了以下技术效果: 本专利技术的实现智能问答的系统和方法中由于用户可输入多模态信息问题,而用户 输入的多模态信息问题经过映射处理为统一的向量空间,最后根据统一的向量空间进行转 换分析后获取对应该多模态信息问题的精准的答案,即本专利技术对于多模态信息,无论是文 本、图片,视频及以上三种信息类型的任意组合均可统一进行处理,具有并行分布处理、高 度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点,从 而使得智能问答系统具备针对多模态信息的统一计算和处理能力,可以提高用户信息查询 的丰富性,提高了用户问答的体验,使问答系统更加智能化。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施 例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅 仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其它附图。 图1是根据本专利技术的多模态智能问答系统的一种具体实施例框图; 图2是根据图1中映射模块的一种具体实施例示意图; 图3是根据图2中图片映射单元进行映射的工作原理图; 图4是根据图2中视频映射单元进行映射的工作原理图; 图5是一个具体实施例中包括文字、图片的一个多媒体信息问题的智能问题示意 图; 图6是根据本专利技术实现智能问答的方法的一种具体实施例流程图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其 他实施例,都属于本专利技术保护的范围。 实施例:参考图1,该图为根据本专利技术实现智能问答的系统的一种具体实施例框图,其包 括: 多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包 括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本 图片视频组合信息;文本图片组合信息也可以写为文本+图片信息,文本视频组合信息也可 以写为文本+视频本文档来自技高网
...

【技术保护点】
一种多模态的智能问答系统,其特征在于,包括多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;分类模块,用于对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;映射模块,用于将分类后的信息分别映射到相应的向量空间;答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。

【技术特征摘要】

【专利技术属性】
技术研发人员:张金龙
申请(专利权)人:苏州贝多环保技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1