一种智能问答方法及其系统技术方案

技术编号:17516527 阅读:36 留言:0更新日期:2018-03-21 01:07
本申请提供一种智能问答方法及智能问答系统,用于解决现有的智能问答方法中针对性差、问答准确率低的技术问题。本申请的智能问答方法,包括如下步骤:步骤S1、建立相关领域的知识图谱;步骤S2、将用户问题的语音转化成文本;步骤S3、使用skip‑gram模型将文本向量化,生成问题向量矩阵;步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量;步骤S5、计算用户问题特征向量与候选答案特征向量的相似度;步骤S6、通过排序学习反馈给用户答案。

An intelligent question answering method and its system

This application provides an intelligent question answering method and intelligent question answering system, which is used to solve the existing intelligent question answering method with poor pertinence, low accuracy of question and answer. The application of intelligent question answering method, which comprises the following steps: step S1, the establishment of knowledge map related fields; step S2, voice user problems into text; step S3, using skip gram model to quantify text, generating vector matrix; step S4, using a convolutional neural network problem vector matrix generation problem the feature vector similarity; step S5, calculate the user problem of feature vector and the candidate answer feature vector; step S6, through learning to rank the answers to the users feedback.

【技术实现步骤摘要】
一种智能问答方法及其系统
本申请涉及文本处理
,具体涉及一种智能问答方法及其系统。
技术介绍
智能问答系统可以根据知识领域划分成封闭领域和开放领域两种类型,封闭领域专注于回答特定领域的问题,提问者仅能问一些领域相关的问题并获取答案。开放领域系统则不设置问题的范围,提问者可以提出自己感兴趣的话题,并且从该类系统中得到自己想要的解答。目前流行的问答机器人大多是基于开放领域的智能问答系统,如以互联网预料及用户点击日志为基础的微软小冰,以百度搜索日志为基础的百度语音助手等,这些开放型的智能机器人无法针对特定领域(如政府、金融、保险等)的问题实现精准的回答,准确度低。
技术实现思路
本专利技术的目的在于提出一种智能问答方法及智能问答系统,用于解决现有技术中针对性差、问题回答准确率低的技术问题。本申请的智能问答方法,包括如下步骤:步骤S1、建立相关领域的知识图谱;步骤S2、将用户问题的语音转化成文本;步骤S3、使用skip-gram模型将文本向量化,生成问题向量矩阵;步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量;步骤S5、计算用户问题特征向量与候选答案特征向量的相似度;步骤S6、通过排序学习反馈给用户答案。可选地,步骤S1中,知识图谱的建立包括如下步骤:步骤R1、对高价值信息进行检测,抽取数据块;步骤R2、将自然语言文本中的信息与知识库中的条目进行链接;步骤R3、对自然语言文本进行开放抽取,获取相应的三元组;步骤R4、将抽取的三元组进行验证集成。优选地,步骤S3中,skip-gram模型将文本向量化时,对于给定单词序列w1,w2,...,wn,该模型的优化目标公式如下:式中,p表示第t+j个词在t个词出现的情况下出现的概率;c是训练上下文的长度;skip-gram模型使用softmax函数来优化参数,优化公式如下:式中,νw是单词w的输入向量;ν’w是单词w的输出向量;W是词表中单词的数量。可选地,skip-gram模型优化参数的方法包括:层次softmax、负采样和二次采样中的一种或多种。可选地,步骤S4包括如下步骤:步骤T1、将问题向量矩阵用二元卷积神经网络生成卷积神经网络;步骤T2、问题向量矩阵经第一卷积层、第一采样层、第二卷积层和第二采样层后变换到输出层,生成问题向量。优选地,问题向量生成模型的训练目标公式如下:L=max(mar-xT·x++xT·x-)+(公式3)其中,x为有卷积神经网络生成的问题向量;x+为与向量x属于同一类的抽样向量;x-为不属于向量x所属类的抽样向量。可选地,问题向量矩阵经由第二采样层变换到输出层的函数如下公式所示:x=W0tanh(y)(公式4)其中,x表示输出向量;y表示第二采样层向量;W0表示加权变换时的权值信息。可选地,步骤S5中,在问题特征向量与候选答案特征向量进行比较时,进行相似度打分,包括问题特征向量相似度打分、问题特征向量与所有答案向量的相似度打分。优选地,问题特征向量与所有答案向量的相似度打分的公式如下:r'=v·M'·c(公式5)其中,r’是结果向量,维度与已知答案的格式k相同;ν是待测评问句向量;M’是一个n×k维矩阵,每一列表示一个已知答案的答案向量;C是一个k维向量,向量中每一维表示该维所对应的结果中关键字与问题关键字的相似程度。本申请提出的智能问答方法,在用户使用该问答系统时,使用系统匹配到的与用户提问问题相似度最高的答案反馈给用户,通过文本向量化技术,将问题抽象成特征向量,之后再利用基于深度学习的方法计算用户问题和知识图谱候选答案的相似度,最后挑选相似度最高的答案作为最优答案反馈给用户。本申请的智能问答系统,针对性好,准确度高。本申请还提出一种智能问答系统,包括:知识建立模块,用于建立相关领域的知识图谱;语音转化模块,用于将用户问题的语音转化为文本;问题向量矩阵生成模块,用于使用skip-gram模型将文本向量化,生成问题向量矩阵;问题特征向量生成模块,用于使用卷积神经网络将问题向量矩阵生成问题特征向量;相似度对比模块,用于计算用户问题特征向量与候选答案特征向量的相似度;答案生成模块,用于通过排序学习反馈给用户答案。本申请的智能问答系统与智能问答方法的效果相同,在此就不一一赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本申请的智能问答方法的流程图;图2是本申请的建立相关领域的知识图谱的流程图;以及图3是本申请的使用卷积神经网络将问题向量矩阵生成问题特征向量的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提出一种智能问答方法,图1是本申请的智能问答方法的流程图。如图1所示,本申请的智能问答方法包括如下步骤:步骤S1、建立相关领域的知识图谱。传统的信息抽取的方法包括:字典匹配、分割候选分类、滑动窗口分类器、边界模型、有限状态自动机、上下文无关法。本申请的建立相关领域的知识图谱的方法区别于传统信息抽取的方法。可选地,图2是本申请的建立相关领域的知识图谱的流程图,如图2所示,知识图谱的建立包括如下步骤:步骤R1、对高价值信息进行检测,抽取数据块;可选地,以目标知识为例,找到最容易抽取的数据块,面向知识图谱的抽取以知识为核心,目标是覆盖要抽取的知识,不覆盖所有文档,而是覆盖信息价值较高的文档,大大降低了信息抽取的难度。着重挖掘高价值结构,例如:Wikipedia,Infobox,WebTable。其中,高价值文本可为:匹配特定模板的文本、概念定义句。步骤R2、将自然语言文本中的信息与知识库中的条目进行链接;可选地,将自然语言文本中的信息与知识库中的条目进行链接,把现有的知识图谱和信息抽取的结果集成起来,识别不同数据源中同一知识的冗余表示,处理表示的歧义性,提升信息抽取性能。步骤R3、对自然语言文本进行开放抽取,获取相应的三元组;具体地,本申请的智能问答系统使用开放抽取(OpenIE),通过识别表达语义关系的短语来抽取实体之间的关系,同时使用句法和统计数据来过滤抽取出来的三元组,无需预定义关系类型,解决了传统抽取方法的缺点,提高了信息抽取的性能。步骤R4、将抽取的三元组进行验证集成。可选地,将抽取的三元组进行验证集成后,即实现了相关领域的知识图谱的建立。步骤S2、将用户问题的语音转化成文本;可选地,语音转换成文本目前有成熟的解决方案,可以免费使用百度语音、讯飞语音提供的语音识别工具解决该问题。另外,用户的问题也可以直接为输入的文本。步骤S3、使用skip-gram模型将文本向量化,生成问题向量矩阵;可选地,skip-gram模型是一种可以将词语转化成向量的模型,其训练目标是训练出能够帮助预测在一句话或者一篇文档中周围的向量。对于给定单词序列w1,w2,...,wn,该模型的优化目标公式如下:式中,p表示第本文档来自技高网...
一种智能问答方法及其系统

【技术保护点】
一种智能问答方法,其特征在于,包括如下步骤:步骤S1、建立相关领域的知识图谱;步骤S2、将用户问题的语音转化成文本;步骤S3、使用skip‑gram模型将文本向量化,生成问题向量矩阵;步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量;步骤S5、计算用户问题特征向量与候选答案特征向量的相似度;步骤S6、通过排序学习反馈给用户答案。

【技术特征摘要】
1.一种智能问答方法,其特征在于,包括如下步骤:步骤S1、建立相关领域的知识图谱;步骤S2、将用户问题的语音转化成文本;步骤S3、使用skip-gram模型将文本向量化,生成问题向量矩阵;步骤S4、使用卷积神经网络将问题向量矩阵生成问题特征向量;步骤S5、计算用户问题特征向量与候选答案特征向量的相似度;步骤S6、通过排序学习反馈给用户答案。2.如权利要求1所述的智能问答方法,其特征在于,步骤S1中,知识图谱的建立包括如下步骤:步骤R1、对高价值信息进行检测,抽取数据块;步骤R2、将自然语言文本中的信息与知识库中的条目进行链接;步骤R3、对自然语言文本进行开放抽取,获取相应的三元组;步骤R4、将抽取的三元组进行验证集成。3.如权利要求1所述的智能问答方法,其特征在于,步骤S3中,skip-gram模型将文本向量化时,对于给定单词序列w1,w2,...,wn,该模型的优化目标公式如下:式中,p表示第t+j个词在t个词出现的情况下出现的概率;c是训练上下文的长度;skip-gram模型使用softmax函数来优化参数,优化公式如下:式中,νw是单词w的输入向量;ν’w是单词w的输出向量;W是词表中单词的数量。4.如权利要求3所述的智能问答方法,其特征在于,skip-gram模型优化参数的方法包括:层次softmax、负采样和二次采样中的一种或多种。5.如权利要求1所述的智能问答方法,其特征在于,步骤S4包括如下子步骤:步骤T1、将问题向量矩阵用二元卷积神经网络生成卷积神经网络;步骤T2、问题向量矩阵经第一卷积层、第一采样层、第二卷积层和第二采样层后变换到输出层,生成问题向量...

【专利技术属性】
技术研发人员:张邦佐武志远孙小新冯国忠
申请(专利权)人:东北师范大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1