基于四层特征向量匹配模型的智能问答方法及系统技术方案

技术编号:37255314 阅读:12 留言:0更新日期:2023-04-20 23:31
本发明专利技术涉及一种基于四层特征向量匹配模型的智能问答方法及系统,其方法包括:步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及知识仓库的结构化数据图谱;步骤S2:构建第一层问答对模型;步骤S3:构建第二层结构化数据语义泛化模型;步骤S4:构建第三层非结构化数据知识图谱;步骤S5:构建第四层全文检索索引;步骤S6:构建四层结果反馈模型,根据用户在搜索页面中输入待检索的问题或者关键词,首先经过第一层模型,如果得到答案则推给用户;否则转入第二层模型,以此类推,直到得到答案;步骤S7:用户可对得到的答案进行评价反馈。本发明专利技术提供的方法从多角度对知识进行查询,提高搜索效率和准确度。效率和准确度。效率和准确度。

【技术实现步骤摘要】
基于四层特征向量匹配模型的智能问答方法及系统


[0001]本专利技术涉及人工智能中的智能问答领域,具体涉及一种基于四层特征向量匹配模型的智能问答方法及系统。

技术介绍

[0002]20世纪之后,随着自然语言理解技术、语义分析技术、移动互联网技术及深度学习算法的崛起与发展,智能问答的发展也是突飞猛进。因智能问答具备7X 24小时在线服务、响应速度快、并发接待数高、自动回复等优势,近几年国内各大企业也相继在智能问答领域有了突破性的进展,智能问答产品也层出不穷,例如阿里小蜜、小米小爱同学等,这些产品已经广泛应用到人们日常生活中。
[0003]但由于传统的智能问答一般只针对问答对等形式进行匹配,只能匹配问答库中的问题,无法对问题进行多维度的搜索,也无法对附件数据进行定位检索。因此,针对多维度多种类的问题搜索以及反馈机制,利用知识图谱构建一个完整的搜索反馈机制,可以有效提高问题的搜索效率。
[0004]智能问答系统能否适应不同行业的业务复杂性,并准确回答用户提出的问题,主要涉及两方面的功能:其一,能否正确理解用户的意图;其二,能否准确地在知识仓库中提取相应的答案。
[0005]目前国内外对于用户意图理解的主流做法是通过NLP的手段对用户的提问进行分词处理,并形成词向量后进行语义解析。但由于实际应用过程中业务域广,包含的专业术语众多等因素,往往会影响分词的准确性。
[0006]在理解用户意图后从知识仓库提取答案阶段,答案和问题的匹配度取决于分类算法模型精准度,如何提升算法模型的精准度、如何进行搜索逻辑的优化也是智能问答技术的重中之重。

技术实现思路

[0007]为了解决上述技术问题,本专利技术提供一种基于四层特征向量匹配模型的智能问答方法及系统。
[0008]本专利技术技术解决方案为:一种基于四层特征向量匹配模型的智能问答方法,包括:
[0009]步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱;
[0010]步骤S2:基于TF

IDF算法和卡方检测算法提取出所述问答库的词袋向量,同时基于朴素贝叶斯算法对所有所述问答库中数据进行问答对模型训练,得到训练好的问答对模型;
[0011]步骤S3:将所述本体库、知识库、专家库、笔记库、论坛库的中的结构化数据进行归类,并量化形成泛化样本模板以及对应的泛化样本,配置所述泛化样本模板的图游走查询语句,并基于朴素贝叶斯模型对所述泛化样本进行结构化数据语义泛化模型训练,得到训
练好的结构化数据语义泛化模型;
[0012]步骤S4:将所述知识仓库中非结构化数据,利用依存句法模型进行三元组抽取,抽取出实体

关系的数据,构建非结构化数据知识图谱;
[0013]步骤S5:对所述知识仓库配置全文检索schema,对结构化数据的关键信息建立索引,将非结构化数据创建全文检索索引;
[0014]步骤S6:构建四层结果反馈模型:用户在搜索页面中输入待检索的问题或者关键词,经过步骤S2训练好的问答对模型,计算出待检索的问题与所述问答库中已有问题的相似度,如果相似度大于阈值a,则由答案构建模块将答案推送给用户;否则转入步骤S3的所述结构化数据语义泛化模型中,计算出待检索的问题与所述样本模板中已有模板的相似度,如果相似度大于阈值b,则由所述答案构建模块将答案推送给用户;否则将转入步骤S4中所述非结构化数据图谱中,如果存在同名非结构化实体节点,则将该节点关联的答案推送给用户,如果不存在,则转入步骤S5的所述全文检索schema中,从全文搜索匹配的答案;
[0015]步骤S7:所述用户得到答案后,可以对所述答案进行评价反馈,如反馈问题已解决,则根据问题来更新所述用户的画像,并生成所述用户感兴趣的问题以及反问引导;如反馈未解决,则将该问题记录到未知问题库中,等待业务专家维护。
[0016]本专利技术与现有技术相比,具有以下优点:
[0017]1、本专利技术公开了一种基于四层特征向量匹配模型的智能问答方法,提供了多种问题输入方式,包含问题或者关键字等,比传统的关键字检索方式更加智能化、便捷化,更加适合实际应用的业务场景。
[0018]2、本专利技术提高了问答对模型以及结构化数据语义泛化模型的准确性。在构建问答库词袋向量时通过TF

IDF算法能够更好地反映出词对问题的关联度,同时通过卡方检测算法对词袋向量进行降维处理,进一步剔除无关的影响因子,使在测试集上问答对模型的准确率能够达到90%以上。
[0019]3、本专利技术能够更好地应对复杂业务场景。深入梳理装备制造业全生命周期涉及的业务领域,据此构建问答分类体系及领域同义词库,使得问答系统能够更好地解决装备制造业全生命周期的各种问题。
[0020]4、本专利技术提供的四层特征向量匹配体系,能够从多角度对知识进行查询,结构化和非结构化的图谱构建也提高了知识的搜索效率和搜索准确度。
附图说明
[0021]图1为本专利技术实施例中一种基于四层特征向量匹配模型的智能问答方法的流程图;
[0022]图2为本专利技术实施例中问答对模型的架构示意图;
[0023]图3为本专利技术实施例中结构化数据语义泛化模型的架构示意图;
[0024]图4为本专利技术实施例中结构化数据语义泛化过程示意图;
[0025]图5为本专利技术实施例中非结构化数据知识图谱构建过程示意图;
[0026]图6为本专利技术实施例中全文检索的构建过程示意图;
[0027]图7为本专利技术实施例中第一层使用问答对模型搜索答案构建及结果输出过程示意图;
[0028]图8为本专利技术实施例中第二层使用结构化数据语义泛化模型搜索答案构建及结果输出过程示意图;
[0029]图9为本专利技术实施例中四层结果反馈模型的总体架构示意图;
[0030]图10为本专利技术实施例中一种基于四层特征向量匹配模型的智能问答系统的结构框图。
具体实施方式
[0031]本专利技术提供了一种基于四层特征向量匹配模型的智能问答方法,构建四层搜索体系,能够从多角度对知识进行查询,结构化和非结构化的图谱构建也提高了知识的搜索效率和搜索准确度。
[0032]为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。
[0033]实施例一
[0034]如图1所示,本专利技术实施例提供的一种基于四层特征向量匹配模型的智能问答方法,包括下述步骤:
[0035]步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及知识仓库的结构化数据图谱;
[0036]步骤S2:基于TF

IDF算法和卡方检测算法提取出问答库的词袋向量,同时基于朴素贝叶斯算法对所有问答库中数据进行问答对模型训练,得到训练好的问答对模型;
[0037]步骤S3:将本体库、知识库、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于四层特征向量匹配模型的智能问答方法,其特征在于,包括:步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱;步骤S2:基于TF

IDF算法和卡方检测算法提取出所述问答库的词袋向量,同时基于朴素贝叶斯算法对所有所述问答库中数据进行问答对模型训练,得到训练好的问答对模型;步骤S3:将所述本体库、知识库、专家库、笔记库、论坛库、问答库的中的结构化数据进行归类,并量化形成泛化样本模板以及对应的泛化样本,配置所述泛化样本模板的图游走查询语句,并基于朴素贝叶斯模型对所述泛化样本进行结构化数据语义泛化模型训练,得到训练好的结构化数据语义泛化模型;步骤S4:将所述知识仓库中非结构化数据,利用依存句法模型进行三元组抽取,抽取出实体

关系的数据,构建非结构化数据知识图谱;步骤S5:对所述知识仓库配置全文检索schema,对结构化数据的关键信息建立索引,将非结构化数据创建全文检索索引;步骤S6:构建四层结果反馈模型:用户在搜索页面中输入待检索的问题或者关键词,经过步骤S2训练好的问答对模型,计算出待检索的问题与所述问答库中已有问题的相似度,如果相似度大于阈值a,则由答案构建模块将答案推送给用户;否则转入步骤S3的所述结构化数据语义泛化模型中,计算出待检索的问题与所述样本模板中已有模板的相似度,如果相似度大于阈值b,则由所述答案构建模块将答案推送给用户;否则将转入步骤S4中所述非结构化数据图谱中,如果存在同名非结构化实体节点,则将该节点关联的答案推送给用户,如果不存在,则转入步骤S5的所述全文检索schema中,从全文搜索匹配的答案;步骤S7:所述用户得到答案后,可以对所述答案进行评价反馈,如反馈问题已解决,则根据问题来更新所述用户的画像,并生成所述用户感兴趣的问题以及反问引导;如反馈未解决,则将该问题记录到未知问题库中,等待业务专家维护。2.根据权利要求1所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱,具体包括:对多种数据源进行知识采集,或以批量导入的方式将知识导入,按照六大知识体系将采集的知识进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱;同时构建同义词词库,可针对同义词进行语义替换。3.根据权利要求2所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S2:基于TF

IDF算法和卡方检测算法提取出所述问答库的词袋向量,同时基于朴素贝叶斯算法对所有所述问答库中数据进行问答对模型训练,得到训练好的问答对模型,具体包括:步骤S21:基于TF

IDF算法对所述问答库中问答对数据进行特征提取,对其中问句中各词出现的词频进行统计,并对一个词在所有文本中出现的逆文本频率进行统计,通过计算所有问句的词频

逆文本频率获取所述问答库的词袋向量;步骤S22:利用卡方检测算法,如公式(1)所示,根据卡方值对所述词袋向量进行筛选优化,基于所述词袋向量将问句进行向量化表示,得到问句向量;
其中,O是所述词袋向量的实际值,E是所述词袋向量的期望值;x2为所述词袋向量的卡方值;步骤S23:将所述问句向量作为输入,以问句ID作为输出,利用朴素贝叶斯分类算法进行模型训练,得到训练好的问答对模型。4.根据权利要求1所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S3:将所述本体库、知识库、专家库、笔记库、...

【专利技术属性】
技术研发人员:贾晓霞孟飞朱雨洁吕梦怡钱大伟周峰范双全邓苏谢登峰薛白石
申请(专利权)人:金航数码科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1