【技术实现步骤摘要】
基于四层特征向量匹配模型的智能问答方法及系统
[0001]本专利技术涉及人工智能中的智能问答领域,具体涉及一种基于四层特征向量匹配模型的智能问答方法及系统。
技术介绍
[0002]20世纪之后,随着自然语言理解技术、语义分析技术、移动互联网技术及深度学习算法的崛起与发展,智能问答的发展也是突飞猛进。因智能问答具备7X 24小时在线服务、响应速度快、并发接待数高、自动回复等优势,近几年国内各大企业也相继在智能问答领域有了突破性的进展,智能问答产品也层出不穷,例如阿里小蜜、小米小爱同学等,这些产品已经广泛应用到人们日常生活中。
[0003]但由于传统的智能问答一般只针对问答对等形式进行匹配,只能匹配问答库中的问题,无法对问题进行多维度的搜索,也无法对附件数据进行定位检索。因此,针对多维度多种类的问题搜索以及反馈机制,利用知识图谱构建一个完整的搜索反馈机制,可以有效提高问题的搜索效率。
[0004]智能问答系统能否适应不同行业的业务复杂性,并准确回答用户提出的问题,主要涉及两方面的功能:其一,能否正确理解用户的意图;其二,能否准确地在知识仓库中提取相应的答案。
[0005]目前国内外对于用户意图理解的主流做法是通过NLP的手段对用户的提问进行分词处理,并形成词向量后进行语义解析。但由于实际应用过程中业务域广,包含的专业术语众多等因素,往往会影响分词的准确性。
[0006]在理解用户意图后从知识仓库提取答案阶段,答案和问题的匹配度取决于分类算法模型精准度,如何提升算法模型的精准度、如何进行搜索 ...
【技术保护点】
【技术特征摘要】
1.一种基于四层特征向量匹配模型的智能问答方法,其特征在于,包括:步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱;步骤S2:基于TF
‑
IDF算法和卡方检测算法提取出所述问答库的词袋向量,同时基于朴素贝叶斯算法对所有所述问答库中数据进行问答对模型训练,得到训练好的问答对模型;步骤S3:将所述本体库、知识库、专家库、笔记库、论坛库、问答库的中的结构化数据进行归类,并量化形成泛化样本模板以及对应的泛化样本,配置所述泛化样本模板的图游走查询语句,并基于朴素贝叶斯模型对所述泛化样本进行结构化数据语义泛化模型训练,得到训练好的结构化数据语义泛化模型;步骤S4:将所述知识仓库中非结构化数据,利用依存句法模型进行三元组抽取,抽取出实体
‑
关系的数据,构建非结构化数据知识图谱;步骤S5:对所述知识仓库配置全文检索schema,对结构化数据的关键信息建立索引,将非结构化数据创建全文检索索引;步骤S6:构建四层结果反馈模型:用户在搜索页面中输入待检索的问题或者关键词,经过步骤S2训练好的问答对模型,计算出待检索的问题与所述问答库中已有问题的相似度,如果相似度大于阈值a,则由答案构建模块将答案推送给用户;否则转入步骤S3的所述结构化数据语义泛化模型中,计算出待检索的问题与所述样本模板中已有模板的相似度,如果相似度大于阈值b,则由所述答案构建模块将答案推送给用户;否则将转入步骤S4中所述非结构化数据图谱中,如果存在同名非结构化实体节点,则将该节点关联的答案推送给用户,如果不存在,则转入步骤S5的所述全文检索schema中,从全文搜索匹配的答案;步骤S7:所述用户得到答案后,可以对所述答案进行评价反馈,如反馈问题已解决,则根据问题来更新所述用户的画像,并生成所述用户感兴趣的问题以及反问引导;如反馈未解决,则将该问题记录到未知问题库中,等待业务专家维护。2.根据权利要求1所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S1:采集知识并进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱,具体包括:对多种数据源进行知识采集,或以批量导入的方式将知识导入,按照六大知识体系将采集的知识进行分类,构建知识库、本体库、问答库、专家库、笔记库、论坛库六个知识仓库以及所述知识仓库的结构化数据图谱;同时构建同义词词库,可针对同义词进行语义替换。3.根据权利要求2所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S2:基于TF
‑
IDF算法和卡方检测算法提取出所述问答库的词袋向量,同时基于朴素贝叶斯算法对所有所述问答库中数据进行问答对模型训练,得到训练好的问答对模型,具体包括:步骤S21:基于TF
‑
IDF算法对所述问答库中问答对数据进行特征提取,对其中问句中各词出现的词频进行统计,并对一个词在所有文本中出现的逆文本频率进行统计,通过计算所有问句的词频
‑
逆文本频率获取所述问答库的词袋向量;步骤S22:利用卡方检测算法,如公式(1)所示,根据卡方值对所述词袋向量进行筛选优化,基于所述词袋向量将问句进行向量化表示,得到问句向量;
其中,O是所述词袋向量的实际值,E是所述词袋向量的期望值;x2为所述词袋向量的卡方值;步骤S23:将所述问句向量作为输入,以问句ID作为输出,利用朴素贝叶斯分类算法进行模型训练,得到训练好的问答对模型。4.根据权利要求1所述的基于四层特征向量匹配模型的智能问答方法,其特征在于,所述步骤S3:将所述本体库、知识库、专家库、笔记库、...
【专利技术属性】
技术研发人员:贾晓霞,孟飞,朱雨洁,吕梦怡,钱大伟,周峰,范双全,邓苏,谢登峰,薛白石,
申请(专利权)人:金航数码科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。