【技术实现步骤摘要】
一种基于深度语义的问题精确检索方法
[0001]本专利技术属于自然语言处理和智能问答
,涉及一种深度语义的问题精确检索方法。
技术介绍
[0002]随着深度学习在自然语言处理领域的快速发展,使得问答系统逐渐趋向于智能化。问答系统能否快速准确地回答用户问题,为用户的生活带来便捷是迫切需要解决的问题。在垂直领域问答中,传统的人工方式浪费大量的人力,物力解决用户问题具有局限性,即用户问题换种问法,返回的答案就是错误的。问答系统需要从问答数据中快速准确的检索出与用户问题最为相似的问题答案,现有的垂直领域问答系统使用基于规则模板匹配,统计学习与机器学习和深度学习的方法来解决问答问题,基于规则模板匹配的方法适用于构建垂直定域的问答模型,满足于垂直领域或者某个特定范围的用户问题,但需要人工制定规则,缺点是耗费时间且模型无法较好扩展。基于统计或机器学习的方法可解释性较好,依赖人工寻找的特征更加精准,在检索时可以定位到问题的关键信息使得检索结果更准确,但泛化能力一般且模型的效果在很大程度上取决于特征的选择。基于神经网络的深度学习的方法泛化能力强,能够捕捉到问题与知识库问题之间的语义关系,但现有的预训练文本表征模型对句子的表征具有各向异性,难以反映出两个句子的语义相似度。
技术实现思路
[0003]本专利技术的目的是提供一种深度语义的问题精确检索方法,该方法融合了问题与知识库问题的特征与表征,使用基于深度学习的方法增加了模型泛化检索的能力,通过分析知识库问题之间的语义关系,构造了五种相似度特征,并使用基于统计或机器 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度语义的问题精确检索方法,其特征在于,具体按照以下步骤实施:步骤1、文本语义特征比对在文本语义特征比对阶段,对案例库CB中存放的搜集到的用户问答数据对进行整理合并形成知识库KB;通过预训练文本表征模型将知识库问题转化为文本表征向量,并将输出结果持久化至磁盘中,从而使得用户问题可以与知识库问题进行相似度计算;步骤2、精确检索特征计算使用文本表征向量在案例库CB中检索出最相关的k条问句,k>1,这一步称为top
‑
k候选;针对短文本在精确检索特征计算阶段,基于top
‑
k候选问答对,为待检索的短文本问句构造五种相似度特征,分别是用户问句与top
‑
k候选问句文本表征相似度Deep_Score,用户问句与top
‑
k候选问句特征相似度Sim(Q,KBQ),用户问句与top
‑
k候选问句实体特征相似度Sim(Q,KBQE),用户问句与top
‑
k候选问句答案特征相似度Sim(Q,KBA),用户问句与top
‑
k候选问句意图特征相似度Sim(Q,KBQR);步骤3、候选问句状态判断根据步骤2获得的精确检索特征相似度构建分类
‑
判别模型,所述分类
‑
判别模型用于判断问题是否可以被回答,分类
‑
判别模型对步骤2的5种相似度特征进行建模,加强了问题的主要特征;分类
‑
判别模型输出True代表该候选问句与用户提问问句相似,其答案可以作为最终答案返回,输出False代表该候选问句与用户提问问句不相似,其答案不可以作为最终答案返回。2.根据权利要求1所述的一种基于深度语义的问题精确检索方法,其特征在于,步骤1具体如下:步骤1.1、将案例库数据输入预训练文本表征模型提取文本的特征向量;步骤1.2、使用向量处理工具来持久化特征向量;具体如下:步骤1.2.1、通过步骤1.1得到特征向量,对特征向量做归一化处理,使用向量处理工具Faiss将处理后的文本表征向量集合持久化到磁盘中;步骤1.2.2、随后对用户问题文本表征向量与知识库表征向量做相似度计算,对计算结果进行高效排序。3.根据权利要求2所述的一种基于深度语义的问题精确检索方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、计算用户问句与top
‑
k候选问句特征相似度Sim(Q,KBQ),其中,Q代表用户问句语义块特征,KBQ代表候选问句语义块特征,Q与KBQ的最大观测值作为特征相似度Sim(Q,KBQ),即Sim...
【专利技术属性】
技术研发人员:朱欣娟,赵钊,尚爱国,焦一凯,
申请(专利权)人:西安工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。