一种基于深度语义的问题精确检索方法技术

技术编号:35033610 阅读:66 留言:0更新日期:2022-09-24 23:08
本发明专利技术公开了一种基于深度语义的问题精确检索方法,首先利用预训练文本表征模型提取知识库中问题的文本表征向量,随后将提取后的向量做归一化处理、持久化至磁盘,计算5种关于精确计算的相似度特征,这5种相似度特征作为分类

【技术实现步骤摘要】
一种基于深度语义的问题精确检索方法


[0001]本专利技术属于自然语言处理和智能问答
,涉及一种深度语义的问题精确检索方法。

技术介绍

[0002]随着深度学习在自然语言处理领域的快速发展,使得问答系统逐渐趋向于智能化。问答系统能否快速准确地回答用户问题,为用户的生活带来便捷是迫切需要解决的问题。在垂直领域问答中,传统的人工方式浪费大量的人力,物力解决用户问题具有局限性,即用户问题换种问法,返回的答案就是错误的。问答系统需要从问答数据中快速准确的检索出与用户问题最为相似的问题答案,现有的垂直领域问答系统使用基于规则模板匹配,统计学习与机器学习和深度学习的方法来解决问答问题,基于规则模板匹配的方法适用于构建垂直定域的问答模型,满足于垂直领域或者某个特定范围的用户问题,但需要人工制定规则,缺点是耗费时间且模型无法较好扩展。基于统计或机器学习的方法可解释性较好,依赖人工寻找的特征更加精准,在检索时可以定位到问题的关键信息使得检索结果更准确,但泛化能力一般且模型的效果在很大程度上取决于特征的选择。基于神经网络的深度学习的方法泛化能力强,能够捕捉到问题与知识库问题之间的语义关系,但现有的预训练文本表征模型对句子的表征具有各向异性,难以反映出两个句子的语义相似度。

技术实现思路

[0003]本专利技术的目的是提供一种深度语义的问题精确检索方法,该方法融合了问题与知识库问题的特征与表征,使用基于深度学习的方法增加了模型泛化检索的能力,通过分析知识库问题之间的语义关系,构造了五种相似度特征,并使用基于统计或机器学习的方法增加了模型精确检索的能力,提高了问答模型的综合性能。
[0004]本专利技术所采用的技术方案是,一种深度语义的问题精确检索方法,具体按照以下步骤实施:
[0005]步骤1、文本语义特征比对,在文本语义特征比对阶段,对案例库CB (Case Base)中存放的问答对数据对进行分类合并形成知识库KB (Knowledge Base)。CB是从文旅机构收集到的问答对组成,其中包含了 3217对问答对。KB是由人工对问答对进行检验标注,每条数据由大类编号、小类编号、问题、答案四个属性组成,共3217条数据。通过预训练文本表征模型将知识库问题转化为文本表征向量,并将输出结果持久化至磁盘中,从而使得用户提问的问题可以与知识库问题进行相似度计算;
[0006]步骤2、精确检索特征计算,使用用户提问问题的表征向量在知识库中检索出最相关的k(k>0)条问句,这一步称为top

k候选。由于用户通常提问较短的问句,这就导致问句包含的有效信息较少,造成样本的特征稀疏且特征集的维数高,从而较难从用户问句中抽取到关键而准确的样本特征用于相似问句的检索。因此,针对短文本的这一特点,在精确检索特征计算阶段,基于top

k候选问答对,可以为待检索的短文本问句构造五种外部相似度
特征,分别是用户问句与top

k候选问句文本表征相似度Deep_Score,用户问句与top

k候选问句特征相似度Sim(Q,KBQ),用户问句与top

k候选问句实体特征相似度Sim(Q,KBQE),用户问句与top

k候选问句答案特征相似度 Sim(Q,KBA),用户问句与top

k候选问句意图特征相似度Sim(Q,KBQR)。
[0007]步骤3、候选问句状态判断,通过对步骤2可以获得精确检索特征,我们设计了分类

判别模型来判断问题是否可以被回答,分类

判别模型对步骤2 的5种相似度特征进行了加权处理,淡化了不重要的特征,加强了问题的主要特征,分类

判别模型输出True代表该候选问句与待检索问句相似,其答案可以作为待检索问句的答案,输出False代表该候选问句与待检索问句不相似,其答案不可以作为待检索问句的答案。
[0008]本专利技术的特点还在于:
[0009]步骤1具体按照以下步骤实施:
[0010]步骤1.1、利用预训练文本表征模型提取文本的表征信息;
[0011]步骤1.2、使用向量处理工具来持久化向量,同时用于向量相似度的计算;
[0012]步骤1.1具体为,我们通过给预训练文本表征模型输入知识库中的问题句子,来对知识库问句进行表征信息提取。
[0013]步骤1.2具体按照以下步骤实施:
[0014]步骤1.2.1、通过步骤1.1得到了知识库问句表征向量,对表征向量做归一化处理,将处理后的表征向量集合持久化到磁盘中,为后面的计算提供支持。
[0015]步骤1.2.2、对步骤1.2.1得到的表征向量与知识库问句表征向量做相似度计算,随后为计算结果进行高效排序。
[0016]步骤2具体按照以下步骤实施:
[0017]步骤2.1、根据步骤1排序的结果、我们在其中选取前k(k>0)个问句作为当前用户问题的top

k候选集。
[0018]步骤2.2、根据步骤1.2.2对用户问题表征向量和知识库问题表征向量的相似度作为深度语义Deep_Score,其中e
u
,e
k
分别表示用户问题表征向量和知识库问题表征向量
[0019]步骤2.3、计算用户问句与top

k候选问句特征相似度Sim(Q,KBQ), Sim(Q,KBQ)=max(Q∩KBQ),其中Q代表用户问句语义块特征,KBQ代表候选问句语义块特征,我们使用Q与KBQ的最大观测值来表示用户问句与知识库问句的相关程度。
[0020]步骤2.4、计算用户问句与top

k候选问句实体特征相似度Sim(Q,KBQE), Sim(Q,KBQE)=max(Q∩KBQE),其中KBQE表示使用命名实体提取算法得出的候选问句实体特征,引入这一特征是为了计算问句与top

k候选问题的实体特征相似度,这一特征是对步骤2.3结果的进一步修正,是为解决语义块不能最大化表示核心实体特征。
[0021]步骤2.5、计算用户问句与top

k候选问句答案特征相似度Sim(Q,KBA), Sim(Q,KBA)=max(Q∩KBA),其中KBA代表候选问句的答案语义块特征,这一特征作为偏置特征引入,一般来说问题与答案之间的关系是非常微弱的,我们将这一微弱的特征作为偏执特征引入有助于提高精确检索特征计算的性能。
[0022]步骤2.6、计算用户问句与top

k候选问句意图特征相似度Sim(Q,KBQR),Sim(Q,
KBQR)=max(Q∩KBQR),其中KBQR表示使用文本意图提取算法得出的候选问句意图特征,这一特征得主要作用是为判断用户意图以及意图得强弱,使用意图特征可以有效匹配用户问句与top

k候选问句的意图。
[0023]步骤3具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度语义的问题精确检索方法,其特征在于,具体按照以下步骤实施:步骤1、文本语义特征比对在文本语义特征比对阶段,对案例库CB中存放的搜集到的用户问答数据对进行整理合并形成知识库KB;通过预训练文本表征模型将知识库问题转化为文本表征向量,并将输出结果持久化至磁盘中,从而使得用户问题可以与知识库问题进行相似度计算;步骤2、精确检索特征计算使用文本表征向量在案例库CB中检索出最相关的k条问句,k>1,这一步称为top

k候选;针对短文本在精确检索特征计算阶段,基于top

k候选问答对,为待检索的短文本问句构造五种相似度特征,分别是用户问句与top

k候选问句文本表征相似度Deep_Score,用户问句与top

k候选问句特征相似度Sim(Q,KBQ),用户问句与top

k候选问句实体特征相似度Sim(Q,KBQE),用户问句与top

k候选问句答案特征相似度Sim(Q,KBA),用户问句与top

k候选问句意图特征相似度Sim(Q,KBQR);步骤3、候选问句状态判断根据步骤2获得的精确检索特征相似度构建分类

判别模型,所述分类

判别模型用于判断问题是否可以被回答,分类

判别模型对步骤2的5种相似度特征进行建模,加强了问题的主要特征;分类

判别模型输出True代表该候选问句与用户提问问句相似,其答案可以作为最终答案返回,输出False代表该候选问句与用户提问问句不相似,其答案不可以作为最终答案返回。2.根据权利要求1所述的一种基于深度语义的问题精确检索方法,其特征在于,步骤1具体如下:步骤1.1、将案例库数据输入预训练文本表征模型提取文本的特征向量;步骤1.2、使用向量处理工具来持久化特征向量;具体如下:步骤1.2.1、通过步骤1.1得到特征向量,对特征向量做归一化处理,使用向量处理工具Faiss将处理后的文本表征向量集合持久化到磁盘中;步骤1.2.2、随后对用户问题文本表征向量与知识库表征向量做相似度计算,对计算结果进行高效排序。3.根据权利要求2所述的一种基于深度语义的问题精确检索方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、计算用户问句与top

k候选问句特征相似度Sim(Q,KBQ),其中,Q代表用户问句语义块特征,KBQ代表候选问句语义块特征,Q与KBQ的最大观测值作为特征相似度Sim(Q,KBQ),即Sim...

【专利技术属性】
技术研发人员:朱欣娟赵钊尚爱国焦一凯
申请(专利权)人:西安工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1