一种普法问答系统的向量检索式对话方法技术方案

技术编号：31170745 阅读：15 留言：0更新日期：2021-12-04 13:33

本发明专利技术公开了一种普法问答系统的向量检索式对话方法，其包括步骤1：构建普法问答系统的法律问答数据集；步骤2：构建问句数据集的向量索引；步骤3：将问题文本输入普法问答系统；步骤4：根据问题文本生成句意向量；步骤5：根据向量索引检索到与问题句意向量最相似的目标问句，并在法律问答数据集中找到对应的答案；步骤6：将返回的答案合成为语音输出给咨询者；本发明专利技术通过bert模型生成句意向量，解决了词表征中一词多义的问题，语义匹配的准确率高；其建立的二叉树索引解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题，并且平衡了不同度量函数对于文本语义向量相似度计算所产生偏差，能够有效提高检索准确率。确率。确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种普法问答系统的向量检索式对话方法

[0001]本专利技术涉及人机对话系统
，特别涉及一种问答系统的对话方法。

技术介绍

[0002]基于法律领域的问答系统是普法机器人系统最为核心的功能，咨询者提出问题，计算机能够对问题进行正确的理解是问答系统的第一步，只有清楚咨询者的意图，才能根据咨询者意愿检索出相匹配的答案。计算机无法理解自然语言，因此必须将自然语言表征为向量，才能使计算机有效识别。
[0003]文本句向量一般是由词向量生成模型先将一个中文句子中的每个词转成固定维度的词向量，词向量中编码进了词语与词语之间的相似性和差异性，然后通过词向量累加、TF
‑
IDF加权平均等方法计算得到。
[0004]传统词向量生成方法包括：Bow模型和Word2Vec模型。
[0005]①
Bow模型
[0006]Bow模型也称为词袋模型，它通过统计词频的方式来实现文本信息的向量表征。对于一个文本，它将其中每个词语都看成是相互独立的，只关注它们出现的次数，而不关心出现顺序、语法等其他影响因素。
[0007]Bow模型首先需要对语料中出现的所有词语进行统计，构建一个词汇表。对于需要获取向量表示的文本，则统计词汇表中每个词语在该文本中出现的次数。最后可以获取一个N维的稀疏向量来表征该文本，其中，N表示词汇表的大小，词汇表中每个词语在该文本中出现的频数对应着每一维的值。
[0008]Bow模型原理简单，容易理解与实现，但却有明显的缺点：第一，它忽略了文本词汇间上...

【技术保护点】

【技术特征摘要】
1.一种普法问答系统的向量检索式对话方法，包括：步骤1：构建普法问答系统的法律问答数据集，所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成；步骤2：对问句数据集中每条问句构建特征向量，并构建问句数据集的向量索引；步骤3：识别咨询者的语音获得问题文本，将问题文本输入普法问答系统；步骤4：普法问答系统根据问题文本生成句意向量；步骤5：普法问答系统根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句，并根据目标问句的ID在法律问答数据集中找到对应的答案；步骤6：普法问答系统将检索返回的答案合成为语音输出给咨询者；其特征在于：所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤：I)在问句数据集中随机选择两个样本点作为初始样本中心点，然后做聚类数为2的kmeans操作，整个聚类过程收敛后，会得到两个聚类中心点；将这两个聚类中心点相连得到一条线段，过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间；II)在子空间中依照步骤I)中的方法继续进行迭代划分，直到每个子空间中的样本点数不超过k即得到二叉树索引；其中k根据样本点总数自动设定；III)重复步骤I)和步骤II)，得到若干个二叉树索引；且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引，另一部分是基于欧式距离度量的二叉树索引；在步骤5中普法问答系统根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤：a)加载二叉树索引对根据问题文本生成的句意向量进行检索，在二叉树索引遍历过程中，每棵二叉树索引返回K个检索结果，N棵二叉树索引返回N*K个近邻相似结果，对这N*K个近邻相似结果进行聚合操作，按照出现的次数返回前K个近邻相似结果；b)对于步骤a)得到的前K个近邻相似结果，基于余弦距离构...

【专利技术属性】
技术研发人员：沈志熙，刘鹏，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人