当前位置: 首页 > 专利查询>重庆大学专利>正文

一种普法问答系统的向量检索式对话方法技术方案

技术编号:31170745 阅读:15 留言:0更新日期:2021-12-04 13:33
本发明专利技术公开了一种普法问答系统的向量检索式对话方法,其包括步骤1:构建普法问答系统的法律问答数据集;步骤2:构建问句数据集的向量索引;步骤3:将问题文本输入普法问答系统;步骤4:根据问题文本生成句意向量;步骤5:根据向量索引检索到与问题句意向量最相似的目标问句,并在法律问答数据集中找到对应的答案;步骤6:将返回的答案合成为语音输出给咨询者;本发明专利技术通过bert模型生成句意向量,解决了词表征中一词多义的问题,语义匹配的准确率高;其建立的二叉树索引解决了随机选取的样本中心点可能导致某个二叉树检索效果并不好的技术问题,并且平衡了不同度量函数对于文本语义向量相似度计算所产生偏差,能够有效提高检索准确率。确率。确率。

【技术实现步骤摘要】
一种普法问答系统的向量检索式对话方法


[0001]本专利技术涉及人机对话系统
,特别涉及一种问答系统的对话方法。

技术介绍

[0002]基于法律领域的问答系统是普法机器人系统最为核心的功能,咨询者提出问题,计算机能够对问题进行正确的理解是问答系统的第一步,只有清楚咨询者的意图,才能根据咨询者意愿检索出相匹配的答案。计算机无法理解自然语言,因此必须将自然语言表征为向量,才能使计算机有效识别。
[0003]文本句向量一般是由词向量生成模型先将一个中文句子中的每个词转成固定维度的词向量,词向量中编码进了词语与词语之间的相似性和差异性,然后通过词向量累加、TF

IDF加权平均等方法计算得到。
[0004]传统词向量生成方法包括:Bow模型和Word2Vec模型。
[0005]①
Bow模型
[0006]Bow模型也称为词袋模型,它通过统计词频的方式来实现文本信息的向量表征。对于一个文本,它将其中每个词语都看成是相互独立的,只关注它们出现的次数,而不关心出现顺序、语法等其他影响因素。
[0007]Bow模型首先需要对语料中出现的所有词语进行统计,构建一个词汇表。对于需要获取向量表示的文本,则统计词汇表中每个词语在该文本中出现的次数。最后可以获取一个N维的稀疏向量来表征该文本,其中,N表示词汇表的大小,词汇表中每个词语在该文本中出现的频数对应着每一维的值。
[0008]Bow模型原理简单,容易理解与实现,但却有明显的缺点:第一,它忽略了文本词汇间上下文结构关系,仅通过统计各个词汇在文本中出现的次数来表征该词汇在文本中的重要程度;第二,在构建词汇表时,由于语料库一般都比较大,因此对应的词汇表也较大,但每条语料所包含的词汇并不多,会导致Bow模型生成的文本向量十分稀疏,存储和计算的难度都比较大;第三,一个词汇通常不仅包含一种含义,该模型无法区分词汇在整个文本中所表示的含义,例如,“小明喜欢吃苹果”和“小明喜欢用苹果”经由该模型所获取的向量表征很相似,但明显意思不同。
[0009]②
Word2Vec模型
[0010]Word2Vec模型是一种基于迭代的模型,它预期处理的语言任务是上下文的预测,生成词向量是该模型在训练过程中的中间产物。按照模型结构划分,它可以划分为两种,一种是连续词袋模型CBOW,另一种则是跳字模型Skip

Gram。两种结构的模型输入均为语料的one

hot向量,one

hot向量可以表示为R|V|
×
1,其中|V|表示词汇表中词语的总量。只需要确定某词语在词汇表中的索引位置,那么其one

hot向量中与索引位置对应的元素值为1,其余位置值均为0。例如,词汇表为{“我”,“喜欢”,“吃”,“葡萄”},则“我”的one

hot向量为{1,0,0,0}。这种表示方法的缺陷在于每个词都是相互独立的,无法计算词语之间的相似度。Word2Vec就是将词语的one

hot向量映射到低维空间形成词向量,能够较好的体现词语
之间的相似性。
[0011]从上述分析可知,使用传统的词向量生成方法来获取文本的向量表征,都具有各自明显的局限性,对于BOW模型来说,它忽略了句子的语序语法等重要因素,仅依靠统计词频的方式来获取文本向量并无法完整表达文本的语义信息;对于Word2Vec模型来说,虽然通过浅层的神经网络将文本信息压缩到一个较低维的空间中,且在表征语义相似性方面效果不错,但是获取的词向量仍然是静态的,无法解决一词多义的问题,且无法表征上下文语境。
[0012]构建问句的表征向量是本检索式问答系统的上游任务,后续需要根据问题的句意向量在问答数据集中检索出与其最相似的目标问句,然后返回问题答案。为了检索效率,通常要给问答数据集建立向量索引。在构建向量索引构建时,不同向量距离度量函数对向量相似度的影响并不完全相同,现有技术中在构建向量索引构建时通常只选择同一种通常距离度量函数。而若能有效平衡不同度量函数对于文本语义向量相似度计算所产生偏差,则能够有效提高检索准确率。

技术实现思路

[0013]有鉴于此,本专利技术的目的是提供一种普法问答系统的向量检索式对话方法,以解决传统BOW模型及Word2Vec模型词向量生成方法所存在的技术缺点,并解决不同度量函数对于文本语义向量相似度计算所产生偏差,以提高检索准确率的技术问题。
[0014]本专利技术普法问答系统的向量检索式对话方法,其包括:
[0015]步骤1:构建普法问答系统的法律问答数据集,所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成;
[0016]步骤2:对问句数据集中每条问句构建特征向量,并构建问句数据集的向量索引;
[0017]步骤3:识别咨询者的语音获得问题文本,将问题文本输入普法问答系统;
[0018]步骤4:普法问答系统根据问题文本生成句意向量;
[0019]步骤5:普法问答系统根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句,并根据目标问句的ID在法律问答数据集中找到对应的答案;
[0020]步骤6:普法问答系统将检索返回的答案合成为语音输出给咨询者;
[0021]其特征在于:
[0022]所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤:
[0023]I)在问句数据集中随机选择两个样本点作为初始样本中心点,然后做聚类数为2的kmeans操作,整个聚类过程收敛后,会得到两个聚类中心点;将这两个聚类中心点相连得到一条线段,过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间;
[0024]II)在子空间中依照步骤I)中的方法继续进行迭代划分,直到每个子空间中的样本点数不超过k即得到二叉树索引;其中k根据样本点总数自动设定;
[0025]III)重复步骤I)和步骤II),得到若干个二叉树索引;且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引,另一部分是基于欧式距离度量的二叉树索引;
[0026]在步骤5中普法问答系统根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤:
[0027]a)加载二叉树索引对根据问题文本生成的句意向量进行检索,在二叉树索引遍历过程中,每棵二叉树索引返回K个检索结果,N棵二叉树索引返回N*K个近邻相似结果,对这N*K个近邻相似结果进行聚合操作,按照出现的次数返回前K个近邻相似结果;
[0028]b)对于步骤a)得到的前K个近邻相似结果,基于余弦距离构建的二叉树索引采用余弦公式计算向量间的距离并对结果进行降序排列,构成第一个候选集;基于欧式距离构建的二叉树索引则采用欧式公式计算向量间的距离并进行降序排列,构成第二个候选集;
[0029]c)首先返本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种普法问答系统的向量检索式对话方法,包括:步骤1:构建普法问答系统的法律问答数据集,所述法律问答数据集由问句数据集和与问句数据集对应的答案数据集构成;步骤2:对问句数据集中每条问句构建特征向量,并构建问句数据集的向量索引;步骤3:识别咨询者的语音获得问题文本,将问题文本输入普法问答系统;步骤4:普法问答系统根据问题文本生成句意向量;步骤5:普法问答系统根据问句数据集的向量索引检索到与问题文本的句意向量最相似的目标问句,并根据目标问句的ID在法律问答数据集中找到对应的答案;步骤6:普法问答系统将检索返回的答案合成为语音输出给咨询者;其特征在于:所述问句数据集的向量索引为由Annoy向量检索算法创建的二叉树索引,创建二叉树索引包括以下步骤:I)在问句数据集中随机选择两个样本点作为初始样本中心点,然后做聚类数为2的kmeans操作,整个聚类过程收敛后,会得到两个聚类中心点;将这两个聚类中心点相连得到一条线段,过该线段的中心点做一条垂直平分该线段的线将整个问句数据集的特征空间划分为两个子空间;II)在子空间中依照步骤I)中的方法继续进行迭代划分,直到每个子空间中的样本点数不超过k即得到二叉树索引;其中k根据样本点总数自动设定;III)重复步骤I)和步骤II),得到若干个二叉树索引;且所得到的若干个二叉树索引中一部分为是基于余弦距离度量的二叉树索引,另一部分是基于欧式距离度量的二叉树索引;在步骤5中普法问答系统根据问句数据集的向量索引检索与问题文本的句意向量最相似的目标问句包括以下步骤:a)加载二叉树索引对根据问题文本生成的句意向量进行检索,在二叉树索引遍历过程中,每棵二叉树索引返回K个检索结果,N棵二叉树索引返回N*K个近邻相似结果,对这N*K个近邻相似结果进行聚合操作,按照出现的次数返回前K个近邻相似结果;b)对于步骤a)得到的前K个近邻相似结果,基于余弦距离构...

【专利技术属性】
技术研发人员:沈志熙刘鹏
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1