一种基于匹配度进行内容匹配的智能问答系统技术方案

技术编号:35939392 阅读:20 留言:0更新日期:2022-12-14 10:27
本发明专利技术公开了一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置,其中方法包括:获取经过格式处理的查询内容;确定经过格式处理的查询内容与每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落;在每个候选段落中选择与经过格式处理的查询内容相关联的答案片段,并确定经过格式处理的查询内容与每个答案片段的答案片段匹配度;基于候选段落匹配度和答案片段匹配度,确定经过格式处理的查询内容与答案片段的匹配度;以及基于经过格式处理的查询内容与答案片段的匹配度,从多个答案片段中选择与经过格式处理的查询内容相关联的至少一个目标子段落。段落。段落。

【技术实现步骤摘要】
一种基于匹配度进行内容匹配的智能问答系统


[0001]本专利技术属于自然语言处理
,并且更具体地,涉及一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置。

技术介绍

[0002]基于知识图谱技术的问答系统要求将目标领域的专门知识以知识图谱的方式进行表达,同时将用户非结构化的提问内容转换为结构化形式的图谱查询语句。常用的技术包括基于语义解析和基于路径检索两种方式,其中前者是对用户的问题进行语义解析,将问题直接转换为图谱的查询语句,从而通过查询获得答案;后者则更善于处理复杂的问题,能够以多跳的方式给出问题的检索路径,可解释性强。然而构造特定的目标领域专门知识的知识图谱本身并非易事,因此现有技术的解决方式的前提条件比较苛刻,并且难以满足。
[0003]问答对检测技术首先需要将特定的目标领域的专门知识全部整理为问答对的形式,并预先保存为问答对库。随后,对用户提问的回答则通过匹配用户问题与问答对库中的问题的方式进行,将匹配后得到的问答对中的答案返回即可。这种方法简单、直接,但是问答的质量取决于预先保存的问答对,前期的问答对库的建立可能是一个非常浩大的工程。
[0004]因此,现有技术中存在对于智能问答系统的需求。

技术实现思路

[0005]为了解决现有技术中的问题,本专利技术提供了基于重排序阅读理解算法的智能问答系统,能够对目标系统的各类型文档进行智能化处理,通过本专利技术提出的有别于现有智能问答技术方案的算法,即重排序阅读理解算法,对相关的各种类型的问题自动生成对应的答案,从而实现针对各种类型的问题的智能问答功能。
[0006]有别于聊天式和指令性的对话系统,本专利技术涉及的对话系统针对各种类型的规则等专门知识,并且答案空间相对封闭。本申请的具有上述知识查询特点的问答系统主要包括基于知识图谱技术、问答对检测技术和文档问答技术等。
[0007]本专利技术提供的技术方案有别于现有技术中的主要技术,本专利技术提供的技术方案涉及的技术主要包括问题自然语言理解和知识匹配技术。系统首先通过训练获得一个基于多文档的重排序系统,其中第一步将多文档拆分为段落,并使用经过预训练的BERT网络对段落和典型的答案进行编码,采用特定的损失函数训练该BERT网络,对文档段落和典型问题进行文本匹配,并设置一阈值,过滤匹配程度低的段落和问题对,形成候选段落和问题匹配对;第二步,设计另一个经过预训练的BERT网络对候选段落和问题匹配对进行编码,采用基于交叉熵的另一损失函数,训练该网络预测段落所包含精确答案片段的起止位置信息,即从匹配的段落文字中预测出精确匹配问题的答案。上述训练过程以离线的方式预先完成。
[0008]训练完成后的系统以在线方式对用户提问进行备选答案排序,其排序准则综合考虑了上述的两个步骤的结果,即用户提问与各备选段落的匹配度,和用户提问与各备选答案的匹配度,后者采用对数平滑后与前者相乘,以该结果对所有备选答案排序,并返回排序
中前N个答案。
[0009]根据本专利技术的一个方面,提供一种基于匹配度进行内容匹配的方法,所述方法包括:
[0010]获取用户输入的原始查询内容,对所述原始查询内容进行格式处理以获取经过格式处理的查询内容;
[0011]确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落;
[0012]在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段,并确定所述经过格式处理的查询内容与每个答案片段的答案片段匹配度;
[0013]基于所述候选段落匹配度和答案片段匹配度,确定所述经过格式处理的查询内容与答案片段的匹配度;以及
[0014]基于所述经过格式处理的查询内容与答案片段的匹配度,从多个答案片段中选择与所述经过格式处理的查询内容相关联的至少一个目标子段落。
[0015]优选地,所述对所述原始查询内容进行格式处理以获取经过格式处理的查询内容,包括:
[0016]获取用于对原始查询内容进行格式处理的内容处理规则;
[0017]基于内容处理规则对所述原始查询内容进行格式处理以获取经过格式处理的查询内容。
[0018]优选地,在获取用户输入的原始查询内容之前还包括,
[0019]将所述文本内容库内多个文档中的每个文档按照自然段进行切分,以获得多个自然段;
[0020]确定每个文档中的多级标题,将每级标题和与标题相关联的至少一个自然段构成文本段落。
[0021]优选地,还包括,
[0022]确定每个文本段落中的字符数量;
[0023]将字符数量大于字符数量阈值的文本段落确定为待处理的文本段落;
[0024]将待处理的文本段落进行分割,直到经过分割所获得的任意文本段落的字符数量均小于或等于字符数量阈值为止。
[0025]优选地,所述确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,包括:
[0026]使用Bert预训练的语言表征模型Bert1确定所述经过格式处理的查询内容query的语义特征编码u
q

[0027]u
q
=Bert1(query)
[0028]使用Bert预训练的语言表征模型Bert1确定每个文本段落p
j
的语义特征编码
[0029][0030]计算所述经过格式处理的查询内容与文本内容库内多个文本段落中第j个文本段落的候选段落匹配度
[0031][0032]其中,0<j≤na,j为自然数,na为文本内容库内文本段落的数量。
[0033]优选地,其中,在确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落时,涉及以下损失函数:
[0034][0035]其中,λ为超参数,Ω

为与经过格式处理的查询内容query无关的文档的集合;Ω
+
为与经过格式处理的查询内容query相关的文档的集合。
[0036]优选地,在将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落后,将候选段落构成候选段落集合:
[0037]优选地,所述在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段,包括:
[0038]使用Bert预训练的语言表征模型Bert2确定与所述经过格式处理的查询内容相关联的答案片段的语义特征编码u
qj

[0039]u
qj
=Bert2(concat(query,p
j
))
[0040]确定答案片段在候选段落中的起始位置I
start
和结束位置I
end

[0041][0042][0043][0044][0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于匹配度进行内容匹配的方法,所述方法包括:获取用户输入的原始查询内容,对所述原始查询内容进行格式处理以获取经过格式处理的查询内容;确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落;在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段,并确定所述经过格式处理的查询内容与每个答案片段的答案片段匹配度;基于所述候选段落匹配度和答案片段匹配度,确定所述经过格式处理的查询内容与答案片段的匹配度;以及基于所述经过格式处理的查询内容与答案片段的匹配度,从多个答案片段中选择与所述经过格式处理的查询内容相关联的至少一个目标子段落。2.根据权利要求1所述的方法,所述对所述原始查询内容进行格式处理以获取经过格式处理的查询内容,包括:获取用于对原始查询内容进行格式处理的内容处理规则;基于内容处理规则对所述原始查询内容进行格式处理以获取经过格式处理的查询内容。3.根据权利要求1所述的方法,在获取用户输入的原始查询内容之前还包括,将所述文本内容库内多个文档中的每个文档按照自然段进行切分,以获得多个自然段;确定每个文档中的多级标题,将每级标题和与标题相关联的至少一个自然段构成文本段落。4.根据权利要求3所述的方法,还包括,确定每个文本段落中的字符数量;将字符数量大于字符数量阈值的文本段落确定为待处理的文本段落;将待处理的文本段落进行分割,直到经过分割所获得的任意文本段落的字符数量均小于或等于字符数量阈值为止。5.根据权利要求1所述的方法,所述确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,包括:使用Bert预训练的语言表征模型Bert1确定所述经过格式处理的查询内容query的语义特征编码u
q
:u
q
=Bert1(query)使用Bert预训练的语言表征模型Bert1确定每个文本段落p
j
的语义特征编码的语义特征编码计算所述经过格式处理的查询内容与文本内容库内多个文本段落中第j个文本段落的候选段落匹配度候选段落匹配度其中,0<j≤na,j为自然数,na为文本内容库内文本段落的数量。
6.根据权利要求5所述的方法,其中,在确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落时,涉及以下损失函数:其中,λ为超参数,Ω

为与经过格式处理的查询内容query无关的文档的集合;Ω
+
为与经过格式处理的查询内容query相关的文档的集合。7.根据权利要求5所述的方法,在将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落后,将候选段落构成候选段落集合:8.根据权利要求1所述的方法,所述在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段,包括:使用Bert预训练的语言表征模型Bert2确定与所述经过格式处理的查询内容相关联的答案片段的语义特征编码u
qj
:u
qj
=Bert2(concat(query,p
j
))确定答案片段在候选段落中的起始位置I
start
和结束位置I
end
::::其中,为起始位置的权重矩阵,为和终止位置的权重矩阵,softmax是激活函数,P
start
为起始位置概率,P
end
为终止位置概率,len(p
j
)为p

【专利技术属性】
技术研发人员:周欣司惠菊魏娟谢仁强石丽郭雪飞董江席楠翟畅徐静周露
申请(专利权)人:北京合众鼎成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1