一种基于匹配度进行内容匹配的智能问答系统技术方案

技术编号：35939392 阅读：20 留言：0更新日期：2022-12-14 10:27

本发明专利技术公开了一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置，其中方法包括：获取经过格式处理的查询内容；确定经过格式处理的查询内容与每个文本段落的候选段落匹配度，将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落；在每个候选段落中选择与经过格式处理的查询内容相关联的答案片段，并确定经过格式处理的查询内容与每个答案片段的答案片段匹配度；基于候选段落匹配度和答案片段匹配度，确定经过格式处理的查询内容与答案片段的匹配度；以及基于经过格式处理的查询内容与答案片段的匹配度，从多个答案片段中选择与经过格式处理的查询内容相关联的至少一个目标子段落。段落。段落。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于匹配度进行内容匹配的智能问答系统

[0001]本专利技术属于自然语言处理
，并且更具体地，涉及一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置。

技术介绍

[0002]基于知识图谱技术的问答系统要求将目标领域的专门知识以知识图谱的方式进行表达，同时将用户非结构化的提问内容转换为结构化形式的图谱查询语句。常用的技术包括基于语义解析和基于路径检索两种方式，其中前者是对用户的问题进行语义解析，将问题直接转换为图谱的查询语句，从而通过查询获得答案；后者则更善于处理复杂的问题，能够以多跳的方式给出问题的检索路径，可解释性强。然而构造特定的目标领域专门知识的知识图谱本身并非易事，因此现有技术的解决方式的前提条件比较苛刻，并且难以满足。
[0003]问答对检测技术首先需要将特定的目标领域的专门知识全部整理为问答对的形式，并预先保存为问答对库。随后，对用户提问的回答则通过匹配用户问题与问答对库中的问题的方式进行，将匹配后得到的问答对中的答案返回即可。这种方法简单、直接，但是问答的质量取决于预先保存的问答对，前期的问答对库的建立可能是一个非常浩大的工程。
[0004]因此，现有技术中存在对于智能问答系统的需求。

技术实现思路

[0005]为了解决现有技术中的问题，本专利技术提供了基于重排序阅读理解算法的智能问答系统，能够对目标系统的各类型文档进行智能化处理，通过本专利技术提出的有别于现有智能问答技术方案的算法，即重排序阅读理解算法，对相关的各种类型的问题自动...

【技术保护点】

【技术特征摘要】
1.一种基于匹配度进行内容匹配的方法，所述方法包括：获取用户输入的原始查询内容，对所述原始查询内容进行格式处理以获取经过格式处理的查询内容；确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度，将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落；在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段，并确定所述经过格式处理的查询内容与每个答案片段的答案片段匹配度；基于所述候选段落匹配度和答案片段匹配度，确定所述经过格式处理的查询内容与答案片段的匹配度；以及基于所述经过格式处理的查询内容与答案片段的匹配度，从多个答案片段中选择与所述经过格式处理的查询内容相关联的至少一个目标子段落。2.根据权利要求1所述的方法，所述对所述原始查询内容进行格式处理以获取经过格式处理的查询内容，包括：获取用于对原始查询内容进行格式处理的内容处理规则；基于内容处理规则对所述原始查询内容进行格式处理以获取经过格式处理的查询内容。3.根据权利要求1所述的方法，在获取用户输入的原始查询内容之前还包括，将所述文本内容库内多个文档中的每个文档按照自然段进行切分，以获得多个自然段；确定每个文档中的多级标题，将每级标题和与标题相关联的至少一个自然段构成文本段落。4.根据权利要求3所述的方法，还包括，确定每个文本段落中的字符数量；将字符数量大于字符数量阈值的文本段落确定为待处理的文本段落；将待处理的文本段落进行分割，直到经过分割所获得的任意文本段落的字符数量均小于或等于字符数量阈值为止。5.根据权利要求1所述的方法，所述确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度，包括：使用Bert预训练的语言表征模型Bert1确定所述经过格式处理的查询内容query的语义特征编码u
q
：u
q
＝Bert1(query)使用Bert预训练的语言表征模型Bert1确定每个文本段落p
j
的语义特征编码的语义特征编码计算所述经过格式处理的查询内容与文本内容库内多个文本段落中第j个文本段落的候选段落匹配度候选段落匹配度其中，0<j≤na，j为自然数，na为文本内容库内文本段落的数量。
6.根据权利要求5所述的方法，其中，在确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度，将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落时，涉及以下损失函数：其中，λ为超参数，Ω
‑
为与经过格式处理的查询内容query无关的文档的集合；Ω
+
为与经过格式处理的查询内容query相关的文档的集合。7.根据权利要求5所述的方法，在将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落后，将候选段落构成候选段落集合：8.根据权利要求1所述的方法，所述在每个候选段落中选择与所述经过格式处理的查询内容相关联的答案片段，包括：使用Bert预训练的语言表征模型Bert2确定与所述经过格式处理的查询内容相关联的答案片段的语义特征编码u
qj
：u
qj
＝Bert2(concat(query，p
j
))确定答案片段在候选段落中的起始位置I
start
和结束位置I
end
：：：：其中，为起始位置的权重矩阵，为和终止位置的权重矩阵，softmax是激活函数，P
start
为起始位置概率，P
end
为终止位置概率，len(p
j
)为p

【专利技术属性】
技术研发人员：周欣，司惠菊，魏娟，谢仁强，石丽，郭雪飞，董江，席楠，翟畅，徐静，周露，
申请(专利权)人：北京合众鼎成科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人