一种FAQ问句相似度计算方法及其系统技术方案

技术编号：25396765 阅读：43 留言：0更新日期：2020-08-25 23:01

本申请实施例公开一种FAQ问句相似度计算方法及其系统，用于提高检索式问答系统的检索结果的准确性。包括：使用文本相似度算法对被检索的问题句和预设的标准问答库中的FAQ问句进行相似度匹配计算，得出文本相似度最高的k个候选FAQ问句；将该问题句输入深度语义匹配模型，得到该问题句的语义向量，再与该FAQ问句的语义向量一起输入语义索引模型，得到语义相似度最高的L个候选FAQ问句；将上述k+L个候选FAQ问句进行并集操作,并与问题句两两配对后再次输入深度语义匹配模型，计算输出问题句与候选FAQ问句的相似度以及相似度的标签类别；将所有候选FAQ问句按相似的标签类别且相似度从高到低排列，输出相似度最大且超过预设阈值的FAQ问句。

全部详细技术资料下载

【技术实现步骤摘要】
一种FAQ问句相似度计算方法及其系统
本申请实施例涉及自然语言处理
，特别涉及一种FAQ问句相似度计算方法及其系统。
技术介绍
常用问答对(frequentlyaskedquestions，FAQ),即常见的问题与该问题预设答案组成的一对组合，FAQ通常用于检索式问答系统的自动问答业务，检索式问答系统利用预设的标准问答库中存储的一系列常见的问题与该问题预设答案，对用户检索的问题进行解答。标准问答库是一个封闭的集合，在标准问答库中的每一个问题都是具有固定的答案和标题，同时也会对应多种拓展问法和关键词。用户在使用检索式问答系统进行问题检索时，系统会使用文本相似度算法对被检索的问题与标准问答库中的FAQ问句进行相似度匹配计算，从而找到标准问答库里找到相似度高的展现给用户。然而，随着人文社会的发展，用户使用检索式问答系统检索问题越来越复杂，标准问答库中的FAQ数量也越发庞大，导致检索式问答系统展现的检索结果往往不能令人满意。现有技术中，为提高检索式问答系统的检索结果准确性，提出了语义相似度计算方法，其思想是在输入层分别对用户的检索问题和标准问答库中的FAQ问句向量化，在表示层使用卷积神经网络(convolutionalneuralnetwork，CNN)或循环神经网络(recurrentneuralnetwork，RNN)等模型表达为低维语义向量，并在匹配层通过距离函数(如cosine距离等)来计算两个语义向量的距离,若距离越小，则说明两个语义向量之间的相似度越大，反之越小。这种语义的相似度计算...

【技术保护点】
1.一种FAQ问句相似度计算方法，其特征在于，包括：/n接收被检索的问题句；/n使用文本相似度算法对所述问题句和预设的标准问答库中的FAQ问句进行相似度匹配计算，得出文本相似度最高的k个候选FAQ问句，所述k为大于0的正整数；/n将所述问题句输入深度语义匹配模型，得到所述问题句的语义向量，所述深度语义匹配模型基于预训练模型在所述预设标准问答库中FAQ问句进行微调训练而成，用于计算出所述问句的语义向量、计算由所述问题句与所述FAQ问句构成的问句对之间是否为相似的标签类别，及对应的相似度；/n将所述问题句的语义向量输入语义索引模型，得到语义相似度最高的L个候选FAQ问句；/n将所述文本相似度最高的k个候选FAQ问句和语义相似度最高的L个候选FAQ问句进行并集操作,得到所述问题句最相似的n个候选FAQ问句，所述n为小于或等于k+L的正整数；/n将所述问题句与n个所述候选FAQ问句分别两两配对，得到n个候选问句对，将所述n个候选问句对再次输入所述深度语义匹配模型，分别输出所述问题句与n个所述候选FAQ问句是否为相似的标签类别，及对应的相似度；/n将与所述问题句的标签类别为相似的p个所述候选FA...

【技术特征摘要】
1.一种FAQ问句相似度计算方法，其特征在于，包括：
接收被检索的问题句；
使用文本相似度算法对所述问题句和预设的标准问答库中的FAQ问句进行相似度匹配计算，得出文本相似度最高的k个候选FAQ问句，所述k为大于0的正整数；
将所述问题句输入深度语义匹配模型，得到所述问题句的语义向量，所述深度语义匹配模型基于预训练模型在所述预设标准问答库中FAQ问句进行微调训练而成，用于计算出所述问句的语义向量、计算由所述问题句与所述FAQ问句构成的问句对之间是否为相似的标签类别，及对应的相似度；
将所述问题句的语义向量输入语义索引模型，得到语义相似度最高的L个候选FAQ问句；
将所述文本相似度最高的k个候选FAQ问句和语义相似度最高的L个候选FAQ问句进行并集操作,得到所述问题句最相似的n个候选FAQ问句，所述n为小于或等于k+L的正整数；
将所述问题句与n个所述候选FAQ问句分别两两配对，得到n个候选问句对，将所述n个候选问句对再次输入所述深度语义匹配模型，分别输出所述问题句与n个所述候选FAQ问句是否为相似的标签类别，及对应的相似度；
将与所述问题句的标签类别为相似的p个所述候选FAQ问句，按相似度从高到低排列，输出对应相似度最大且相似度超过预设阈值的候选FAQ问句，所述p为小于或等于n的正整数。

2.根据权利要求1所述的FAQ问句相似度计算方法，其特征在于，所述深度语义匹配模型基于预训练模型在所述预设标准问答库中FAQ问句进行微调训练而成包括：
使用所述标准问答库的FAQ问句对构建训练样本集，所述训练样本集的每一个FAQ问句仅对应一个预设答案；
将所述训练样本集中的表达语义相同的FAQ问句两两配对并设置表示相似的标签类别，即正样本；
将所述训练样本集中的表达语义不相同的FAQ问句两两配对并设置表示不相似的标签类别，即负样本；
以所述训练样本集的正样本与负样本作为具体下游任务进行对所述现有的预训练模型进行微调训练，构建深度语义匹配模型，所述深度语义匹配模型用于计算出所述问题句的语义向量、以及计算由所述问题句与候选所述FAQ问句构成的问句对之间是否为相似的标签类别，及对应的相似度。

3.根据权利要求2所述的FAQ问句相似度计算方法，其特征在于，将所述训练样本集中的表达语义不相同的FAQ问句两两配对并设置不相似的标签类别，即负样本包括：
使用文本相似度算法给所述正样本的FAQ问句和所述标准问答库中的非正样本FAQ问句进行相似度匹配计算，得出m个候选负样本FAQ问句；
将所述m个候选负样本FAQ问句与所述正样本的FAQ问句两两配对并设置表示不相似的标签类别，即负样本。

4.根据权利要求3所述的FAQ问句相似度计算方法，其特征在于，所述训练样本集的正样本与负样本比例为1：m，所述m大于或等于5。

5.根据权利要求1所述的FAQ问句相似度计算方法，其特征在于，在所述接收被检索的问题句之前，所述方法还包括：
对所述标准问答库中的FAQ问句建立索引，所述索引包括词汇倒排索引和语义索引模型。

6.根据权利要求5所述的FAQ问句相似度计算方法，其特征在于，所述语义索引模型为通过超平面多维近似向量查找工具Annoy对所述标准问答库中的FAQ问句的语义向量创建二叉树集合索引所构建，包括：
使用Annoy工具将所有所述FAQ问句的语义向量作为原始数据节点，执行聚类数为2的k...

【专利技术属性】
技术研发人员：吕海峰，宁义双，宁可，张刚，
申请(专利权)人：金蝶软件中国有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人