基于Pipeline处理和ES储存问答系统构建方法技术方案

技术编号:31166779 阅读:15 留言:0更新日期:2021-12-04 11:54
本发明专利技术涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;对改写后的问题语句进行多维度语义特征标签抽取,并转化为查询语句,召回候选问答对;对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;本发明专利技术提供的技术方案能够克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。的缺陷。的缺陷。

【技术实现步骤摘要】
基于Pipeline处理和ES储存问答系统构建方法


[0001]本专利技术涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法。

技术介绍

[0002]问答系统是自然语言处理领域中一项比较复杂和困难的任务,该任务就是给定一个问题,系统能够给出合理准确的答案。按照目前国内外研究进展,依据答案来源划分,可以把问答系统划分为基于结构化的问答系统、基于文本的问答系统、基于FAQ问答对的问答系统。
[0003]基于结构化的问答系统,就是将问题带入提前准备好的结构化知识库寻求答案,它能够解析输入的自然语言问句,并将解析结果转化为对应的SPARQL查询语句来获取答案。这样的问答系统,回答问题准确,逻辑性强,但是构造系统的难度特别大,需要构建一个高质量的知识图谱。而经常能获取到的数据都是非结构化的,要想从非结构化数据中提取出结构化数据,这显然是一个巨大的工程,需要高额的成本。
[0004]基于文本的问答系统中给定问题,能够从答案集中检索出对应答案,需要对问题的语义理解非常准确,同时抽取的答案也要准确合理,然而目前是不太容易做到的。
[0005]基于FAQ问答对的问答系统预先将问题和答案进行匹配,构建了一个常见问答对库,进行问题检索时只需要判定问题和库内候选问题是否相似就可以。
[0006]常见的FAQ问答系统在构建问答对库时,仅仅只是维护了问答对,没有维护其他的特征,推荐的准确性就很依赖问题和库内候选问题相似判定的准确度。目前,问题和库内候选问题的相似判定大多采用Bert模型进行语义表征来计算余弦相似度,需要大量标注相似语句,并且针对一些实例采用Bert模型进行语义表征来计算余弦相似度并不能准确判定语句是否相似,对于这些难题并不能很好地解决,这样构建的问答系统就不是那么高效和可控了,后续的优化也无法很好地持续进行下去。

技术实现思路

[0007](一)解决的技术问题
[0008]针对现有技术所存在的上述缺点,本专利技术提供了基于Pipeline处理和ES储存问答系统构建方法,能够有效克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。
[0009](二)技术方案
[0010]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0011]基于Pipeline处理和ES储存问答系统构建方法,包括以下步骤:
[0012]S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;
[0013]S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES
数据库;
[0014]S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;
[0015]S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;
[0016]S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案。
[0017]优选地,S1中对行业领域数据问答对进行收集清洗,包括:
[0018]收集行业领域数据问答对,对问答对进行噪声清洗和质量审查,形成原始模板数据,并对原始模板数据进行扩充。
[0019]优选地,所述对原始模板数据进行扩充,包括:
[0020]将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。
[0021]优选地,所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征。
[0022]优选地,所述核心实体特征的构建方法包括:
[0023]对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体。
[0024]优选地,所述关键词特征的构建方法包括:
[0025]人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;
[0026]采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;
[0027]输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
[0028]优选地,S3中对输入问题语句进行改写,包括:
[0029]基于相似词列表将输入问题语句替换成同一表达方式,并进行噪声清洗;
[0030]对噪声清洗后的问题文本进行标注,对判断是否需要继承上一轮核心实体的实体继承模型进行训练;
[0031]当实体继承模型检测到继承核心实体意图时,将上一轮的核心实体直接拼接在当前问题语句的句尾。
[0032]优选地,S4中对改写后的问题语句进行多维度语义特征标签抽取,包括:
[0033]采用Pipeline方式对改写后的问题语句进行多维度语义特征标签抽取,在第一节点中分别通过句式提取模型、核心实体提取模型、关键词提取模型、一级意图模型对句式特征、核心实体特征、关键词特征、一级意图特征进行提取;在第二节点中通过二级意图模型
提取二级意图特征。
[0034]优选地,S5中对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案,包括:
[0035]基于停用词列表去掉没有实际意义的停用词,提取改写后的问题语句、候选问答对中的问题中的n_span单位集合,计算改写后的问题语句与候选问答对中的问题的相似度得分,按照相似度得分对候选问答对进行排序,并将大于相似度阈值的相似度得分最高的候选问答对中的答案作为最优答案进行推荐。
[0036]优选地,还包括在系统线上部署后,根据用户使用后的不合理反馈,分析不合理原因,并对系统进行更新优化。
[0037](三)有益效果
[0038]与现有技术相比,本专利技术所提供的基于Pipeline处理和ES储存问答系统构建方法,具有以下有益效果:
[0039]1)通过梳理行业领域内历史对话语料,构建FAQ问答对,提取包含句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征的多维度语义特征标签,能够快速构建知识库;
[0040]2)在答案召回阶段通过对输入问题语句的句式特征、核心实体特征、关键词特征、一级意图特征和二级意图特征的提取,以及对是否需要继承上一轮核心实体的准确判断,保证了答案召回结果更加合理;
[0041]3)在最优答案推荐阶段,通过基于n_span的相似性度量方法,不需要模型训练,能够快速对答本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Pipeline处理和ES储存问答系统构建方法,其特征在于:包括以下步骤:S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案。2.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S1中对行业领域数据问答对进行收集清洗,包括:收集行业领域数据问答对,对问答对进行噪声清洗和质量审查,形成原始模板数据,并对原始模板数据进行扩充。3.根据权利要求2所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述对原始模板数据进行扩充,包括:将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。4.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征。5.根据权利要求4所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述核心实体特征的构建方法包括:对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体。6.根据权利要求4所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述关键词特征的构建方法包括:人工收集问题语句中特征明显的词汇,针...

【专利技术属性】
技术研发人员:黄洋廖奇罗汉邬杰
申请(专利权)人:科讯嘉联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1