本发明专利技术一种问答知识库的构建方法及装置,所述方法包括:步骤S1,分析工程目标以及使用维度,获取数据源;步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;步骤S4,定义知识结构;步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库,本发明专利技术可高效地构建不同行业的高质量的问答知识库。
【技术实现步骤摘要】
一种问答知识库的构建方法及装置
本专利技术涉及知识库构建
,特别是涉及一种问答知识库的构建方法及装置。
技术介绍
随着互联网的飞速发展,人们服务意识的提高,自动问答系统已经普及到各行各业,深入到日常商业服务的各个环节。在自动问答系统中,知识库是问答系统的重要数据来源,它在整个系统中起到了非常重要的作用,一个高质量的知识库能够大大提高问答系统的效率与准确率。问答知识库通常是由问句和答案组成。问句通常包含一个标准问和零到多个相似问;答案也可以是一个或多个。通常标准问还对应多个槽点。标准问和相似问还与句式模板、语义网关联。标准问:问句陈述简洁完整、意图明确,一般是动宾结构,往往省略了主语。相似问:与标准问的答案一致,并区别于标准问,口语化或有差别意义问句陈述,一个标准问可能有多个相似问。典型例子:是标准问主题内容的扩充或者细分。槽点:由问句的关键字、词和逻辑符号所组成的语义表达式,可以提升应答效果。语义网:又称本体(ontology)、语义词典(semanticdictionary),是共享概念模型的明确的形式化规范说明。句式模板:基于语义网的表达式目前业内对问答知识库的构建主要有以下方法:一是纯手工整理问答对,构建知识库,然而其效率低,而且一般都必须由行业中比较熟悉业务的人员来完成,对人员门槛较高,具有工作效率低、质量不高,维护难度大的缺点;二是通过分析当前已有的领域知识库、结构化数据、大量搜索日志等构建问答知识库,然而,其依赖于企业当前的数据模型积累和技术积累,如依赖于各种预置的领域知识库、已有的结构化数据或者依赖于浏览器的大量搜索日志等,不适用于大多数企业。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种问答知识库的构建方法及装置,以能够高效地构建不同行业的高质量的问答知识库。为达上述及其它目的,本专利技术提出一种问答知识库的构建方法,包括如下步骤:步骤S1,分析工程目标以及使用维度,获取数据源;步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;步骤S4,定义知识结构;步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库。优选地,步骤S2进一步包括:从所述数据源中抽取问题和对应的答案,自动生成初始问答集;对所述初始问答集进行过滤,得到过滤后的问答集;对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析,得到热词集和热词中的名词与动词共现对集合。优选地,步骤S4进一步包括:根据词性划分步骤S2中得到的热词集,得到名词热词集;采取自上而下的方式,把所述名词热词集中的数据进行分类,构成一个初始的知识结构。优选地,步骤S5进一步包括:步骤S500,根据所述知识结构获取初始标准问,得到标准问集;步骤S501,根据标准问集获取每个标准问对应的相似问;步骤S502,对于标准问集中的每个标准问,提取其中的关键词,确定每个问题的槽点;步骤S503,根据步骤S1确定的使用维度划分标准问及其对应的相似问、槽点、答案;步骤S504,根据工程目标整理不同使用维度下标准问的答案。优选地,步骤S500进一步包括:提取知识结构中的每个节点,搜索其在所述名词与动词共现对集合中对应的动词,把节点和对应的动词组合起来成为标准问;把标准问挂到知识结构对应的节点下,并对知识结构中挂接空白的地方补充标准问,得到标准问集,并且把补充标准问中包含的名词和动词补充到热词集中,得到补充后的热词集。优选地,于步骤S502进一步包括:利用关键词提取工具,对于每个标准问,分词后对其过滤,提取出问题中的关键字/词;然后对其进行确认及修改,得到槽点。优选地,于步骤S6后,所述方法还包括:步骤S7,于初始问答知识库中,选取不同使用维度下所有的问题及其目标知识,按不同使用维度进行批量验证。优选地,步骤S7进一步包括:计算所有待测试问题与初始问答知识库里所有问题的最高相似度;若知识库中的问题q与待测试问题c的相似度最高,并且问题q就是问题c的目标知识,或者问题q对应的标准问是问题c的目标知识,那么验证通过。若不满足以上条件,则表示知识需要优化,返回步骤S4;当所有维度都验证通过,则得到最终的问答知识库。为达到上述目的,本专利技术还提供一种问答知识库的构建装置,包括:目标确定单元,用于分析工程目标以及使用维度,获取数据源;数据源分析单元,用于分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;领域继承判断单元,用于分析是否有可以继承的知识结构,若没有,则启动知识结构定义单元,否则直接启动问答整理单元;知识结构定义单元,用于定义知识结构;问答整理单元,用于整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;关联单元,用于对整理好的标准问和相似问与已有句式模板、语义网做关联,得到初始问答知识库。优选地,所述装置还包括验证优化单元,用于于所述初始问答知识库中,选取不同维度下所有的问题及其目标知识,按不同维度进行批量验证,并根据验证结果进行优化。与现有技术相比,本专利技术一种问答知识库的构建方法及装置通过确定目标、分析数据源、领域继承、定义知识结构、整理问答、关联及分维度验证优化,实现了快速构建不同行业的高质量的问答知识库的目的,本专利技术不要求企业本身有很多预置的数据模型和强大技术积累,适用于大多数企业。附图说明图1为本专利技术一种问答知识库的构建方法的步骤流程图;图2为本专利技术具体实施例中步骤S2的细部流程图;图3为本专利技术具体实施例中步骤S5的细部流程图;图4为本专利技术一种问答知识库的构建方法之较佳实施例的步骤流程图;图5为本专利技术一种问答知识库的构建装置的系统架构图;图6为本专利技术具体实施例中问答整理单元505的细部结构图;图7为本专利技术一种问答知识库的构建装置之较佳实施例的系统架构图;图8为本专利技术实施例中问答知识库构建过程的流程示意图;图9为本专利技术实施例中分析数据源的过程示意图;图10为本专利技术实施例中初始的银行业务知识结构示意图;图11为本专利技术实施例中整理问答知识的过程示意图;图12为本专利技术实施例中获取初始标准问的过程示意图;图13为本专利技术实施例中获取槽点的过程示意图。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种问答知识库的构建方法的步骤流程图。如图1所示,本专利技术一种问答知识库的构建方法,包括如下步骤:步骤S1,分析工程目标以及使用维度,获取数据源。具体地说,分析工程目标指的是分析并确定知识整理周期、业务指标等,分析使用维度指的是分析并确定用户的类型(例如内部员工还是外部用户、普通用户还是VIP用户)、用户所用的品牌、用户所在的地区、问答知识库的应用本文档来自技高网...
【技术保护点】
1.一种问答知识库的构建方法,包括如下步骤:步骤S1,分析工程目标以及使用维度,获取数据源;步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;步骤S4,定义知识结构;步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库。
【技术特征摘要】
1.一种问答知识库的构建方法,包括如下步骤:步骤S1,分析工程目标以及使用维度,获取数据源;步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;步骤S4,定义知识结构;步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库。2.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S2进一步包括:从所述数据源中抽取问题和对应的答案,自动生成初始问答集;对所述初始问答集进行过滤,得到过滤后的问答集;对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析,得到热词集和热词中的名词与动词共现对集合。3.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S4进一步包括:根据词性划分步骤S2中得到的热词集,得到名词热词集;采取自上而下的方式,把所述名词热词集中的数据进行分类,构成一个初始的知识结构。4.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S5进一步包括:步骤S500,根据所述知识结构获取初始标准问,得到标准问集;步骤S501,根据标准问集获取每个标准问对应的相似问;步骤S502,对于标准问集中的每个标准问,提取其中的关键词,确定每个问题的槽点;步骤S503,根据步骤S1确定的使用维度划分标准问及其对应的相似问、槽点、答案;步骤S504,根据工程目标整理不同使用维度下标准问的答案。5.如权利要求4所述的一种问答知识库的构建方法,其特征在于,步骤S500进一步包括:提取知识结构中的每个节点,搜索其在所述名词与动词共现对集合中对应的动词,把节点和对应的动词组合起来成为标准问;把标准问挂到知识结构对应的节点下,并对...
【专利技术属性】
技术研发人员:胡炜梅,刘婉,
申请(专利权)人:广州极天信息技术股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。