自动问答方法、自动问答系统及构建问答实例库的方法技术方案

技术编号:8593937 阅读:203 留言:0更新日期:2013-04-18 07:06
本申请公开了一种自动问答方法、自动问答系统及构建问答实例库的方法。具体地,利用以向量方式存储问答实例的问答实例库,将用户提交的问题向量化生成问题向量,利用问题向量及包含实例向量的问答实例库,查找相似度符合要求的回答知识点ID,再利用回答知识点ID从知识点文案库中获取输出给用户的答案内容。采用本发明专利技术的系统及方法,能够降低成本,提高工作效率。

【技术实现步骤摘要】

本专利技术涉及计算机自然语言处理领域,特别涉及一种自动问答方法、一种自动问答系统及一种构建问答实例库的方法。
技术介绍
目前,很多行业需要承担越来越多的用户咨询和反馈的解答工作,比如互联网行业的售后服务或者客户服务。由于用户数量的指数增长,已经无法采用人工的方式对所有用户的咨询进行反馈或及时回答,并且用户的问题大多集中在某些特定的知识点上,人工回复往往是进行重复性地劳动,因此,急需一种简单、高效、易维护的系统来辅助人工进行问题回复。自动问答(QuestionAnswering, QA)是指根据用户的自然语言提出的问题找到一个明确的答案。附图说明图1为现有的自动问答系统的结构示意图,现结合图1,对现有的自动问答系统的结构进行说明,具体如下现有的自动问答系统包括接口单元101、推理单元102和知识库103。接口单元101将用户采用自然语言进行提问的问题发送给推理单元102,推理单元102对问题进行解析得到问题的结构化表达及关键词,根据问题的结构化表达式及关键词从知识库103中匹配获得相关的应答内容,利用问题的结构化表达式、本体知识技术及语言知识技术从知识库103中匹配获得问题模板,利用自然语言处理技术、获得的应答内容及获得的问题模板,完成知识推理并最终生成答案,通过接口单元101输出生成的答案。现有的自动问答系统的知识库103的构建阶段,需要从输入的新问答对中挖掘问题模板,构建出模板库,以供推理单元102查询获得问题模板,模板库中的问题模板可为句型模板、语义模板等;可采用语言知识技术对输入的新知识进行处理以获得与关键词对应的应答,还可对输入的新问答对进行知识解析以获得与关键词对应的应答。知识库103中保存的知识即为与关键词对应的应答,并且知识库103采用人工智能领域常用的本体知识表示知识,而上述知识库103的构建都需要人工完成。现有的自动问答系统的知识库构建和维护成本较大,且需要靠业务人员总结某个知识点的常见问题模板,且运维需要持续加入新模板;由于模板库会越来越大,推理单元进行推理计算的过程会越来越耗时,造成计算复杂,响应时间不可控,工作效率低下,现有的自动问答系统还有待进一步改进。
技术实现思路
本专利技术提供了一种自动问答方法及系统,用以使得的项目或应用得以实现。根据本专利技术的一个方面,提供了一种自动问答方法,该方法能够降低成本,提高工作效率。根据本专利技术的一个方面,提供了一种自动问答系统,该系统能够降低成本,提高工作效率。根据本专利技术的一个方面,提供了一种构建问答实例库的方法。本专利技术的目的是通过下述技术方案实现的本专利技术提供了一种自动问答方法,该方法包括A、将接收到的问题向量化获得问题向量;所述问题向量包含多个向量元素;B、根据所述向量元素检索问答实例库,获得多个实例向量;任一所述实例向量至少包含一个向量兀素;C、利用相似度计算公式,计算问题向量与多个实例向量的相似度;D、利用所述相似度确定答复知识点,输出与答复知识点对应的数据。较佳地,所述步骤A之前进一步包括A’、采样人工回答记录并向量化,生成问答实例库。上述方法中,所述步骤A’包括A’工、确定需自动问答的知识点,为所述需自动问答的知识点分配问题ID ;A’ 2、根据所述需自动问答的知识点,对人工回答记录进行采样,获得与所述需自动问答的知识点对应的问答实例,为所述问答实例包含的知识点分配回答知识点ID ;A’ 3、向量化所述问答实例包含的问题,获得问题向量;A’ 4、将所述问答实例以三元组的形式进行存储;任一所述问答实例的三元组包含问题ID、问题向量及回答知识点ID。上述方法中,步骤A’2所述对人工回答记录进行采样,获得与所述需自动问答的知识点对应的问答实例包括A’ 21、确定进行采样的知识点的样本数量η ;所述进行采样的知识点为需自动回答的知识点;所述η为自然数;Α’ 22、从人工回答记录中选择包含所述知识点的η个问题实例;Α’ 23、计算所述η个问题实例的问题的整体长度方差;Α’ 24、判断所述问题的整体长度方差是否低于第一阈值,如果是,则执行步骤Α’ 25,否则,去除所述η个问题实例中问题长度与所述η个问题实例的长度平均值的差值最大的一个问题实例,从人工回答记录中再选择一个包含所述知识点的问题实例,执行步骤Α’ 23 ;Α’ 25、将所述η个问题实例作为选择的η个包含所述需自动回答的知识点的问答实例。上述方法中,所述步骤A ’ 23为利用去本文档来自技高网
...

【技术保护点】
一种自动问答方法,其特征在于,该方法包括:A、将接收到的问题向量化获得问题向量;所述问题向量包含多个向量元素;B、根据所述向量元素检索问答实例库,获得多个实例向量;任一所述实例向量至少包含一个向量元素;C、利用相似度计算公式,计算问题向量与多个实例向量的相似度;D、利用所述相似度确定答复知识点,输出与答复知识点对应的数据。

【技术特征摘要】
1.一种自动问答方法,其特征在于,该方法包括 A、将接收到的问题向量化获得问题向量;所述问题向量包含多个向量元素; B、根据所述向量元素检索问答实例库,获得多个实例向量;任一所述实例向量至少包含一个向量兀素; C、利用相似度计算公式,计算问题向量与多个实例向量的相似度; D、利用所述相似度确定答复知识点,输出与答复知识点对应的数据。2.根据权利要求1所述的方法,其特征在于,所述步骤A之前进一步包括 A’、采样人工回答记录并向量化,生成问答实例库。3.根据权利要求2所述的方法,其特征在于,所述步骤A’包括 A’1、确定需自动问答的知识点,为所述需自动问答的知识点分配问题ID ; A’ 2、根据所述需自动问答的知识点,对人工回答记录进行采样,获得与所述需自动问答的知识点对应的问答实例,为所述问答实例包含的知识点分配回答知识点ID ; A’ 3、向量化所述问答实例包含的问题,获得问题向量; A’ 4、将所述问答实例以三元组的形式进行存储;任一所述问答实例的三元组包含问题ID、问题向量及回答知识点ID。4.根据权利要求3所述的方法,其特征在于,步骤A’2所述对人工回答记录进行采样,获得与所述需自动问答的知识点对应的问答实例包括 A’ 21、确定进行采样的知识点的样本数量η ;所述进行采样的知识点为需自动回答的知识点;所述η为自然数; Α’ 22、从人工回答记录中选择包含所述知识点的η个问题实例; Α’ 23、计算所述η个问题实例的问题的整体长度方差; Α’ 24、判断所述问题的整体长度方差是否低于第一阈值,如果是,则执行步骤Α’ 25,否贝U,去除所述η个问题实例中问题长度与所述η个问题实例的长度平均值的差值最大的一个问题实例,从人工回答记录中再选择一个包含所述知识点的问题实例,执行步骤Α’ 23 ; Α’ 25、将所述η个问题实例作为选择的η个包含所述需自动回答的知识点的问答实例。5.根据权利要求4所述的方法,其特征在于,所述步骤Α’23为 利用士6.根据权利要求3所述的方法,其特征在于,所述步骤A’3包括 提取所述问答实例中问题的关键词、二元字符串及特殊词性; 将所述关键词作为向量元素,计算每一向量元素的权重; 利用每个向量元素的权重计算问答实例的向量的长度; 将向量元素、向量元素的权重及向量的长度作为问题向量。7.根据权利要求6所述的方法,其特征在于,所述计算每一向量元素的权重包括 利用郝8.根据权利要求6所述的方法,其特征在于,所述利用每个向量元素的权重计算问答实例的向量的长度包括 利用9.根据权利要求1-8任一项所述的方法,其特征在于,所述步骤A包括 将接收到的问题规整、分词和归一化处理,提取关键词、ニ元字符串和词性; 将关键词作为向量元素; 将向量元素、向量元素的权重及向量的长度作为问题向量;所述向量元素的权重和所述向量长度为空。10.根据权利要求1-8任一项所述的方法,其特征在于,所述步骤C包括 Cl、将所述多个实例向量按照其包含的回答知识点ID进行归类; C2、对于同一回答知识点ID,动态调整问题向量包含的向量元素在相同的回答知识点ID对应的实例向量中的权重,获得调整后的向量元素; C3、利用所述调整后的向量元素在所述相同回答知识点ID对应的实例向量中的权重,计算所述调整后的向量元素与所述实例向量的余弦相似度。11.根据权利要求10所述的方法,其特征在于,所述步骤C3包括12.根据权利要求1-8任一项所述的方法,其特征在于,所述步骤D包括 Dl、将所述相似度转换为实例向量与问题向量之间的距离; D2、将所述距离小于第二阈值的实例向量作为候选实例向量; D3、利用候选实例向量计算获得其对应的回答知识点ID的加权票数; D4、在回答知识点ID的平均票数大于第三阈值时或在为回答知识点ID投票的实例向量的数量大于第四阈值时,将回答知识点ID确定为候选知识点ID ; D5、选择加权票数排列在前L位的候选知识点ID对应的知识点为答复知识点;所述L为自然数; D6、利用候选知识点ID从知识点文案库中读取排列在前L位的回答内容,并按照加权票数的排列顺序输出L个回答内容。13.根据权利要求12所述的方法,其特征在于,所述步骤Dl包括 利用14.根据权利要求12所述的方法,其特征在于,所述步骤D3包括 利用15.根据权利要求12所述的方法,其特征在于,步骤D4所述回答知识点ID的平均票数为回答知识点ID所述加权票数除以属于回答知识点ID的实例向量的数量获得的商。16.—种自动问答系统,其特征在于,该系统包含 问答实例库,以三元组的形式存储问答实例;任一所述问答实例的三元组包含问题ID、问题向量及回答知识点ID ; 问题解析模块,将接收到的问题向量化获得问题向量;所述问题向量包含多个向量元素;...

【专利技术属性】
技术研发人员:陈开江
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1