基于本体推理的旅游问答系统答案抽取方法技术方案

技术编号:2914007 阅读:373 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于本体推理的旅游问答系统答案抽取方法。属人工智能领域。特征在于第一步定义领域中的语义规则,进行人工本体知识库的构建,并对用户问句进行分析;第二步将基于语义规则推理与信息检索相结合进行答案抽取,而不是简单地进行匹配。最后再根据不同的问句类型设计相应的答案抽取算法。本发明专利技术提出了一种基于本体推理的问答系统答案抽取方法,该方法将本体的思想引入问答系统知识库的构建,把旅游领域中的概念、属性和关系用OWL(Ontology WebLanguage)本体描述语言清晰明确地表示出来,更加有效地组织知识。在开放测试中,基于本体推理的问答系统对于用户的1346条自然语言提问的回答,准确率达到了81.35%,召回率达到了90.49%。

【技术实现步骤摘要】

本专利技术涉及一种基于本体推理的旅游问答系统答案抽取方法。属人工智能领域。
技术介绍
自动问答系统,又称QA(Question Answering)系统,是一种智能新技术,它采用自然语言处理技术,一方面完成对用户疑问的分析处理;另一方面完成正确答案的生成,让人们在杂乱无章的网络世界中快速、准确地获得自己想要的信息。在现阶段,要让计算机完全理解人类语言还非常困难,但是对于特定的领域,采用针对性的方法,已经开发出许多成功的应用案例。在受限领域自动问答系统中,答案抽取部分是一个难点,关系到整个问答系统的最终效果。目前的问答系统答案抽取主要分为聊天机器人问答系统答案抽取、基于Web的开放式问答系统答案抽取、基于知识的问答系统答案抽取。聊天机器人问答系统在答案抽取的时候采用模式匹配的方法,来寻找问题最合适的答案。其特点是在与用户的交谈过程中,基于谈话技巧和程序技巧,而不是根据常识。在它们的对话库中,可以存放多个句型、模板,但几乎没有常识库。这种答案抽取方法由于缺乏知识,所以其实际用途不大。而基于Web的开放式问答系统先从Web上检索一些相关文档,对相关文档采取答案抽取技术抽取答案。但是,目前的基于Web问答系统大多局限在某个特定领域或者特定范围之内,能够回答的问题类型也比较简单,真正的面向Web开放域的问答系统的正确率和精确性都不高,还不能提供良好的商业服务。基于知识的问答系统一般是受限领域问答系统,它包含自然语言界面的专家系统、基于受限语言的数据库查询系统、基于FAQ的问答系统、基于本体的问答系统。自然语言界面的专家系统一般采用各种专家系统语言:PROLOG语言、ALLTALK语言、LISP语言等来分析回答用户的疑问,给出回答,现有的专家系统一般知识库和推理、回答机制不分离,它们按知识在专家系统语言基础上开发程序,使用范围小,可移-->植性不高。基于受限语言的数据库查询系统将问句转换为数据库的SQL语句,通过SQL语句在系统数据库中查询答案,这需要一个大数据库的支持,数据库的构建标准很难确定,而且用数据库方式不太适合组织领域知识库。基于FAQ的问答系统先计算用户问句和FAQ知识库中问题的相似度,从而找到FAQ知识库中与用户查询最为相似的问题,然后把此问题对应的相关答案直接提交给用户,基于FAQ的问答系统回答范围有限,它能回答的内容基本上是问答对所包含的内容,很难用问答对来组织领域内所有的知识。基于本体的问答系统现在正处于研究阶段,怎样更好的利用本体来进行答案抽取是一个热门话题。同时,目前的问答系统缺乏推理能力,推理系统缺乏自然语言理解能力。正是这个问题困扰着大型知识库系统的建设,也使花费巨大的人力物力建立起来的知识库系统难以面向公众开展达到一定质量的知识服务。本体(ontology)原是哲学研究中发展出来的一个概念,研究客观事物存在的本质和组成。本体在哲学定义上的主要特点在于本体是关于世界某个方面的一个特定的分类体系,这个体系不依赖任何特定的语言。近年来,随着信息科学的飞速发展,本体逐渐用于知识工程和信息科学等领域之中。本体在国外已经成为研究热点,在多个领域出现了具体应用,其研究集中在知识工程、本体工程、信息组织与检索和语义Web等方面。比较著名的通用本体研究包括CYC项目和Chan2drasekaran等的关于任务和问题求解方法本体的研究。前者是美国的微电子与计算机技术有限公司的研究项目,目标是开发本体,进行常识推理,目前已经发展成为一个庞大的常识系统;后者则是研究可共享问题的求解方法,与领域无关的推理方法。比较著名的领域本体研究包括爱丁堡大学的企业项目和多伦多大学的虚拟企业项目。国内对于本体的研究已有很多年的时间了,比较有影响的有中科院数学所陆汝钤研究员领导的常识知识的实用性研究,中科院计算技术研究所曹存根研究员主持的大规模知识系统的研究,以及中科院数学研究所金芝研究员研究的基于本体的软件需求获取方法等。比较有名的通用本体构建研究包括中科院计算技术研究所的大规模知识系统研究和中科院数学研究所的常识知识库研究。-->
技术实现思路
本专利技术实现了一种基于本体推理的问答系统答案抽取方法,该方法将答案抽取过程分为三步,第一步定义领域中的语义规则,然后将基于语义规则推理与信息检索相结合进行答案抽取,最后再根据不同的问句类型设计相应的答案抽取算法,提高答案抽取的准确率和召回率。本专利技术目的在于提出利用本体建立知识库,再定义领域的语义规则,并对用户问句意图进行分类分析,最后利用基于语义规则的推理和信息检索相结合的答案抽取方法从本体知识库中进行答案的抽取。在开放测试中,基于本体推理的问答系统对于用户的1346条自然语言提问的回答,准确率达到了81.35%,召回率达到了90.49%,取得了良好的效果。一种基于本体推理的旅游问答系统答案抽取方法,其特征在于第一步定义领域中的语义规则,进行人工本体知识库的构建,并对用户问句进行分析;第二步将基于语义规则推理与信息检索相结合进行答案抽取;最后再根据不同的问句类型设计相应的答案抽取算法。基于本体推理的旅游问答系统答案抽取方法,该方法包括:(1)人工定义旅游领域中的概念、属性和关系,并构建旅游领域本体知识库,最后再对本体的一致性进行检验;(2)利用步骤(1)的本体知识库中的语义信息对用户问句进行语义消歧;(3)人工自定义旅游领域中的语义规则;(4)基于步骤(2)的问句分析结果,采用基于步骤(3)中的语义规则的推理和信息检索相结合的方法在步骤(1)的本体知识库中抽取答案。(5)根据步骤(2)中的不同的问句类型,设计相应的答案抽取算法,在不降低答案抽取速度的基础上,提高系统的响应率和召回率。步骤(1)中定义了旅游领域中的概念、属性和关系,构建的领域本体知识库(云南旅游)。步骤(2)中利用本体知识库中的语义信息对用户问句进行语义消歧。步骤(3)中自定义的旅游领域语义规则。-->步骤(4)中的规则推理与信息检索相结合的答案抽取方法。步骤(5)中的根据不同问句类型设计相应的答案抽取算法。本专利技术将本体的思想引入问答系统知识库的构建,把旅游领域中的概念、属性和关系用OWL(Ontology Web Language)本体描述语言清晰明确地表示出来,更加有效地组织知识。本专利技术本体描述某个领域或更广范围内的概念以及概念之间的关系,而这些概念和关系在共享的范围内具有大家认可的、明确的、唯一的定义。在受限领域问答系统中采用本体知识库,可以更好的表示知识之间的内在关系,知识的组织更加合理,减少冗余存储,提高答案抽取的准确率和召回率。在开放测试中,基于本体推理的问答系统对于用户的1346条自然语言提问的回答,准确率达到了81.35%,召回率达到了90.49%。附图说明图1是本专利技术中所定义的旅游本体类结构图。图2是本专利技术提出的基于本体推理的问答系统答案抽取方法的流程图。具体实施方式我们构建的本体知识库中,共收集了2380条云南旅游本体实例,过程为:一、定义本体类结构本体知识库是问答系统的大脑,其优劣直接关系到后续的问句分析以及答案抽取的效率以及整个系统的性能。因此,在建立领域本体知识库的过程中,我们从领域本体所涉及的范围,应用目的等方面来考虑。设计一个本体的过程一般包括:确定应用范围,确定本体中的概念,属本文档来自技高网
...

【技术保护点】
一种基于本体推理的旅游问答系统答案抽取方法,其特征在于第一步定义领域中的语义规则,进行人工本体知识库的构建,并对用户问句进行分析;第二步将基于语义规则推理与信息检索相结合进行答案抽取;最后再根据不同的问句类型设计相应的答案抽取算法。

【技术特征摘要】
1.一种基于本体推理的旅游问答系统答案抽取方法,其特征在于第一步定义领域中的语义规则,进行人工本体知识库的构建,并对用户问句进行分析;第二步将基于语义规则推理与信息检索相结合进行答案抽取;最后再根据不同的问句类型设计相应的答案抽取算法。2.根据权利要求1的基于本体推理的旅游问答系统答案抽取方法,其特征在于该方法包括:(1)人工定义旅游领域中的概念、属性和关系,并构建旅游领域本体知识库,最后再对本体的一致性进行检验;(2)利用步骤(1)的本体知识库中的语义信息对用户问句进行语义消歧;(3)人工自定义旅游领域中的语义规则;(4)基于步骤(2)的问句分析结果,采用基于步骤(3)中的语义规则的推理和信息检索相结合的方法在步骤(1)的本体知识库中抽取答案。(5)根据步骤(2)中的不同的问句类型,设计相应的答...

【专利技术属性】
技术研发人员:郭剑毅龚华明余正涛张志坤张宜浩毛存礼
申请(专利权)人:昆明理工大学
类型:发明
国别省市:53[中国|云南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1