基于领域本体和模板逻辑的多语种问答接口快速构成方法技术

技术编号:11061772 阅读:107 留言:0更新日期:2015-02-19 08:50
基于领域本体和模板逻辑的多语种问答接口快速构成方法,包括:(1)多语种的领域本体结构的构建;(2)基于领域本体的一阶模板逻辑系统的建立;(3)基于领域本体与模板逻辑的多语种问句模板结构的设计;(4)面向领域的问句模板库的建立;(5)用户问句预处理与问句模板匹配;(6)用户问句的语义获取与多语种互译方法。本发明专利技术通过领域本体与模板逻辑可更加精确地表达问句模板的语义,结合模板运算符提高了问句模板的表达能力,使其更具代表性,可减少模板库的规模,并且多语种本体类似一个多语种的语义词典,易于实现跨语种信息查询。按照该方法可快速构成各类面向领域的智能信息检索与自动问答系统的多语种人机交互接口。

【技术实现步骤摘要】

本专利技术属于计算机的人工智能领域,是一种基于知识与逻辑的问句处理方法,具 体是,可以应用于面向领域、多 语种的智能信息检索与自动问答系统中。
技术介绍
随着互联网技术的飞速发展,使网络信息成指数的增长,为了从这些海量信息中 快速、准确的获得需要的信息,传统的搜索引擎已不能满足用户的需求,智能信息检索与自 动问答系统因其能够准确、直接地回答用户问题,正逐渐成为研究的重点和热点,然而由 于用户问句的多样性与随意性,造成准确获取用户问句的语义与预期非常困难,因此目前 自动问答与智能信息检索答案的准确率还不高。另一方面,在全球一体化的背景下,人们不 仅仅依赖于母语检索信息,更希望实现跨语种的信息查询,在不同语种的信息库中获取各 种数据信息,然而跨语种的问句自动翻译目前仍然是自然语言处理领域中的一个难题。 问句处理与理解是智能信息检索与自动问答系统中的第一个执行阶段,它的目标 是让计算机理解用户的问句,获取用户的提问意图,为后面的信息检索提供依据。问句的理 解一般包含词法分析、句法分析和语义分析,目前,语义分析是自然语言处理的瓶颈。在面 向领域的信息检索与问答系统中,用户的查询具有很多相似性,例如在基于本体的知识库 中,很多都是对概念或实体的属性进行查询,还有对概念之间的关系以及属性之间的关系, 可以把这些问句抽取成基于领域本体的、具有代表性、封装有语义信息的问句模板,从而有 效地避免复杂的词法分析、句法分析和语义分析。因此,研究基于领域本体和问句模板的问 句理解方法具有十分重要的意义。 目前基于领域本体和问句模板的问句理解方法,普遍直接采用所规定的本体元素 符号实现问句模板的公式化,例如,直接规定以C开头的符号表不概念,以R开头的符号表 示关系等,由于没有采用逻辑系统,问句模板的语义不够精确,其表达能力不够强,模板匹 配算法也较复杂,本专利技术所提出的基于领域本体的一阶模板逻辑系统可有效地克服这些不 足。
技术实现思路
针对词法分析、句法分析和语义分析是自然语言处理的瓶颈,以及传统问句模板 方法中的语义不精确、表达能力弱与模板库庞大等弱点,本专利技术提供一种基于领域本体和 模板逻辑的多语种问答接口快速构成方法。本专利技术通过多语种的领域本体实现领域知识的 形式化与共享;通过基于领域本体的模板逻辑提高问句模板的语义精度,实现基于逻辑表 达式的跨语种的问句语义表示;通过模板运算符有效地提高问句模板的表达能力,实现简 单、准确的模板匹配算法,从而快速构成多语种的用户问答接口。 ,包括: (1)多语种的领域本体结构的构建; (2)基于领域本体的一阶模板逻辑系统的建立; (3)基于领域本体与模板逻辑的多语种问句模板结构的设计; (4)面向领域的多语种问句模板库的建立; (5)用户问句预处理与问句模板匹配; (6)用户问句的语义获取与多语种互译方法。 知识库是问答系统的重要组成部分,它是实现语义层次上的信息查询的基础。基 于本体的领域知识库,有利于知识的组织、管理、维护与共享,以及实现语义查询与推理。多 语本体是采用多种不同的语言来描述本体知识,它与多语种的语义词典相类似,可作为跨 语言信息查询的一个重要工具。良好的本体知识结构不仅能够将领域知识的结构与关系完 整地体现出来,同时还可为问句处理与问句模板的匹配提供强大的支持,因此构建合理的 本体结构至关重要。 本专利技术在步骤(1)将领域本体形式化为一个七元组: 0 = {C,A,R,HC,I,X,SY} C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范围; ACXDT是概念的数据属性的集合,表示概念的内涵,用于界定问答系统中概念 与个体的特征范围; RCXC表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的联 系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即: R= {基本关系,领域关系} 基本关系:所有领域所共有的概念之间的关系, 领域关系:描述某个领域所特有的概念之间的关系; HCCXC是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位关 系,可为问答系统中与概念分类相关的提问提供答案推理支持; I代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域对象 相关的提问提供答案查询支持; X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域理论 相关的提问提供答案推理支持; SY代表同义词集合,本专利技术要求在领域本体的设计过程中,为是每一个本体元素, 包括本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问答 系统中的用户问句处理与问句模板的匹配提供支持。 为精确、跨语种地表达问句模板的语义,本专利技术为问句模板的定义设计了一套模 板逻辑系统。步骤(2)所述的逻辑系统是一个以领域本体元素为运算对象,对问句模板进 行语义标注与语义解释的一种特殊的一阶逻辑,本专利技术将应用于问答接口中的模板逻辑系 统TSL(TempletLogicsSystem)定义成如下的三元组: TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>) 谓词:用于声明、识别与判定问句模板中的本体元素。分为一元和二元二种类型。 谓词集合在实际应用中,可以根据需要动态扩展。谓词还可在模板结构中作为变量的类型 符使用,例如,〈Cl:Conc印t>,表示变量Cl的类型为一个本体概念,其中谓词Conc印t作为 一个本体概念的类型符使用。 运算符:用于提高模板逻辑的表达能力。本专利技术通过引入运算符,进一步提高模板 逻辑的表达能力,分为单目、双目与三目三种类型的运算符。 标注符:用于分隔与界定模板中的各类元素。 在模板逻辑系统中,谓词集合是根据具体领域的特点动态扩展的。 在步骤(3): 所述问句模板由问句结构模板、语义模板以及对应的答案模式组成,其BNF定义 为: 〈问句模板 >::=(〈多语种问句结构>,{〈同义结构>},〈本体特征 >,〈问句语 义〉,〈答案语义>); 其中: 问句结构:代表问句模板的表层形态,定义如下: 〈问句结构>::=({〈本体元素>},{〈特征元素>},{〈其他元素>}); 同义结构:与问句模板具有相同语义的问句结构,一个问句模板可以包含多个同 义结构; 本体特征:反映问句模板与领域本体之间的映射关系,由问句结构中所包含的本 体元素所构成,为问句模板的分类与搜索提供关键词; 问句语义:由一个? 运算所引导,表示问句所要求解的用户预期; 答案语义:通过条件运算符(?:)给出分支结构的答案语义,用于组织返回给用 户的答案; 本体元素:指出现在用户问句中的领域本体元素,包括本体的概念、实例、属性与 关系,在问句结构模板中,本体元素用尖括号分隔与标注; 特征元素:指在问句结构中,除本体元素之外,其他影响问句语义的句子成份,在 问句结构模板中,特征元素用尖括号〈>或方括号 □分隔与标注; 其他元素:指在问句结构中,不影响问句语义的句子成份,直接使用标点或空本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410735376.html" title="基于领域本体和模板逻辑的多语种问答接口快速构成方法原文来自X技术">基于领域本体和模板逻辑的多语种问答接口快速构成方法</a>

【技术保护点】
基于领域本体和模板逻辑的多语种问答接口快速构成方法,其特征在于:包括:(1)多语种的领域本体结构的构建;(2)基于领域本体的一阶模板逻辑系统的建立;(3)基于领域本体与模板逻辑的多语种问句模板结构的设计;(4)面向领域的多语种问句模板库的建立;(5)用户问句预处理与问句模板匹配;(6)用户问句的语义获取与多语种互译方法。

【技术特征摘要】
1. 基于领域本体和模板逻辑的多语种问答接口快速构成方法,其特征在于:包括: (1) 多语种的领域本体结构的构建; (2) 基于领域本体的一阶模板逻辑系统的建立; (3) 基于领域本体与模板逻辑的多语种问句模板结构的设计; (4) 面向领域的多语种问句模板库的建立; (5) 用户问句预处理与问句模板匹配; (6) 用户问句的语义获取与多语种互译方法。2. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(1)将领域本体形 式化为一个七元组: O = {C,A, R,HC,I,X,SY} C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范围; Ag C X DT是概念的数据属性的集合,表示概念的内涵,用于界定问答系统中概念 与个体的特征范围; Re C X C表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的联 系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即: R= {基本关系,领域关系} 基本关系:所有领域所共有的概念之间的关系, 领域关系:描述某个领域所特有的概念之间的关系; HC G C X C是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位关 系,可为问答系统中与概念分类相关的提问提供答案推理支持; I代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域对象相关 的提问提供答案查询支持; X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域理论相关 的提问提供答案推理支持; SY代表同义词集合,本发明要求在领域本体的设计过程中,为是每一个本体元素,包括 本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问答系统 中的用户问句处理与问句模板的匹配提供支持。3. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(2)所述的模板逻辑 系统TLS是一个以领域本体元素为运算对象,对问句模板进行语义标注与语义解释的一种 特殊的一阶逻辑,定义成如下的三元组: TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>) 谓词:用于声明、识别与判定问句模板中的本体元素; 运算符:用于提高模板逻辑的表达能力; 标注符:用于分隔与界定模板中的各类元素; 在模板逻辑系统中,谓词集合是根据具体领域的特点动态扩展的。4. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(3): 所述多语种问句模板由问句结构模板、语义模板以及对应的答案模式组成,其BNF定 义为: 〈问句模板 :=(〈多语种问句结构>,{〈同义结构>},〈本体特征 >,〈问句语义〉, 〈答案语义>); 其中:问句结构:代表问句模板的表层形态,定义如下: 〈问句结构>::=({〈本体元素〉},{〈特征元素〉},{〈其他元素>}); 同义结构:与问句模板具有相同语义的问句结构,一个问句模板可以包含多个同义结 构; 本体特征:反映问句模板与领域本体之间的映射关系,由问句结构中所包含的本体元 素所构成,为问句模板的分类与搜索提供关键词; 问句语义:由一个? 运算所引导,表示问句所要求解的用户预期; 答案语义:通过条件运算符(?:)给出分支结构的答案语义,用于组织返回给用户的 答案; 本体元素:指出现在用户问句中的领域本体元素,包括本体的概念、实例、属性与关系, 在问句结构模板中,本体元素用尖括号分隔与标注; 特征元素:指在问句结构中,除本体元素之外,其他影响问句语义的句子成份,在问句 结构模板中,特征元素用尖括号〈>或方括号 □分隔与标注; 其他元素:指在问句结构中,不影响问句语义的句子成份,直接使用标点或空格进行分 隔。5. 根据权利要求4所述的接口快速构成方法,其特征在于:本体元素通过模板逻辑中 的谓词进行符号化,一个问句结构模板至少包含一个本体元素; 问句语义是跨语种的,所有语义都是通过本体变量的逻辑表达式来表示。6. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(4)包括: 1) 收集多语种用户问句,形成本领域的多语种用户问句集合; 2) 根据用户的提问对象,将问句集合中的用户问句进行分类; 3) 使用多语种领域本体与模板逻辑对每一类用户问句,按照多语种问句模板结构定义 进行模板化,形成一个与问句集合相对应的初始问句模板库; 4) 在问答系统中试用初始问句模板库,发现处理错误或不能处理的用户问句; 5) 逐个分析错误处理用户问句的原因,并根据分析结果修改相应的问句模板结构; 6) 逐个分析不能处理用户问句的原因,并根据分析结果修改现有问句模板结构或在模 板库中增加一个新的问句模板; 7) 重复上述4)、5)、6)三个步骤,直到用户对多语种问句处理的满意度达到90%以上。7. 根据权利要求1所述的接口快速构成方法,其...

【专利技术属性】
技术研发人员:朱新华毛俊青陈宏朝袁鼎荣
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1