【技术实现步骤摘要】
本专利技术属于计算机的人工智能领域,是一种基于知识与逻辑的问句处理方法,具 体是,可以应用于面向领域、多 语种的智能信息检索与自动问答系统中。
技术介绍
随着互联网技术的飞速发展,使网络信息成指数的增长,为了从这些海量信息中 快速、准确的获得需要的信息,传统的搜索引擎已不能满足用户的需求,智能信息检索与自 动问答系统因其能够准确、直接地回答用户问题,正逐渐成为研究的重点和热点,然而由 于用户问句的多样性与随意性,造成准确获取用户问句的语义与预期非常困难,因此目前 自动问答与智能信息检索答案的准确率还不高。另一方面,在全球一体化的背景下,人们不 仅仅依赖于母语检索信息,更希望实现跨语种的信息查询,在不同语种的信息库中获取各 种数据信息,然而跨语种的问句自动翻译目前仍然是自然语言处理领域中的一个难题。 问句处理与理解是智能信息检索与自动问答系统中的第一个执行阶段,它的目标 是让计算机理解用户的问句,获取用户的提问意图,为后面的信息检索提供依据。问句的理 解一般包含词法分析、句法分析和语义分析,目前,语义分析是自然语言处理的瓶颈。在面 向领域的信息检索与问答系统中,用户的查询具有很多相似性,例如在基于本体的知识库 中,很多都是对概念或实体的属性进行查询,还有对概念之间的关系以及属性之间的关系, 可以把这些问句抽取成基于领域本体的、具有代表性、封装有语义信息的问句模板,从而有 效地避免复杂的词法分析、句法分析和语义分析。因此,研究基于领域本体和问句模板的问 句理解方法具有十分重要的意义。 目前基于领域本体和问句模板的问句理解方 ...
【技术保护点】
基于领域本体和模板逻辑的多语种问答接口快速构成方法,其特征在于:包括:(1)多语种的领域本体结构的构建;(2)基于领域本体的一阶模板逻辑系统的建立;(3)基于领域本体与模板逻辑的多语种问句模板结构的设计;(4)面向领域的多语种问句模板库的建立;(5)用户问句预处理与问句模板匹配;(6)用户问句的语义获取与多语种互译方法。
【技术特征摘要】
1. 基于领域本体和模板逻辑的多语种问答接口快速构成方法,其特征在于:包括: (1) 多语种的领域本体结构的构建; (2) 基于领域本体的一阶模板逻辑系统的建立; (3) 基于领域本体与模板逻辑的多语种问句模板结构的设计; (4) 面向领域的多语种问句模板库的建立; (5) 用户问句预处理与问句模板匹配; (6) 用户问句的语义获取与多语种互译方法。2. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(1)将领域本体形 式化为一个七元组: O = {C,A, R,HC,I,X,SY} C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范围; Ag C X DT是概念的数据属性的集合,表示概念的内涵,用于界定问答系统中概念 与个体的特征范围; Re C X C表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的联 系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即: R= {基本关系,领域关系} 基本关系:所有领域所共有的概念之间的关系, 领域关系:描述某个领域所特有的概念之间的关系; HC G C X C是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位关 系,可为问答系统中与概念分类相关的提问提供答案推理支持; I代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域对象相关 的提问提供答案查询支持; X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域理论相关 的提问提供答案推理支持; SY代表同义词集合,本发明要求在领域本体的设计过程中,为是每一个本体元素,包括 本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问答系统 中的用户问句处理与问句模板的匹配提供支持。3. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(2)所述的模板逻辑 系统TLS是一个以领域本体元素为运算对象,对问句模板进行语义标注与语义解释的一种 特殊的一阶逻辑,定义成如下的三元组: TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>) 谓词:用于声明、识别与判定问句模板中的本体元素; 运算符:用于提高模板逻辑的表达能力; 标注符:用于分隔与界定模板中的各类元素; 在模板逻辑系统中,谓词集合是根据具体领域的特点动态扩展的。4. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(3): 所述多语种问句模板由问句结构模板、语义模板以及对应的答案模式组成,其BNF定 义为: 〈问句模板 :=(〈多语种问句结构>,{〈同义结构>},〈本体特征 >,〈问句语义〉, 〈答案语义>); 其中:问句结构:代表问句模板的表层形态,定义如下: 〈问句结构>::=({〈本体元素〉},{〈特征元素〉},{〈其他元素>}); 同义结构:与问句模板具有相同语义的问句结构,一个问句模板可以包含多个同义结 构; 本体特征:反映问句模板与领域本体之间的映射关系,由问句结构中所包含的本体元 素所构成,为问句模板的分类与搜索提供关键词; 问句语义:由一个? 运算所引导,表示问句所要求解的用户预期; 答案语义:通过条件运算符(?:)给出分支结构的答案语义,用于组织返回给用户的 答案; 本体元素:指出现在用户问句中的领域本体元素,包括本体的概念、实例、属性与关系, 在问句结构模板中,本体元素用尖括号分隔与标注; 特征元素:指在问句结构中,除本体元素之外,其他影响问句语义的句子成份,在问句 结构模板中,特征元素用尖括号〈>或方括号 □分隔与标注; 其他元素:指在问句结构中,不影响问句语义的句子成份,直接使用标点或空格进行分 隔。5. 根据权利要求4所述的接口快速构成方法,其特征在于:本体元素通过模板逻辑中 的谓词进行符号化,一个问句结构模板至少包含一个本体元素; 问句语义是跨语种的,所有语义都是通过本体变量的逻辑表达式来表示。6. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(4)包括: 1) 收集多语种用户问句,形成本领域的多语种用户问句集合; 2) 根据用户的提问对象,将问句集合中的用户问句进行分类; 3) 使用多语种领域本体与模板逻辑对每一类用户问句,按照多语种问句模板结构定义 进行模板化,形成一个与问句集合相对应的初始问句模板库; 4) 在问答系统中试用初始问句模板库,发现处理错误或不能处理的用户问句; 5) 逐个分析错误处理用户问句的原因,并根据分析结果修改相应的问句模板结构; 6) 逐个分析不能处理用户问句的原因,并根据分析结果修改现有问句模板结构或在模 板库中增加一个新的问句模板; 7) 重复上述4)、5)、6)三个步骤,直到用户对多语种问句处理的满意度达到90%以上。7. 根据权利要求1所述的接口快速构成方法,其...
【专利技术属性】
技术研发人员:朱新华,毛俊青,陈宏朝,袁鼎荣,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。