一种专利文本自动分析的系统及方法技术方案

技术编号:4247743 阅读:337 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种专利文本自动分析的系统,包括专家知识处理器,本体处理器,语言知识库,专家知识库,和本体知识库,所述专家知识处理器、本体处理器的工作关系是并列关系,所述专家知识库和本体知识库也为并列关系。本发明专利技术还提出一种专利文本自动分析的方法,借助语言知识库,利用专家知识处理器对专利数据库中的专利全文数据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更新;借助语言知识库,利用本体处理器从专利数据库中的专利全文数据中提取本体、识别本体关系,生成本体知识库,并对本体知识库进行自动更新。

【技术实现步骤摘要】

本专利技术涉及一种对专利文本(特别是专利技术专利申请及授权公开文本) 进行自动分析的系统和方法,能够用于改善用户査询效果。
技术介绍
专利法所称的专利技术,是指对产品、方法或者其改进所提出的新的技术 方案。由于具有一定的法律文件特性,专利文献体现出形式规范、语言严 谨的语言特点,而其冗长的篇幅、繁复的风格大大降低了专利的可理解性 和知识共享效能。利用自然语言技术对专利进行处理,能够起到提高专利 使用效率、提升专利使用效能的作用。专利文本的格式与书写方法比较统一和固定,用语也较为规范。专利 文献中经常包含一些固定句型,这些句型模板适合机器的自动处理。而专 利用语的规范性使得在专利中进行知识发现成为可能。己有的专利文本分析技术包括专利文本翻译、专利信息抽取、专利 分类与聚类、专利自动文摘、专利生成、专利价值评估以及提高专利可读 性等。目前以上技术多处于实验阶段,尚未有成熟的商用产品产生。中国专利公告号CN99813079,专利技术名称为具有知识生成能力的文档 语义分析选择的申请公开了一种基于计算机的软件系统和方法,用于在 语义上处理用户输入的自然语言请求,以识别和存储语言的主语一动作一 宾语(S A 0 )结构,采用这个结构作为关键词/短语来搜索本地和基于 万维网的数据库,以便下载候选自然语言文档,将候选文档文本在语义上 处理为候选文档S A 0结构,并只选择和存储其S A 0结构包括与所存储 的请求S A O结构的匹配的相关文档。进一步的特征包括分析在相关文档 S A O结构之间的关系,并根据这种关系生成可以产生新的知识概念和思 想以供显示给用户的新的SAO结构,并根据相关文档SAO结构产生和 显示自然语言概要。虽然其提出的文档SAO表示法简化了文档表示,有利于提高文档查准率并能利用SAO自动生成文档概要,但其不足之处是 匹配法使得査全率无法保证。中国专利申请号为200410078337.0,专利技术名称为使用本体论和用户 查询处理技术解决问题的方法的申请公开了一种在语义处理模块中,基 于本体论方法对知识/数据进行表示和处理,从而解决技术问题的一种系 统、方法和计算机程序。语义处理模块的基本部件包括一个语义知识库、 一个本体论知识库,和/或一个专家知识库。所述方法包括存贮一个结构 化描述的或者半结构化描述的用户检索式,对非结构化的检索式进行语义 分析形成检索式的一种正式语义表示式,对正式的语义检索式进行语义扩 展,扩展后的检索式用于在专家知识库中查找相关的解决方案,并且根据 语义关系对找到的解决方案进行分类。虽然所述的系统能够实现对用户查 询请求的解析和査询扩展,给出的査询结果能够较大限度地满足用户的需 求。但其仍存在不足之处所述的专家知识库、本体论知识库作为核心计 算资源,其构建如果依靠人工方式,将是异常复杂和繁难的,包含巨量工 作,管理和维护也是一大问题。 _
技术实现思路
本专利技术的目的是提供一种专利文本自动分析的系统和方法,所述系统 和方法旨在利用自然语言处理技术对专利全文数据进行处理,提供专家知 识库、本体论知识库所需的数据知识,尽可能降低专家知识库、本体论知 识库的获得成本和维护成本。本专利技术提出一种对专利文本(尤指专利技术专利)进行自动分析的系统, 主要包括一^语言处理系统,这个系统的基本部件包括一个语言知识库l、 一个专家知识库2、 一个本体论知识库3、 一个专家知识处理器10、 一个本 体处理器ll。本专利技术能够基于专利数据获取两大特定知识库即专家知*库 2、本体论知识库3,从而为解决(但不限于)专利技术问题或者用户的技术问 题提供知识层面的支撑,实现对专利数据库8中的专利全文进行处理。所述语言知识库l能够提供一个用户检索式的语言分析和它的正式语 义表示,即由Verb(动词)-Parameter (参数)-Object (对象)(VP0)所 体现的技术问题解决方式。所述的语言知识库l可以包含,但不限于分析的规则,词形还原词典,语言逻辑,和名词词组的分类,能够提供进行专 利文本的语言分析所需的词语知识和语言结构知识,且能够提供用户检索 请求所对应的正式的语义表示。专利文本的格式与书写方法比较统一和固 定,用语也较为规范。专利文本中经常包含一些固定句型,如本专利技术的目的是X,权利要求N所述的X,其特征是Y,其中X、 Y可以是任意词 语或句子,N是任意数词组合。这些句型模板适合机器的自动处理,是构 成语言知识库l的重要组成部分。所述专家知识库2是指是为解决技术问题的解决方案知识库,它来源 于许多文本文档,主要来源于专利数据,经专家知识处理器10处理后生成。 专家知识库2中的解决方案,可表示为SVPO (主词-动词-参数-对象)格式, 其中S是主词,或者说是vpo所定义的技术功能的解决方案。所述本体论知识库3包含周围世界的一定知识,用不同知识领域的许 多词语(概念和动词)以及这些词语的语义关系来表示,例如同义关系、 种属关系(也叫分层关系)、关联关系。所述专家知识处理器IO、本体处理器ll同为语言处理器系统的组成部 分,其工作关系是并列关系。所述专家知识处理器10是一种提取专利核心内容,进而建立结构化 的专家知识库2的装置,专家知识库2作为技术问题解决方案的载体,'为 应用层的知识使用提供数据资源支撑。所述专家知识处理器10包括预处 理器,用于进行词形识别和句子拆分;词法处理器,用于标注出词性;句 法处理器,用于识别句法结构;语义处理器,用于标注出各主要句法结构 所表示的语义,从而得到标注有复杂语言信息的专利文本;自然语言合成 器,用于生成一个结构化的知识条目,将其导入到专家知识库,并建立/ 更新基于SVPO的语义索引。专家知识处理器10的功能是对专利全文数据 进行提取和结构化表示,从而得到所需的专家知识库2。所述专家知识处理器10的工作过程可表述如下对于专利数据库8中 的一篇专利文本,在语言知识库l的指导下,经过专家知识处理器10中的 预处理器12、词法处理器13、句法处理器14、语义处理器15,得到标注有 复杂语言信息的专利文本,进而,通过自然语言合成器16,生成所需的解 决方案知识库,导入到专家知识库2,并建立/更新基于SVPO的语义索引。7所述本体处理器11是一种自动识别知识本体及本体间关系,并实现动态更新本体论知识库3的装置,本体论知识库3为应用层的语义扩展和 知识组织提供支持。所述本体处理器11包括预处理器,用于进行词形识 别和句子拆分;本体识别器,用于提取本体;关系识别器,用于识别本体 关系;本体更新器,用于对本体论知识库进行自动更新。本体处理器11 的功能是从专利全文数据中提取本体、识别本体关系,并对本体论知识库 3进行自动更新。所述本体处理器11的工作过程可表述如下对于专利数据库8中的 一篇专利文本,在语言知识库1的指导下,经过本体处理器11中的预处 理器17、本体识别器18、关系识别器19,得到该文本所包含的本体(概 念和动词)和文本内的本体间关系,经由本体更新器20,将本体导入未体 论知识库3。本体更新器20将实现对所获取本体在本体论知识库中的检测 和定位。所述专利数据库8可以是语种无关的数据库,贮存一定数量的专利文 本。它可以是专利全文数据库,也可以是专利权利要求书数据库。在语种 方面,既可以本文档来自技高网
...

【技术保护点】
一种专利文本自动分析的系统,其特征在于,包括: 专家知识处理器,用于对专利数据库中的专利全文数据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更新; 本体处理器,用于从专利数据库中的专利全文数据中提取本体、识别本体 关系,生成本体知识库,并对本体知识库进行自动更新; 语言知识库,用于提供一个用户检索式的语言分析和它的正式语义表示,协助专家知识处理器和本体处理器工作; 专家知识库,是解决技术问题的解决方案知识库,来源于许多文本文档,主要来源于 专利数据,经专家知识处理器处理后生成; 本体知识库,包含周围世界的一定知识,用不同知识领域的许多词语以及这些词语的语义关系来表示,经本体处理器处理后生成; 所述专家知识处理器、本体处理器的工作关系是并列关系,所述专家知识库和本体 知识库也为并列关系。

【技术特征摘要】
1.一种专利文本自动分析的系统,其特征在于,包括专家知识处理器,用于对专利数据库中的专利全文数据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更新;本体处理器,用于从专利数据库中的专利全文数据中提取本体、识别本体关系,生成本体知识库,并对本体知识库进行自动更新;语言知识库,用于提供一个用户检索式的语言分析和它的正式语义表示,协助专家知识处理器和本体处理器工作;专家知识库,是解决技术问题的解决方案知识库,来源于许多文本文档,主要来源于专利数据,经专家知识处理器处理后生成;本体知识库,包含周围世界的一定知识,用不同知识领域的许多词语以及这些词语的语义关系来表示,经本体处理器处理后生成;所述专家知识处理器、本体处理器的工作关系是并列关系,所述专家知识库和本体知识库也为并列关系。2. 根据权利要求1所述的系统,其特征在于,所述专家知识处理器 包括预处理器,用于进行词形识别和句子拆分; 词法处理器,用于标注出词性; 句法处理器,用于识别句法结构;语义处理器,用于标注出各主要句法结构所表示的语义,从而得到标 注有复杂语言信息的专利文本;自然语言合成器,用于生成一个结构化的知识条目,将其导入到专家 知识库,并建立或更新语义索引。3. 根据权利要求2所述的系统,其特征在于,所述语义索引是基于主词-动词-参数-对象(SVP0)格式的。4. 根据权利要求1所述的系统,其特征在于,所述本体处理器包括: 预处理器,用于进行词形识别和句子拆分;本体识别器,用于提取本体; 关系识别器,用于识别本体关系;本体更新器,用于将本体导入本体论知识库,并对本体论知识库进行 自动更新。5. 根据权利要求1所述的系统,其特征在于,所述本体更新器还能 够实现对所获取本体在本体论知识库中的检测和定位。6. 根据权利要求1所述的系统,其特征在于,所述词语的语义关系 至少包括同义关系、种属关系和关联关系。7. 根据权利要求1所述的系统,其特征在于,所述专家知识库中的 解决方案,表示为主词-动词-参数-对象(SVP0)格式。 -8. 根据权利要求1所述的系统,其特征在于,所述语言知识库至少 包含分析的规则,词形还原词典,语言逻辑,和名词词组的分类,能够提 供进行专利文本的语言分析所需的词语知识和语言结构知识,而且能够...

【专利技术属性】
技术研发人员:张国明
申请(专利权)人:亿维讯软件北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1