一种专利文本自动分析的系统及方法技术方案

技术编号：4247743 阅读：337 留言：0更新日期：2012-04-11 18:40

本发明专利技术提出一种专利文本自动分析的系统，包括专家知识处理器，本体处理器，语言知识库，专家知识库，和本体知识库，所述专家知识处理器、本体处理器的工作关系是并列关系，所述专家知识库和本体知识库也为并列关系。本发明专利技术还提出一种专利文本自动分析的方法，借助语言知识库，利用专家知识处理器对专利数据库中的专利全文数据进行提取和结构化表示，生成专家知识库，并对专家知识库进行自动更新；借助语言知识库，利用本体处理器从专利数据库中的专利全文数据中提取本体、识别本体关系，生成本体知识库，并对本体知识库进行自动更新。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种对专利文本(特别是专利技术专利申请及授权公开文本) 进行自动分析的系统和方法，能够用于改善用户査询效果。
技术介绍
专利法所称的专利技术，是指对产品、方法或者其改进所提出的新的技术方案。由于具有一定的法律文件特性，专利文献体现出形式规范、语言严谨的语言特点，而其冗长的篇幅、繁复的风格大大降低了专利的可理解性和知识共享效能。利用自然语言技术对专利进行处理，能够起到提高专利使用效率、提升专利使用效能的作用。专利文本的格式与书写方法比较统一和固定，用语也较为规范。专利文献中经常包含一些固定句型，这些句型模板适合机器的自动处理。而专利用语的规范性使得在专利中进行知识发现成为可能。己有的专利文本分析技术包括专利文本翻译、专利信息抽取、专利分类与聚类、专利自动文摘、专利生成、专利价值评估以及提高专利可读性等。目前以上技术多处于实验阶段，尚未有成熟的商用产品产生。中国专利公告号CN99813079，专利技术名称为具有知识生成能力的文档语义分析选择的申请公开了一种基于计算机的软件系统和方法，用于在语义上处理用户输入的自然语言请求，以识别和存储语言的主语一动作一宾语(S A 0 )结构，采用这个结构作为关键词/短语来搜索本地和基于万维网的数据库，以便下载候选自然语言文档，将候选文档文本在语义上处理为候选文档S A 0结构，并只选择和存储其S A 0结构包括与所存储的请求S A O结构的匹配的相关文档。进一步的特征包括分析在相关文档 S A O结构之间的关系，并根据这种关系生成可以产生新的知识概念和思想以供显示给用户的新的SA...

【技术保护点】
一种专利文本自动分析的系统，其特征在于，包括：　专家知识处理器，用于对专利数据库中的专利全文数据进行提取和结构化表示，生成专家知识库，并对专家知识库进行自动更新；　本体处理器，用于从专利数据库中的专利全文数据中提取本体、识别本体关系，生成本体知识库，并对本体知识库进行自动更新；　语言知识库，用于提供一个用户检索式的语言分析和它的正式语义表示，协助专家知识处理器和本体处理器工作；　专家知识库，是解决技术问题的解决方案知识库，来源于许多文本文档，主要来源于专利数据，经专家知识处理器处理后生成；　本体知识库，包含周围世界的一定知识，用不同知识领域的许多词语以及这些词语的语义关系来表示，经本体处理器处理后生成；　所述专家知识处理器、本体处理器的工作关系是并列关系，所述专家知识库和本体知识库也为并列关系。

【技术特征摘要】
1.一种专利文本自动分析的系统，其特征在于，包括专家知识处理器，用于对专利数据库中的专利全文数据进行提取和结构化表示，生成专家知识库，并对专家知识库进行自动更新；本体处理器，用于从专利数据库中的专利全文数据中提取本体、识别本体关系，生成本体知识库，并对本体知识库进行自动更新；语言知识库，用于提供一个用户检索式的语言分析和它的正式语义表示，协助专家知识处理器和本体处理器工作；专家知识库，是解决技术问题的解决方案知识库，来源于许多文本文档，主要来源于专利数据，经专家知识处理器处理后生成；本体知识库，包含周围世界的一定知识，用不同知识领域的许多词语以及这些词语的语义关系来表示，经本体处理器处理后生成；所述专家知识处理器、本体处理器的工作关系是并列关系，所述专家知识库和本体知识库也为并列关系。2. 根据权利要求1所述的系统，其特征在于，所述专家知识处理器包括预处理器，用于进行词形识别和句子拆分；词法处理器，用于标注出词性；句法处理器，用于识别句法结构；语义处理器，用于标注出各主要句法结构所表示的语义，从而得到标注有复杂语言信息的专利文本；自然语言合成器，用于生成一个结构化的知识条目，将其导入到专家知识库，并建立或更新语义索引。3. 根据权利要求2所述的系统，其特征在于，所述语义索引是基于主词-动词-参数-对象(SVP0)格式的。4. 根据权利要求1所述的系统，其特征在于，所述本体处理器包括: 预处理器，用于进行词形识别和句子拆分；本体识别器，用于提取本体；关系识别器，用于识别本体关系；本体更新器，用于将本体导入本体论知识库，并对本体论知识库进行自动更新。5. 根据权利要求1所述的系统，其特征在于，所述本体更新器还能够实现对所获取本体在本体论知识库中的检测和定位。6. 根据权利要求1所述的系统，其特征在于，所述词语的语义关系至少包括同义关系、种属关系和关联关系。7. 根据权利要求1所述的系统，其特征在于，所述专家知识库中的解决方案，表示为主词-动词-参数-对象(SVP0)格式。 -8. 根据权利要求1所述的系统，其特征在于，所述语言知识库至少包含分析的规则，词形还原词典，语言逻辑，和名词词组的分类，能够提供进行专利文本的语言分析所需的词语知识和语言结构知识，而且能够...

【专利技术属性】
技术研发人员：张国明，
申请(专利权)人：亿维讯软件北京有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人