从非结构化文档中抽取对象的方法和装置制造方法及图纸

技术编号：7026529 阅读：255 留言：0更新日期：2012-04-11 18:40

提供了从非结构化文档中抽取对象的方法和装置，该方法可以包括：抽取命名实体，以及从命名实体中选择标识性属性；抽取对象属性集；抽取值表达式；匹配对象属性集中的属性和值表达式；以及利用标识性属性和匹配后的属性和值表达式来创建对象。本发明专利技术的方法和装置实现了自动从非结构化文档抽取命名实体、标识性属性、属性和值并构建对象，从而可以方便地进一步为计算机处理和利用，显著地减少信息处理中的人力物力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体地涉及信息处理和信息抽取领域，更具体地涉及从文档中抽取信息。
技术介绍
目前，存在大量的电子文档，例如，互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等，正成为业界研究和开发的热点。文档可以大致分为结构化文档、半结构化文档和非结构化的文档。结构化文档一般是按照某种预定义的文档对象模型构造的文档，其已经给文档定义了框架，使得各部分的作用一目了然，例如通过一些数据库定义语言或面向对象的编程语言等构建的文档可以称为结构化文档。网页等诸如HTML或XML格式的文档常被人称为半结构化文档或半结构化数据，从其中的一些标记语言即可以知道所描述对象的属性和值。例如，下面为一示例性的XML格式文档< ？ xml version = “ 1.0〃 encoding = “ GB2312" ？ ><myfile><title>XML 轻松学习手册 </title><chapter>XML 快速入门<para> if^M XML</para><para> 使用 XML 的好处 </para></chapter><chapter>XML 的概念<para> 扩展性 </para><para> I^iK </para></chapter></myfile>从该XML格式文档中，可以清晰地看出标识分三级关联，因此非常便于计算机处理和分析<m...

【技术保护点】
１．一种从非结构化文档中抽取对象的方法，包括：抽取命名实体，以及从命名实体中选择标识性属性；抽取对象属性集；抽取值表达式；匹配对象属性集中的属性和值表达式；以及利用标识性属性和匹配后的属性和值表达式来创建对象。

【技术特征摘要】

【专利技术属性】
技术研发人员：谢宣松，姜珊珊，孙军，郑继川，赵利军，
申请(专利权)人：株式会社理光，
类型：发明
国别省市：JP

全部详细技术资料下载我是这个专利的主人