从非结构化文档中抽取对象的方法和装置制造方法及图纸

技术编号:7026529 阅读:255 留言:0更新日期:2012-04-11 18:40
提供了从非结构化文档中抽取对象的方法和装置,该方法可以包括:抽取命名实体,以及从命名实体中选择标识性属性;抽取对象属性集;抽取值表达式;匹配对象属性集中的属性和值表达式;以及利用标识性属性和匹配后的属性和值表达式来创建对象。本发明专利技术的方法和装置实现了自动从非结构化文档抽取命名实体、标识性属性、属性和值并构建对象,从而可以方便地进一步为计算机处理和利用,显著地减少信息处理中的人力物力。

【技术实现步骤摘要】

本专利技术总体地涉及信息处理和信息抽取领域,更具体地涉及从文档中抽取信息。
技术介绍
目前,存在大量的电子文档,例如,互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等,正成为业界研究和开发的热点。文档可以大致分为结构化文档、半结构化文档和非结构化的文档。结构化文档一般是按照某种预定义的文档对象模型构造的文档,其已经给文档定义了框架,使得各部分的作用一目了然,例如通过一些数据库定义语言或面向对象的编程语言等构建的文档可以称为结构化文档。网页等诸如HTML或XML格式的文档常被人称为半结构化文档或半结构化数据,从其中的一些标记语言即可以知道所描述对象的属性和值。 例如,下面为一示例性的XML格式文档< ? xml version = “ 1.0〃 encoding = “ GB2312" ? ><myfile><title>XML 轻松学习手册 </title><chapter>XML 快速入门<para> if^M XML</para><para> 使用 XML 的好处 </para></chapter><chapter>XML 的概念<para> 扩展性 </para><para> I^iK </para></chapter></myfile>从该XML格式文档中,可以清晰地看出标识分三级关联,因此非常便于计算机处理和分析<myfile><chapter><para></para></chapter></myfile>结构化文档或半结构化文档本身有一些标记,可以被利用来帮助进行信息分析和提取。除结构化文档、半结构化文档外的大量文档被称为非结构化文档。非结构化文档类似于自然语言形式,例如我们常见的后缀为txt的纯文本文档即为一种典型的非结构化文档。此外,word格式和pdf格式的文档中也不存在便于理解文章所描述的主体和具体属性的信息,因此也可视为非结构化文档。附图说明图1示出了一篇纯文本(非结构化数据)与其对应对象(结构化数据)的例子。 显然,结构化数据可以方便地进一步被计算机处理和利用。已经提出了很多从结构化文档或半结构化文档识别或提取对象的方法。例如,题为“Method and system for identifying object information”的美国专利US 7383254B2 提出了一种从网页中识别对象的方法,包括在网页识别对象区域;使用预先定义的属性分类对象区域;标出当前对象类型的属性;计算置信度并生成对象。文献Learning Object Model from Product Web Pages,Shiren Ye, Tat—seng Chua, Proc. workshop Semantic Web of SIGIR,2004禾口文献A fully automated object extraction system for the Web, David Buttler, Ling Liu, Calton PuiGeorgia Institute of Technology,2001 提出了如下对象抽取方法从多个网页产品检索结果页面中抽取多个对象;对象模型是预先定义的且固定的;对象抽取首先利用网页结构标识出对象区域,然后填充对象模型。非结构化的文本广泛存在,且富含信息,却不易被计算机理解。例如互联网上广泛存在着描述产品的非结构化文章,可以是产品功能参数说明,广告,新闻发布,或用户评论。 尽管已经有很多产品信息被结构化,比如销售网站或测评网站上的产品信息,但是这些都是通过手工收集和录入的,因此相当地耗费人力和时间。因此,存在对于自动从非结构化文档诸如纯文本单文档中抽取对象的方法的需要。
技术实现思路
为此,提出了本专利技术。根据本专利技术的一个方面,提供了一种从非结构化文档中抽取对象的方法,可以包括抽取命名实体,以及从命名实体中选择标识性属性;抽取对象属性集;抽取值表达式; 匹配对象属性集中的属性和值表达式;以及利用标识性属性和匹配后的属性和值表达式来创建对象。抽取对象属性集可以包括利用基于监督的学习算法抽取候选属性集1 ;利用非基于监督的学习算法抽取候选属性集2 ;以及从候选属性集1和候选属性集2聚合得到所述对象属性集。抽取候选属性集2可以包括该非结构化文档被分割为短语序列,如下计算每个短语的分数ntok =短语中单词/字的个数nm =短词中包含特殊指定字符的单词/字个数权利要求1.一种从非结构化文档中抽取对象的方法,包括 抽取命名实体,以及从命名实体中选择标识性属性; 抽取对象属性集;抽取值表达式;匹配对象属性集中的属性和值表达式;以及利用标识性属性和匹配后的属性和值表达式来创建对象。2.根据权利要求1的方法,其中,所述抽取对象属性集包括 利用基于监督的学习算法抽取候选属性集1 ;利用非基于监督的学习算法抽取候选属性集2 ;以及从候选属性集1和候选属性集2聚合得到所述对象属性集。3.根据权利要求2的方法,其中所述抽取候选属性集2包括 该非结构化文档被分割为短语序列,如下计算每个短语的分数 nt。k=短语中单词/字的个数Hun =短词中包含特殊指定字符的单词/字个数r _ A 纩词性=名词 Jpos 一 (O 其他f _ Jl丨/ 秘>1口全部大写 J cm ~ Io 其他f _ I1 '/" "",“<0.5Jun ~ (0其他丄 rule Ipos 丄 cut Iun选择分数为ι的短语加入候选属性集2。4.根据权利要求2的方法,其中所述从候选属性集1和候选属性集2聚合得到所述对象属性集包括利用候选属性集1和候选属性集2构建候选属性图,图中的结点为所有候选属性,每个候选属性具有先验分数,来自候选属性集1的候选属性的先验分数由前述基于监督的学习算法而获得,来自候选属性集2的候选属性的先验分数由前述非基于监督的学习算法获得;从每一个结点向近邻传播分数,每一轮传播后每个结点的分数保留了一部分它的原始分数,传播过程终止于收敛或者达到某一最大迭代次数; 将结点聚类到k个簇中,k为目标短语个数;以及从每个簇中选取一个加入到所述对象属性集中。5.根据权利要求1的方法,其中,根据词频和位置信息来从命名实体中选择标识性属性包括6.根据权利要求5的方法,所述根据词频和位置信息来从命名实体中选择标识性属性基于词频和第一次出现的位置,如下计算每个命名实体的分数fiw fiw = VlogTm ;其中Tf为词频,Tffl为命名实体第一次出现的位置, 选择具有最高分数的命名实体作为标识性属性。7.根据权利要求1的方法,所述匹配对象属性集中的属性和值表达式包括对于同时出现在一个预定大小的窗口中的一对属性χ和值表达式y,通过下述公式来计算两者之间的相关度fxi (χ, y)8.根据权利要求1的方法,所述利用标识性属性和匹配后的属性和值表达式来创建对象包括对象由标识性属性标识;以及其他的属性-值对本文档来自技高网
...

【技术保护点】
1.一种从非结构化文档中抽取对象的方法,包括:抽取命名实体,以及从命名实体中选择标识性属性;抽取对象属性集;抽取值表达式;匹配对象属性集中的属性和值表达式;以及利用标识性属性和匹配后的属性和值表达式来创建对象。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢宣松姜珊珊孙军郑继川赵利军
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1