内容提取方法技术

技术编号:8022400 阅读:185 留言:0更新日期:2012-11-29 04:38
本发明专利技术提供一种内容提取方法,从多种样式的文档中提取内容,包括:保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。根据本发明专利技术的内容提取方法,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。

【技术实现步骤摘要】

本专利技术涉及,更具体而言,涉及从多种样式的文档中提取内容的。
技术介绍
近年来,随着信息技术的突飞猛进,各行各业中需要面对和处理的信息量不断增大。例如,大量的信息被保存为文档中的内容并提供给用户。面对这些文档,用户需要从中提取出内容,以便进行解析利用。为了减轻用户的操作负担,希望研发出能够自动从文档中提取用户所需的内容的内容提取技术。针对这种需求,目前已经提出了一些用于从文档中提取内容的技术。例如,在专利文献I中公开了一种帐票的输出装置,具备用于从输入文件中提取数据并保存在中间文 件中的提取处理单元、以及用于保存在执行提取处理时要参照的提取参数的参数文件。在需要根据输入文件来输出帐票时,由用户对应于要输出的帐票来输入以下信息与帐票中的项目有关的信息、与数据的取得方法有关的信息(帐票中的数据应该从哪个输入文件中提取、如何根据从输入文件中提取出的数据得到帐票中的数据)、与帐票的样式有关的信息(帐票中各项目的输出样式和输出位置)。然后,将这些信息记录在账票管理表中,根据账票管理表的内容和输入文件的构造信息,按每个输入文件生成提取参数,参照提取参数从输入文件中提取数据并保存在中间文件中,并根据中间文件中保存的数据输出账票。由此,专利文献I所公开的账票的输出装置不需要按每个输出账票制作专用的输出程序,能够根据从一个或多个输入文件中提取出的数据输出账票。专利文献I :日本特开平7-168892号公报但是,在专利文献I所公开的账票的输出装置中,用户只能输入与要输出的账票有关的信息。即,在从输入文件中提取所需的数据时,用户无法输入或编辑与输入文件有关的信息,而只能利用固有的输入文件的构造信息。可知,专利文献I所公开的账票的输出装置适用于从固定样式的输入文件中提取数据来输出账票的情况。然而,在现实中,用户需要从中提取数据的文档的样式却多种多样。例如,在软件开发产业中,使用多种样式的项目文档,例如管理程序缺陷的B票、管理测试用例的PCL票、管理问题点的M票等。从项目管理的角度看,需要自动地从多种样式的项目文档中提取进度和品质指标。另外,不同的公司通常有其自身特定的管理流程,其中要求多种样式的管理文档,使用统一样式的文档不利于建立特定的管理流程。因此,从流程管理的角度看,也需要自动地从不同样式的管理文档中提取信息。更具体地举例说明。近年来,对日外包软件开发增长迅速,特别是在中国。2009年日本的外包开发规模已达1995亿日元,其中大概85%发包到中国。通常,一个中国接包方同时为多个日本发包方开发项目。不同的发包方使用不同样式的项目文档。对每一个发包方,接包方使用其要求的特定样式的项目文档。据本专利技术人调查,大部分接包方花费很多时间从这些文档中手工提取数据然后制作项目报告。此外,日本发包方通常有其更上一级的发包方,一个项目的文档样式由其上一级的发包方决定,因此同一个日本发包方的不同发包项目中采用的文档样式也常常不同。在这种情况下,用户如果使用专利文献I所公开的账票的输出装置那样的现有的内容提取装置,则不得不调整并统一输入文档的样式。但是,如上所述,由于输入文档的样式种类繁多并不断变化,因此这种行为不具有现实可行性。而且,即使在现有的内容提取装置中预先设定了输入文档的样式(例如,由软件发包方规定),但这样的内容提取装置仍然只能适用于新的项目以便从始至终地提取数据。在用户面对正在进行中的项目的旧样式的文档时,则无法利用该内容提取装置。另外,在专利文献I所公开的账票的输出装置中,如果输入文件的样式不符合装置中固有的输入文件的构造信息,则无法从输入文件中提取正确的数据。但是,对于这种可能发生的错误,专利文献I所公开的账票的输出装置没有提出任何对策。即,在用户使用专利文献I所公开的账票的输出装置时,即使由于输入文件的样式不符合装置中固有的输入文件的构造信息而出现错误,用户也很可能无法察觉。显然,这有可能导致提取出的内容错 误,造成无法挽回的损失。
技术实现思路
本专利技术针对以上现有技术中的技术问题,其目的在于,提供一种能够简单地从多种样式的文档中提取内容的。另外,本专利技术的目的还在于,提供一种能够应对提取错误内容的情况的。为此,本专利技术提供一种,从多种样式的文档中提取内容,其特征在于,包括保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。根据本专利技术的,在文档的样式繁多且不断变化的情况下,也能够使用户简单地从多种样式的文档中提取内容,从而避免了开发新的提取程序,增加了项目管理工具的灵活性,同时不明显影响用户的管理流程。另外,也可以所述获取步骤包括配置文件解析步骤,通过解析配置文件,来获取所述配置信息。由此,能够使用户直接编辑配置文件本身,提高了实际应用中的透明度和扩展性。另外,也可以所述获取步骤包括检索步骤,在画面上显示用于设定检索条件的界面,该检索条件用于检索提取方法,根据通过该界面获取的检索条件,从所述保存单元中检索提取方法;以及参数获取步骤,在所述画面上显示用于设定与所述检索步骤中检索出的提取方法对应的参数的界面,并获取通过该界面设定的参数。由此,能够使用户通过画面上显示的界面方便地设定配置信息,增加了实际应用中的易用度。另外,也可以与提取方法对应的参数包括文档样式、文档路径、要提取的内容的位置信息以及所述要提取的内容的样式。这里,说明了与提取方法对应的参数的具体例子。通过执行由这些参数和提取方法构成的提取程序,能够按照用户的需求从文档中提取内容。另外,也可以所述还包括错误信息显示步骤,在从文档中提取的内容的样式与所述要提取的内容的样式不一致的情况下,生成错误信息并显示在所述画面上。由此,在提取出的内容出现了错误的情况下,能够及时地通知用户,来合理地应对提取错误内容的情况,避免了在不知情的情况下提取了错误内容时可能造成的损失。另外,也可以所述提取方法包括样式检测方法、指标提取方法、评价单位读取方法。 这里,说明了提取方法的几个种类。通过执行由这些种类的提取方法构成的提取程序,能够按照用户的需求从文档中提取内容。另外,也可以所述还包括存储步骤,将所述提取步骤中从文档中提取的内容以规定的形式存储在数据库中。由此,能够使用户方便地利用数据库中的规定形式的内容,提高了提取出的内容的利用价值。另外,也可以所述提取步骤根据所述获取步骤中获取的所述配置信息,基于所述保存单元中保存的提取方法,生成所述提取程序,从所述文档中提取内容。这里,说明了生成提取程序的一种具体方法。通过根据获取步骤中获取的配置信息并基于保存单元中保存的提取方法,能够生成提取程序来从文档中提取内容。附图说明图I是表示内容提取装置的结构的模块图。图2是表示由内容提取装置执行的的流程图。图3A示出一种Excel帐票的样式。图3B示出另一种Excel帐票的样式。图3C示出又一种Excel帐票的样式。图4A举例示出一种提取方法的代码。图4B示出多种提取方法及其功能。图5A示出针对图3A所示的Excel帐票的配置文件。图5B示出针对图3B和图3C所示的Excel帐票的本文档来自技高网
...

【技术保护点】
一种内容提取方法,从多种样式的文档中提取内容,其特征在于,包括:保存步骤,将用于从不同样式的文档中提取内容的多个提取方法保存在保存单元中;获取步骤,获取配置信息,该配置信息包括用于确定所述保存单元中保存的提取方法的信息以及与该提取方法对应的参数;以及提取步骤,根据所述获取步骤中获取的所述配置信息,生成提取程序,从所述文档中提取内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:细矢淳柴梅平
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1