用于将非文本内容对象化以及用于文档发现的方法和系统技术方案

技术编号:13306776 阅读:113 留言:0更新日期:2016-07-10 02:03
公开了用于将非文本内容对象化以及用于文档发现的方法和系统。用于将非原生文件内的非文本内容对象化的方法包括通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中标签以原生文件格式来限定对象的一部分。该方法还包括:基于对象化对象来生成包括对象化对象的组成信息的元数据,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。

【技术实现步骤摘要】

本申请涉及文档处理,特别地涉及对包括非文本内容的文档进行处理。
技术介绍
原生(native)电子文件使得用户能够利用各种选项和功能容易地编辑文档。有时,原生文件(nativefile)被转换成不同的文件类型(即,转换成非原生文件(non-nativefile))。然而,文档的可编辑性在非原生格式下通常降低。为了说明,用户当使用原生文件时可能能够对文字处理文档中的表格的各个单元进行编辑。然而,如果用户正使用文件的非原生拷贝,则用户编辑表格的能力可能会受到限制。例如,用户可能不能对各个单元进行编辑,并且可能会被限制成简单地选择页面上的要放置整个表格的位置。非原生文件的示例是物理文档(physicaldocument)。物理文档在家庭、办公室和其他环境中普遍存在。很多物理文档是来自电子文档的打印输出(printout),诸如来自计算装置的文字处理应用的打印输出。有时,用户可能会期望使用计算装置来编辑物理文档。要这样做,用户可能首先需要用扫描仪或多功能打印机扫描物理文档,使得栅格化图像可以由能够识别所扫描的文档上的对象的软件来分析和处理。例如,可以使用光学字符识别(OCR)软件来执行诸如文本识别和转换的常规操作。然而,非文本对象不能够被识别和编辑。如果图像中的文本并非格式良好,则文本也可能是不能够被识别和编辑的。在这两种情况下,对象通常被作为位图对象处理或者被从原始扫描转换成矢量格式,并且在其原生格式下不能够被识别。电子文档管理对大小机构而言均是具有挑战性的任务。当用户不能够定位原始文档时,成千上万小时和数百万美元被浪费在搜索错放的电子文档和重新创建文档的努力中。在一些情况下,用户可能持有文档的物理或其他非原生拷贝,但是不能够定位原始电子文档,该原始电子文档可能被存储在网络驱动器或数据储存库(例如企业内容管理(ECM)储存库)上的某处。用户可以重新创建文档,但是甚至在高质量重建的情况下,重建的文档仍可能与原始电子文档不同。用户可能试图通过从网络驱动器或数据储存库中搜索来自文档文本的字符串来查找电子文档。例如,用户可以扫描硬拷贝(hardcopy)并且使用光学字符识别(OCR)软件,使得能够进行比较以在网络驱动器或EC储存库中发现匹配。然而,简单文本搜索可能不总是足够的。例如,如果文档缺少文本或如果文本并非格式良好,则由于OCR软件不能够识别非文本对象而无法执行搜索。作为另一示例,如果文档仅包含很常用的词,则该搜索可能会返回太多结果。
技术实现思路
在一个方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的方法可以包括:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。在另一方面中,根据实施例,一种用于将非原生文件内的包括对象的非文本内容对象化的系统可以包括计算机处理器和对象化器,该对象化器在计算机处理器上执行并且被配置成:通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化,其中,该标签以原生文件格式来限定对象的一部分;基于对象化对象来生成包括对象化对象的组成信息的元数据,其中,组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有元数据的对象化对象的新的原生文件。一般地,在一个方面中,本专利技术涉及一种用于文档发现的方法,包括:接收包括非文本对象的文档的物理拷贝的扫描件;确定非文本对象的第一标签,其中,该第一标签限定原始文件中的非文本对象的一部分;基于第一标签来生成包括非文本对象的组成信息的非文本对象元数据;使用非文本对象元数据来搜索存储在数据储存库中的多个电子文档,其中,多个电子文档中的每一个包括对象以及与该对象相关联的能够被搜索的元数据;将非文本对象元数据与能够被搜索的元数据进行比较;以及当非文本对象元数据与能够被搜索的元数据匹配时,将原始文件的位置提供给用户。一般地,在另一方面中,本专利技术涉及一种用于文档发现的系统,包括:数据储存库,该数据储存库存储多个电子文档,其中,多个电子文档中的每一个包括对象以及与该对象相关联的能够被搜索的元数据;计算机处理器;以及文档定位器,该文档定位器在计算机处理器上执行并且被配置成:接收包括非文本对象的文档的物理拷贝的扫描件;确定非文本对象的第一标签,其中,该第一标签限定原始文件中的该非文本对象的一部分;基于第一标签来生成包括非文本对象的组成信息的非文本对象元数据;使用非文本对象元数据来搜索存储在数据储存库中的多个电子文档;将非文本对象元数据与能够被搜索的元数据进行比较;以及当非文本对象元数据与能够被搜索的元数据匹配时,将原始文件的位置提供给用户。根据下面的描述和所附权利要求,本专利技术的其他方面将是明显的。附图说明图1示出了根据本专利技术的第一实施例的系统的示意图。图2示出了根据本专利技术的第一实施例的流程图。图3示出了根据本专利技术的第一实施例的示例。图4示出了根据本专利技术的第二实施例的系统的示意图。图5示出了根据本专利技术的第二实施例的流程图。图6示出了根据本专利技术的第二实施例的示例。图7示出了根据本专利技术的一个或更多个实施例的计算系统。具体实施方式现在将参考附图详细地描述本专利技术的具体实施例。为了一致性,各个图中的相似元素由相似的附图标记来表示。在本专利技术的实施例的下面的详细描述中,为了提供对本专利技术的更深入的理解,阐述了大量具体的细节。然而,对本领域的普通技术人员而言将明显的是,本专利技术可以在没有这些具体细节的情况下被实现。在其他实例中,没有详细描述公知特征以避免使描述不必要地复杂化。(第一实施例)一般地,本专利技术的第一实施例提供方法和系统,其用于进行对象化(限定对象),以在非原生文档对象的原生格式下识别这些非原生文档对象。例如,如果用户访问非原生文件(例如,电子文档的硬拷贝打印输出)而不是原生文件,则用户编辑或搜索文档的能力可能会受到限制。本专利技术的第一实施例使得用户能够以原生文件格式来创建能够被编辑和能够被深度搜索的新的电子文档。深度可搜索性使得操作系统和/或文档程序的已有和/或内置文本搜索功能能够使用本文档来自技高网
...

【技术保护点】
一种用于将非原生文件内的非文本内容对象化的方法,所述非文本内容包括对象,所述方法包括:通过以下方式将所述非文本内容的对象对象化:确定所述对象的标签,其中,所述标签以原生文件格式来限定所述对象的一部分;以及创建包括所述对象和所述标签的对象化对象;基于所述对象化对象来生成包括所述对象化对象的组成信息的元数据,其中,所述组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据;以及生成包括附有所述元数据的所述对象化对象的新的原生文件。

【技术特征摘要】
2014.12.31 US 14/588,165;2014.12.31 US 14/588,1941.一种用于将非原生文件内的非文本内容对象化的方法,所述非文
本内容包括对象,所述方法包括:
通过以下方式将所述非文本内容的对象对象化:
确定所述对象的标签,其中,所述标签以原生文件格式来限定所
述对象的一部分;以及
创建包括所述对象和所述标签的对象化对象;
基于所述对象化对象来生成包括所述对象化对象的组成信息的元数
据,其中,所述组成信息的至少部分是能够由原生应用针对原生文件进行
搜索的文本数据;以及
生成包括附有所述元数据的所述对象化对象的新的原生文件。
2.根据权利要求1所述的方法,其中,所述非原生文件是物理文档,
并且所述原生文件是OOXML文件。
3.根据权利要求1所述的方法,其中,所述对象化对象能够以原生
方式被编辑,并且其中,所述元数据能够被搜索。
4.根据权利要求1所述的方法,其中,所述对象是图形对象,并且
其中,所述元数据描述所述对象的图形类型以及所述对象在所述非原生文
件中的页面上的位置。
5.根据权利要求1所述的方法,还包括:
从用户接收所述新的原生文件的文件格式,其中,确定所述标签部分
地基于该文件格式。
6.根据权利要求1所述的方法,其中,确定所述标签还包括:
将所述对象与多个模板进行比较,所述多个模板中的每个模板与来自
所述原生文件的文件格式的原生标签相对应。
7.根据权利要求1所述的方法,其中,从扫描仪获得所述非原生文
件。
8.一种用于将非原生文件内的非文本内容对象化的系统,所述非文
本内容包括对象,所述系统包括:
计算机处理器;以及
对象化器,所述对象化器在所述计算机处理器上执行并且被配置成:
通过以下方式将所述非文本内容的对象对象化:
确定所述对象的标签,其中,所述标签以原生文件格式来限
定所述对象的一部分;以及
创建包括所述对象和所述标签的对象化对象;
基于所述对象化对象来生成包括所述对象化对象的组成信息的
元数据,其中,所述组成信息的至少部分是能够由原生应用针对原生
文件进行搜索的文本数据;以及
生成包括附有元数据的所述对象化对象的新的原生文件。
9.根据权利要求8所述的系统,其中,所述非原生文件是物理文档,
并且所述原生文件是OOXML文件。
10.根据权利要求8所述的系统,其中,所述对象化对象能够以原生
方式被编辑,并且其中,所述元数据能够被搜索。
11.根据权利要求8所述的系统,其中,所述对象是图形对象,并且
其中,所述元数据描述所述对象的图形类型以及所述对象在所述非原生文
件中的页面上的位置。
12.根据权利要求8所述的系统,其中,所述对象化器还被配置成:
从用户接收所述新的原生文件的文件格式,其中,确定所述标签部分

\t地基于该文件格式。
13.根据权利要求8所述的系统,其中,确定所述标签还包括:
将所述对象与多个模板进行比较,所述多个模板中的每个模板与来自
所述原生文件的文件格式的原生标签相对应。
14.根据权利要求8所述的系统,还包括:
扫描仪,所述扫描仪被配置成获得所述非原生文件。
15.一种用于文档发现的方法,包括:
接收包括非文本对象的文档的物理拷贝的扫描件;
确定所述非文本对象的第一标签,其中,所述第一标签限定原始文件
中的所述非文本对象的一部分;
基于所述第一标签来生成包括所述非文本对象的组成信息的非文本
对象元数据;
使用所述非文本对象元数据来搜索存储在数据储存库中的多个电子
文档,其中,所述多个...

【专利技术属性】
技术研发人员:柯·史蒂文·泰居
申请(专利权)人:柯尼卡美能达美国研究所有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1