用于将非文本内容对象化以及用于文档发现的方法和系统技术方案

技术编号：13306776 阅读：113 留言：0更新日期：2016-07-10 02:03

公开了用于将非文本内容对象化以及用于文档发现的方法和系统。用于将非原生文件内的非文本内容对象化的方法包括通过确定对象的标签并且创建包括对象和标签的对象化对象来将非文本内容的对象对象化，其中标签以原生文件格式来限定对象的一部分。该方法还包括：基于对象化对象来生成包括对象化对象的组成信息的元数据，组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据；以及生成包括附有元数据的对象化对象的新的原生文件。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文档处理，特别地涉及对包括非文本内容的文档进行处理。
技术介绍
原生(native)电子文件使得用户能够利用各种选项和功能容易地编辑文档。有时，原生文件(nativefile)被转换成不同的文件类型(即，转换成非原生文件(non-nativefile))。然而，文档的可编辑性在非原生格式下通常降低。为了说明，用户当使用原生文件时可能能够对文字处理文档中的表格的各个单元进行编辑。然而，如果用户正使用文件的非原生拷贝，则用户编辑表格的能力可能会受到限制。例如，用户可能不能对各个单元进行编辑，并且可能会被限制成简单地选择页面上的要放置整个表格的位置。非原生文件的示例是物理文档(physicaldocument)。物理文档在家庭、办公室和其他环境中普遍存在。很多物理文档是来自电子文档的打印输出(printout)，诸如来自计算装置的文字处理应用的打印输出。有时，用户可能会期望使用计算装置来编辑物理文档。要这样做，用户可能首先需要用扫描仪或多功能打印机扫描物理文档，使得栅格化图像可以由能够识别所扫描的文档上的对象的软件来分析和处理。例如，可以使用光学字符识别(OCR)软件来执行诸如文本识别和转换的常规操作。然而，非文本对象不能够被识别和编辑。如果图像中的文本并非格式良好，则文本也可能是不能够被识别和编辑的。在这两种情况下，对象通常被作为位图对象处理或者被从原始扫描转换成矢量格式，并且在其原...

【技术保护点】
一种用于将非原生文件内的非文本内容对象化的方法，所述非文本内容包括对象，所述方法包括：通过以下方式将所述非文本内容的对象对象化：确定所述对象的标签，其中，所述标签以原生文件格式来限定所述对象的一部分；以及创建包括所述对象和所述标签的对象化对象；基于所述对象化对象来生成包括所述对象化对象的组成信息的元数据，其中，所述组成信息的至少部分是能够由原生应用针对原生文件进行搜索的文本数据；以及生成包括附有所述元数据的所述对象化对象的新的原生文件。

【技术特征摘要】
2014.12.31 US 14/588,165;2014.12.31 US 14/588,1941.一种用于将非原生文件内的非文本内容对象化的方法，所述非文
本内容包括对象，所述方法包括：
通过以下方式将所述非文本内容的对象对象化：
确定所述对象的标签，其中，所述标签以原生文件格式来限定所
述对象的一部分；以及
创建包括所述对象和所述标签的对象化对象；
基于所述对象化对象来生成包括所述对象化对象的组成信息的元数
据，其中，所述组成信息的至少部分是能够由原生应用针对原生文件进行
搜索的文本数据；以及
生成包括附有所述元数据的所述对象化对象的新的原生文件。
2.根据权利要求1所述的方法，其中，所述非原生文件是物理文档，
并且所述原生文件是OOXML文件。
3.根据权利要求1所述的方法，其中，所述对象化对象能够以原生
方式被编辑，并且其中，所述元数据能够被搜索。
4.根据权利要求1所述的方法，其中，所述对象是图形对象，并且
其中，所述元数据描述所述对象的图形类型以及所述对象在所述非原生文
件中的页面上的位置。
5.根据权利要求1所述的方法，还包括：
从用户接收所述新的原生文件的文件格式，其中，确定所述标签部分
地基于该文件格式。
6.根据权利要求1所述的方法，其中，确定所述标签还包括：
将所述对象与多个模板进行比较，所述多个模板中的每个模板与来自
所述原生文件的文件格式的原生标签相对应。
7.根据权利要求1所述的方法，其中，从扫描仪获得所述非原生文
件。
8.一种用于将非原生文件内的非文本内容对象化的系统，所述非文
本内容包括对象，所述系统包括：
计算机处理器；以及
对象化器，所述对象化器在所述计算机处理器上执行并且被配置成：
通过以下方式将所述非文本内容的对象对象化：
确定所述对象的标签，其中，所述标签以原生文件格式来限
定所述对象的一部分；以及
创建包括所述对象和所述标签的对象化对象；
基于所述对象化对象来生成包括所述对象化对象的组成信息的
元数据，其中，所述组成信息的至少部分是能够由原生应用针对原生
文件进行搜索的文本数据；以及
生成包括附有元数据的所述对象化对象的新的原生文件。
9.根据权利要求8所述的系统，其中，所述非原生文件是物理文档，
并且所述原生文件是OOXML文件。
10.根据权利要求8所述的系统，其中，所述对象化对象能够以原生
方式被编辑，并且其中，所述元数据能够被搜索。
11.根据权利要求8所述的系统，其中，所述对象是图形对象，并且
其中，所述元数据描述所述对象的图形类型以及所述对象在所述非原生文
件中的页面上的位置。
12.根据权利要求8所述的系统，其中，所述对象化器还被配置成：
从用户接收所述新的原生文件的文件格式，其中，确定所述标签部分

\t地基于该文件格式。
13.根据权利要求8所述的系统，其中，确定所述标签还包括：
将所述对象与多个模板进行比较，所述多个模板中的每个模板与来自
所述原生文件的文件格式的原生标签相对应。
14.根据权利要求8所述的系统，还包括：
扫描仪，所述扫描仪被配置成获得所述非原生文件。
15.一种用于文档发现的方法，包括：
接收包括非文本对象的文档的物理拷贝的扫描件；
确定所述非文本对象的第一标签，其中，所述第一标签限定原始文件
中的所述非文本对象的一部分；
基于所述第一标签来生成包括所述非文本对象的组成信息的非文本
对象元数据；
使用所述非文本对象元数据来搜索存储在数据储存库中的多个电子
文档，其中，所述多个...

【专利技术属性】
技术研发人员：柯·史蒂文·泰居，
申请(专利权)人：柯尼卡美能达美国研究所有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人