用于电子表格模式提取的方法和系统技术方案

技术编号:9864868 阅读:174 留言:0更新日期:2014-04-02 21:53
本发明专利技术涉及一种用于电子表格模式提取的方法和系统。本发明专利技术的各方面提供了一种用于从电子表格提取模式的工具。在一个实施例中,检索以未编目表格格式(例如电子表格)存储的一组数据。检查所检索的一组数据的结构以便确定其数据集模式。然后,分析所述数据集模式中的数据元素以便获得有关所述数据元素的信息。根据数据集模式和元素信息,可以构造允许远程访问所述一组数据的接口。

【技术实现步骤摘要】
用于电子表格模式提取的方法和系统
本专利技术的主题一般地涉及数据检索。更具体地说,本专利技术的各方面提供一种用于从电子表格(spreadsheet)提取模式(schema)的工具。
技术介绍
随着信息技术的日益流行,其作为存储和检索数据方式的有用性变得广为重视。计算机提供了存储数据的能力,而这种存储使用纸质存储解决方案需要的物理空间的一部分。此外,访问基于计算机的数据可以明显缩短数据的检索时间。为了便于基于计算机的存储,开发了多种不同类型的存储范式。如可以理解的,这些范式可以在特性(例如使用的简单性和可用性)方面明显不同。例如,数据库型存储解决方案可以提供互相链接的数据和/或索引,它们便于访问和/或解释数据。但是,初始化数据库型存储解决方案所需的时间和知识可能使某些用户望而却步。相比之下,基于简单表的数据存储解决方案(例如电子表格)提供一种介质,其对于经验不太丰富的用户来说具有更大的易用性,但这有时可能以数据可访问性为代价。
技术实现思路
本专利技术的【专利技术者】发现:在基于表的存储解决方案(例如电子表格)中,可以改进当前的访问数据方式。具体地说,允许用户以多种不同方式使用电子表格的灵活性会在尝试无需人为干预而访问存储在其中的数据时产生困难。例如,因为不需要用户定义数据字段、使用标准化数据结构和/或提供可以由其它人访问的数据定义,所以对于访问数据的某人来说,解释检索的数据变得困难。在此方面,如果给出一组未知的电子表格,则没有任何方式可用于查询电子表格以获得需要的数据集。此外,即使两个不同的电子表格可能具有相关的信息,但一个人创建的电子表格可能具有不同的格式、不同的数据类型、不同的命名约定等,它们使得彼此结合地使用电子表格成为一个难题。总体上,本专利技术的各方面提供一种用于从电子表格提取模式的工具。在一个实施例中,检索以未编目表格格式(例如电子表格)存储的一组数据。检查所检索的一组数据的结构以便确定其数据集模式。然后,分析所述数据集模式中的数据元素以便获得有关所述数据元素的信息。根据数据集模式和元素信息,可以构造允许远程访问所述一组数据的接□。本专利技术的第一方面提供一种用于提取电子表格模式的方法,包括:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。本专利技术的第二方面提供一种用于提取电子表格模式的系统,包括至少一个执行方法的计算机设备,所述方法包括:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。本专利技术的第三方面提供一种存储在计算机可读存储介质上的计算机程序产品,当执行所述计算机程序产品时,执行一种用于提取电子表格模式的方法,包括:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。本专利技术的第四方面提供一种部署用于提取电子表格模式的应用的方法,包括:提供一种计算机基础架构,其可操作以:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。此外,用于在计算机系统中实现本专利技术教导的服务提供者可以对本专利技术的任何组件进行部署、管理、服务等。本专利技术的各实施例还提供相关的系统、方法和/或程序产品。【附图说明】从以下结合附图的对本专利技术的不同方面的详细描述,将更容易地理解本专利技术的这些和其它特性,这些附图是:图1示出根据本专利技术的实施例的一个示例性计算机系统;图2示出根据本专利技术的实施例的表格数据集;图3示出根据本专利技术的实施例的针对表格数据集使用逐行扫描的图示;图4示出根据本专利技术的实施例的针对表格数据集进一步使用逐行扫描的图示;图5是示出根据本专利技术的实施例的对表格数据集进行后续访问的流程图;以及图6示出根据本专利技术的实施例的一个实例流程图。附图不一定按比例。附图仅是示意性表示,并非旨在描绘本专利技术的特定参数。附图旨在仅示出本专利技术的典型实施例,因此不应被视为限制本专利技术的范围。在附图中,相似编号表示相似元素。【具体实施方式】如上所述,本专利技术的各方面提供一种用于从电子表格提取模式的工具。在一个实施例中,检索以未编目表格格式(例如电子表格)存储的一组数据。检查所检索的一组数据的结构以便确定其数据集模式。然后,分析所述数据集模式中的数据元素以便获得有关所述数据元素的信息。根据数据集模式和元素信息,可以构造允许远程访问所述一组数据的接口。转到附图,图1示出用于提取电子表格模式的示例性环境100。在此方面,环境100包括计算机系统102,其可以执行在此描述的过程以便提取电子表格模式。具体地说,计算机系统102被示为包括计算设备104,其包括模式提取程序140,模式提取程序140使计算设备104可操作以通过执行在此描述的过程而提取电子表格模式。计算设备104被示为包括处理组件106 (例如,一个或多个处理器)、存储器110、存储系统118 (例如,存储层次结构)、输入/输出(I/O)组件114 (例如,一个或多个I/O接口和/或设备)和通信路径112。通常,处理组件106执行至少部分固定在存储器110中的程序代码,例如模式提取程序140。在此方面,处理组件106可以包括单个处理单元,或者跨一个或多个位置中的一个或多个处理单元分布。存储器110还可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置(存储装置118)和/或提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置118检索代码的次数的高速缓冲存储器(未示出)。因此,存储器110可以包括任何已知类型的临时或永久数据存储介质,包括磁介质、光介质、随机存取存储器(RAM)、只读存储器(ROM)、数据高速缓存、数据对象等。此外,类似于处理组件116,存储器110可以驻留在单个物理位置处(包括一种或多种类型的数据存储装置),或者以各种形式跨多个物理系统分布。当执行程序代码时,处理组件106可以处理数据,这可以导致从存储器110和/或I/o组件114读取转换后的数据和/或将转换后的数据写入到存储器110和/或I/O组件114以供进一步处理。路径112在计算机系统102中的每个组件之间提供直接或间接通信链路。I/O组件114可以包括一个或多个人类I/O设备,这使个人用户120能够与计算机系统102和/或一个或多个通信设备交互,以使系统用户120能够使用任何类型的通信链路与计算机系统102通信。在此方面,模式提取程序140可以管理一组接口(例如,图形用户界面(多个)、应用程序接口等),它们使个人和/或系统用户120能够与模式提取程序140交互。用户120可以包括系统管理员和/或需要查询和/或提供查询和/或对表格数据集200 (图2)进行其它访问的客户等本文档来自技高网...

【技术保护点】
一种用于提取电子表格模式的方法,包括:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。

【技术特征摘要】
2012.09.12 US 13/611,2581.一种用于提取电子表格模式的方法,包括:检索以未编目表格格式存储的一组数据;检查所述一组数据的结构以便确定所述一组数据的数据集模式;分析所述数据集模式中的数据元素以便获得元素信息;以及使用所述数据集模式和所述元素信息构造接口以便远程访问所述一组数据。2.根据权利要求1的方法,其中所述表格格式包括电子表格。3.根据权利要求1的方法,其中所述检查进一步包括:标识所述一组数据中具有连续数据的矩形区域;确定所述矩形区域中的数据元素的逻辑定向;确定所述矩形区域中的所述数据元素的一组标题标识符;以及确定所述数据元素的数据类型信息。4.根据权利要求3的方法,其中所述标识进一步包括:对所述一组数据执行逐行扫描;以及在遇到与所述连续数据直 接相邻的没有数据的行时,设置所述矩形区域的边界。5.根据权利要求4的方法,其中确定所述一组标题标识符进一步包括:分析与所述边界相邻的数据位置的内容;判定一组所述数据位置是否包含文本数据;以及将所述文本数据与已知的标题标识符相比较,以便判定所述文本数据是否包括所述矩形区域的一组标题标识符。6.根据权利要求5的方法,其中所述比较将...

【专利技术属性】
技术研发人员:M·A·伯尼亚段松云A·B·福库恩库彻A·凯门西斯迪斯K·斯里尼瓦斯M·J·沃德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1