可重用数据标记语言制造技术

技术编号:2868953 阅读:250 留言:0更新日期:2012-04-11 18:40
方法和系统提供一种称作可重用数据标记语言(Reusable Data MarkupLanguage,“RDML”)的计算机标记语言和一种用于提取、操作和查看可以在本地或通过网络(例如,因特网)存储的RDML格式文档和文件的数据查看器。通常,RDML允许对数字进行浏览和操作,这不同于HTML中的文本和图象,并且通过包括描述附属在数字中的数字含义的属性实现此功能。遵循该标记语言的文档将机器可读的文档化与数字和数据封装在一起,并且允许数据查看器充当web浏览器与电子表格的组合体,以自动读取、解释和操作数字数据。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及数据处理系统,特别涉及一种用在数据浏览器和操作器中的计算机标记语言。相关技术目前在因特网上,通常使用称作超文本传输协议(Hypertext TransferProtocol,HTTP)的通信协议进行传输和通信,该协议可以用来传送格式为超文本标记语言(Hypertext Markup Language,HTML)的文件和文档。标记语言是一种嵌入描述文档的结构和行为并且指示web浏览器或其它程序如何显示文档的标记“标签”(特殊的字符序列)的方式。典型地,格式为HTML的文档或网页是混合普通文本和这些标记标签的简单ASCII文本文件。HTML具有为特定目的定义固定标签集的相对受限结构。而且,HTML典型地只对文本和图象工作,并且典型地只指示浏览器如何显示文档浏览器可以读取并且显示字符串,但是并不“理解”数据内容。在一定程度上,HTML浏览器在它们的显示中表现数字,它们仍不被解释为数字—仅仅是文本。因此,HTML文档不是作为“数据”进行解释,而是作为用于显示图象的格式化指令。用户不能在数值数据中“冲浪”,以观看图象、应用变换、组合来自不同网页的数字、或者以可管理的形式将数字载入到电子表格中。在没有剪切-并-粘贴文本、确定数据类型等人工干预的情况下,不能由分析程序直接读取数字。因此,传统分析程序考虑到对抽象数字进行特别的查看和操作(例如,电子表格程序或数据库程序),但是不能直接从在线源读取它们的数据。数据一经输入并解释,这种程序就可以执行对数据的统计分析、结构分析和简单变换。考虑到HTML的受限能力和SGML不同寻常的复杂性,可扩展标记语言(Extensive Markup Language,“XML”)被开发出来用以帮助克服一些这种限制。XML是没有指定标签的自由形式标记语言,它允许开发者开发他们自己的标签,并且,根据特定任务,有效地创建他们自己的标记语言。在XML中,必须根据特定规则组织标签,但是标签的含义是灵活的。不同于HTML,XML描述结构和含义,而不是格式化。因此,不同的专业可以开发它们自己的专业标记语言。例如,如果开发者要用XML创建描述书的标记语言,开发者可以为“标题”、“作者”、和“出版社”创建具有特定含义的标签,这些如果用HTML就不可能。虽然XML自由形式结构允许开发者开发标记语言,但是由于不同用户为不同目的使用标签从而标签的使用没有标准化,因此这种个人化标记语言不能彼此兼容。在今天的商业世界,典型地伴随数据操作的问题经常增加开支和困难。一个这样的问题是经常数据和描述数据的文档化都不是电子格式。数据库和电子表格信息这种传统方法经常要求,任何时候数据要从一个系统传输到另一个系统都需要昂贵的数据库管理员作转换,需要结合任何一种编程任务对打印文档化(documentation)进行昂贵的分析,并且输出很少包含对原始源、结构和创建那个输出的操作的任何指示。在基于PC的系统中,创建数据的文档化传统上留给用户典型地,从用户收集文档化、将它格式化并且将它与数据一起保存,这些工作都没有由机器来完成,从而消除了数据重用的便利性。另一阻碍传统数据库和电子表格效率的障碍是在太低的概念层上计算。典型数值分析程序的计算对电子表格的单个“单元格”或对数据库的单个“记录”进行操作。当涉及很多不同单元格或记录值时,一次分析单个值的操作太慢,并且被证实,成本太高。缺少帮助浏览数字的标准标记语言没有办法在单个图表上读取、自动操作和显示从多个在线源读取的不同类型的数值数据。需要人的干预来识别不同类型的数值数据,并且规范数据,从而让它们可以在图表、图和报表中进行组合和有条理的显示。传统上,当组合一系列不同类型的数据时,显示数值数据的图表格式化需要手工操作。而且,对不同数值数据集之间的关系没有给出可视提示。数据和分析例程没有标准化这一事实进一步阻碍了计算机行业。虽然计算机行业已开发了用于文件格式和函数级接口的标准,但是它尚未开发一种通用数据格式或内容分析标准。这导致了使用不同协议的系统、行业、公司和用户之间昂贵的数据翻译。传统电子表格的分析例程典型地采用“电子表格宏”的形式。宏本质上是执行经过完好定义、通常受限的任务的短程序。上百万电子表格用户已使用电子表格宏来自动完成涉及在操作他们的电子表格中数字的机械任务。但是在电子表格宏上的巨大投入一般都没有得到充分利用,因为这些宏是“编写一次、使用一次”的软件类型;它们很少被其他人使用。当前编程语言和电子表格宏是不可重用或不可移植的至少存在八种原因。其中一个问题是电子表格数据引用通常基于物理位置。假设宏编写者将利率假定放在单元格“C4”中,而另一人的表格将利率假定放在单元格“BR47”中,明确地引用绝对单元格位置C4的宏将不可重用在第二个电子表格中。另一相关问题是电子表格的数字没有描述它们含义的量度或语义指定符。一个电子表格可能以百万美元为单位进行操作,而另一表格以千美元为单位进行操作。没有人的干预不能在两个电子表格中使用同一宏,以挑选出所有的不一致性,并且修改一个电子表格以与另一兼容。作为另一示例,可以编写一个股票价格除以收益来得到P/E比率的宏,但是除了单元格中的词在数字的左边或上边之外,电子表格中的数字没有任何含义。缺少标准位置和词汇表,这些指示符毫无用处。传统电子表格宏的另一问题是缺少文档化。由于宏典型地只能由它们的创建者对为其创建该宏的单个电子表格进行使用,因此它们倾向于是完全没有文档化的没有普通语言描述、没有帮助文件、对于允许值、源联系列表、授权信息等没有数据标准。而且,对于宏没有规模发布的机制。电子表格宏不是web(万维网)友好的它们通常受限于一种牌子的电子表格和一个平台,不支持超链接,并且不能由搜索引擎进行搜索。另外,它们还不被目录或分类系统支持,并且没有完备市场。更进一步,用户典型地在他们所编写的宏中不包括单元测试,合法性测试,错误处理和其他终端用户保护。这样,用户对可能要加入到他们的电子表格的宏的输出不得不小心。传统电子表格宏在制作数据的图形界面上存在困难。外来宏的终端用户不想理解每一个单元格和位置约束,对允许输入的合法值的每一个限制等。缺少相关图形组件进一步加剧了这一问题。最后,传统电子表格宏太小而不具有市场价值,或太难于使用而找不到大量用户。这样的结果是对它们的编写缺少商业刺激。因此克服上述问题和其他相关问题是理想的。概要本专利技术的方法和系统提供一种称作可重用数据标记语言(Reusable DataMarkup Language,“RDML”)的标记语言,它允许对数字进行浏览和操作,并且提供一种充当Web浏览器与电子表格/分析应用的组合体的相关数据查看器,它可以自动从多个在线源读取数字并且对它们进行操作,而不需要人的干预。使用该标记语言,用户可以使用基于数值的查询浏览在线源,并且数据观看器可以自动地在单个显示上组合和操作多个文档。根据本专利技术的一个实现,提供一种数据处理系统中的方法,其接收第一标记文档和第二标记文档,第一标记文档和第二标记文档均包含数值和反映数值特征的标签。该方法将第一标记文档和第二标记文档自动组合为单个数据集,并且显示该单个数据集。根据另一实现,提供一种数据处理系统中的方法,其接收包含数值的文档,并且接收对数值特征本文档来自技高网...

【技术保护点】
一种数据处理系统中的方法,包括如下步骤:接收包含数值的文档;接收对数值特征的指示,特征包括单位和数量级;和将所接收的指示作为与数值关联的标签加入到文档中,以创建标记文档。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:拉塞尔T戴维斯
申请(专利权)人:伊纽莫雷特索鲁申斯公司
类型:发明
国别省市:US[美国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1