将二维数据转换为标准形式的方法技术

技术编号:2880181 阅读:150 留言:0更新日期:2012-04-11 18:40
提供了一种方法,它可以将二维数据,特别是HTML格式中的信息,转换为一种标准形式以便用音频或其它可视格式进行呈现,其中每个所关心元素的选择是基于它在标准数学表达式中的作用,即任何表示方法均可以用树结构进行语法分析。为完成这个选择过程,先要确定元素的容器的位置,然后按照语法树确定元素的本地线路,以便构造根据这个识别所建立的元素特征标记,并存储以便后面检索和翻译元素值时使用。这样,这些元素能经过适当的语言翻译器呈现给查询者。对发明专利技术进一步优化,本方法可以搜索重复的元素,并只存储一个所选择的重复元素,比如第一个重复的元素。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及将数据定制为一种适于用不同格式表示的表达方式,包括音频和有限可视格式。本专利技术特别涉及从超文本链接标示语言(HTML)格式中选择数据,以便使这些数据适合于用除源格式以外的其它格式进行呈现,如音频或视频格式。目前,在HTML格式中包含大量有价值的信息。但是,HTML主要是设计用来在特定的可视环境进行访问,即通过网络浏览器所应用的图形用户接口进行访问。因此有必要通过其它接口和阅读程序获取HTML上的数据。本专利技术就是要解决这种需求中的关键问题。
技术实现思路
在计算机网络系统中,本专利技术提供了一种方法,它可以将二维数据,特别是HTML格式中的信息,转换为一种标准形式以便用音频或其它可视格式进行呈现,其中每个关心元素的选择是基于它在标准数学表达式中的作用,即任何表示方法均可以用树结构进行语法分析。为完成这个选择过程,先要确定元素的容器的位置,然后按照语法树确定元素的本地线路,以便构造根据这个识别所建立的元素特征标记,并存储以便后面检索和呈现元素值时使用。对本专利技术进一步优化,该方法可以搜索重复的元素,并只存储一个所选择的重复元素,比如第一个重复的元素。本专利技术的一个突出特点是HTML网页可以用标准形式表达。本专利技术的另一个重要特点是只需要选择元素,而不必选择元素的实际值,这样就可以用当前值对它进行动态更新和翻译。为更好地理解本专利技术,下面结合附图,对本专利技术进行详细说明。附图说明图1是根据本专利技术所建立的系统框图,其中应用设计工具来选择和识别HTML页的元素。图2的框图更详细地说明了识别、提取和翻译过程之间的关系。图3A和3B是根据本专利技术具体实施例的方法的流程图。图4为HTML页与处理过程的三元关系框图。具体实施例的详细说明参见图1,本专利技术在万维网的网页范围内进行说明。根据本专利技术,在网络中,首次将需要的网页拷贝到存储装置14后,用交互式设计者工具10定制主服务器12的源网站中以标准数学表达方式写成的网页11,如HTML。存储装置14可以是一个共享的持久存储器,如磁盘驱动器组或其它带有持久存储器的数据库存储装置。通过应用后面所解释的设计者工具,设计者能够从现有的网络应用程序中选择、识别和定制信息,而不必破坏源网络应用程序。为定制各个网页,设计者确定什么本文和提示信息将呈现给用户,特别是对于音频界面为目标的电话呼叫者,需要呼叫者向输入组件提供什么输入数据,以及呼叫者以什么样的次序访问可用音频的网页。设计者建立设计对象16。在具体实施例中设计程序输出的是音频元数据。该元数据用脚本表达,脚本,即此处所说的元素集合,存储在存储装置14的数据库中。运行时引擎利用这个脚本可以使呼叫者与可用音频的网站交互。在操作时,由于交互式设计工具10查询并下载网站的HTML页11,它的作用像主网络服务器12的浏览器。工具10的设计者/用户决定到哪个网页可用音频。对于每个这样的网页,设计者选择将在运行时呈现的信息。设计者可以建立语音提示信息,以要求呼叫者提供网页的输入控制数据。当用户以正确的响应回应提示信息时,设计者还将进一步确定将会识别哪些单词和词组。例如,如果网页有一个挑选一种颜色的下拉式选择列表,提示信息会是“请选择红、白或蓝”。设计者规定呼叫者应说“红”、“白”或“蓝”来进行响应。设计者也可规定音频控制流。在单个网页中,页内流确定阅读文本和发给呼叫者提示信息的次序。页内流还确定用户访问站点中可用音频页的次序。一般情况下,通过站点的音频路径和使用视频浏览器时的视频路径是相似的。用组件提供的设计者工具10是用来建立一套保存在存储装置14中的设计对象。这些对象封装了对于可用音频网站来说所有必需的信息。设计者工具能够从存储装置14中检索这些对象,对它们进行更新,并回存到存储装置。将设计对象16存到存储装置14后,设计者工具10调用发生器18来建立用称作AML的说明语言写成的文本脚本。AML脚本内编入了从设计对象16中提取出的信息,设计对象在运行时会被呈现出来。每个脚本含有相应网页的URL。由于在运行时要使用URL和AML脚本,所以AML脚本也保存在存储装置18中。网页上的值用AML来表示。A.组件选择、识别和定制在设计过程中,组件选择和定制由下面的步骤组成1.从已有的HTML页中选择组件;2.对HTML页中选择出的组件进行识别;3.对HTML页中选择出的组件进行定制;4.通过一种具有能够表示选择和定制组件功能的语言对选择和定制的组件进行说明。上述设计技术是通过用户界面来控制和完成的,而设计者不必关心正确选择、识别和产生AML脚本所需的具体细节和内部算法。B.HTML页中组件的选择和识别图2是对于运行时系统的概念性描述,该系统选择并呈现HTML页上的数据到目标音频呈现语言查看窗。从主网络服务器12检索出网页11后,交给翻译器20,翻译器从共享的持久存储器14中取出相应的AML文档21,生成WML网页23和运行时对象24。设计者13须从HTML页11中用指并向点击的方法选择一些数据,此后称作“组件”17,设计者工具10(见图1)自动地产生唯一的特征标记,以便运行环境通过运行时引擎22在其后的程序中利用该标记从HTML网页中提取实时数据。运行时引擎22与电话服务器26和用户28连接。组件11的特征标记可以由下面的一项或多项内容组成1.组件17在HTML页上的位置。考查下面简单的HTML页(如果在客户计算机上用网络浏览器运行,这些代码会产生一个HTML页)<pre listing-type="program-listing"><!]></pre> 在上面的例子中,如果设计者13(图1)选择整个表T1,且如果它始终是HTML页的第一个表,则表T1能够由它的位置“1”来识别,特征标记为代表“HTML页上的第一个表”的符号。2.组件的属性。考查上面的例子,其中表T1的第二行含有格式Form1。如果设计者13选择Form1,则它能够用它的动作属性唯一地识别。如果对于这个属性来说,仅有这个格式具有值WEBBOT-SELF,则该属性-值对的识别符变为Form1的特征标记。3.组件的祖代关系,即,与某组件相关的网页上其它组件的识别。在前面的例子中,组件的特征标记是由它的特性所决定,如位置或属性-值对,这里有所不同,组件的特征标记能够取决于HTML页中其它组件的识别。任何一个HTML页都能够由标准形式来表示。例如,考查上面的HTML页。如果用语法A(B)来表示在组件A的范围内组件A包含组件B,则上面简单的HTML页能够表示为HTML(T1(tr tr(td(Form1(C1 V1 R1)))))。而且,在标准数学表达式中给定组件的识别取决于包含该给定组件的祖代组件。因此,Form1的识别取决于包含组件的识别,如HTML、表T1,等等。通过递推识别这些包含组件,可以唯一地识别格式Form1。例如,通过容器T1、T1中的第2个tr和第2个tr中的td的识别可以唯一地识别出Form1。这样,格式Form1的特征标记为“寻找最高级容器HTML,在容器HTML中寻找容器表T1,在容器表T1中寻找第二行容器,在该容器中寻找容纳格式Form1的第一个单元”。4.“左”共有属性组件,及其祖代组件的识别。当一个或多个左共有属性组件多本文档来自技高网...

【技术保护点】
在具有源数据存储装置和所述源数据识别程序存储装置的计算机网络系统中,一种将用传统可视格式表示的,且为标准数学表达式一部分的元素源数据,转换为一种标准形式以便用其它格式呈现所述源数据的方法,其它格式包括音频格式和另外一种视频格式,所述转换方法包括:检索做为标准数学表达式格式二维数据的源数据到存储装置;在标准数学表达式的语法分析树中寻找元素的唯一容器;此后按照语法分析树中元素的唯一确定的路径获取元素的特征标记,该特征标记为标准表达方式,该特征标记包括所述唯一容器和所述 唯一本地路径;将所述特征标记存储到存储装置中,以便后面检索和呈现元素值时使用。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:普兰卡什伊耶皮雨什戈尔雷杰夫莫希德雷艾米塔什辛哈帕雷萨德克罗萨普里罗纳德马克沙石维蒂尔
申请(专利权)人:伊维里帕斯公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利