用于识别演示数据流中的复杂文本的方法和系统技术方案

技术编号:2929176 阅读:165 留言:0更新日期:2012-04-11 18:40
提供了用于识别和处理复杂文本的系统和方法。如果演示数据流包含复杂文本串,则在演示数据流中在复杂文本串前插入预选控制。第一参数具有表示用于控制复杂文本的控制类型的值,以及第二参数具有用于允许和禁止复杂文本的处理的一个或多个值。在处理复杂文本的过程中,响应于演示数据流中的第一预定类型控制,如果允许第一类型复杂文本处理,则将该处理应用于演示数据流中的继第一预定类型控制之后的复杂文本串。第一预定类型控制包括由用于控制第一类型复杂文本处理的相应值表示的第一参数。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及打印系统领域,并且更具体地说,涉及用于处理包括不一定以码点和字形(glyph)间的一对一映射呈现(render)的字符串的复杂文本的打印系统。本专利技术还涉及下述US专利申请(在此引入以供参考)2003年6月20日申请的、公开号为2004 0257591A1(序列号10/601,025;代理卷号BLD920030006US1)、名为“METHOD ANDSYSTEM FOR RENDERING UNICODE COMPLEX TEXT DATAIN A PRINTER”的美国专利申请。
技术介绍
计算机系统能够以几种方法生成包括视频输出和“硬拷贝”或打印输出的输出信息。尽管越来越多的输出由很快消失的视频屏幕组成,但是大量的数据仍然被打印在纸和其他永久介质上。因此,需要有效地描述打印数据,然后根据打印描述来打印硬拷贝页。打印通常由接收编码的打印数据流并利用能存储命令和数据的“智能”打印机的高速、高容量的打印系统执行。这种编码的打印流通常包括用于许多打印页的数据。例如,电话公司可以用单个打印流打印特定周内的所有电话清单。打印流中的每一页可以是用于一个特定客户的电话清单。现代企业数据处理环境中的这种打印和演示(presentation)系统通常支持以多种语言的文档呈现。被称为Unicode的编码标准定义了能表示所有世界语言、包括非罗马语言、诸如中文、日文和北印度语的全面的字符表示。(Unicode标准是由加利福尼亚州芒廷维尤(Mountain View)市的Unicode Consortium公布的。)Unicode标准能编码一百万个以上的字符。然而,呈现所有世界语言的能力对打印和演示系统提出了另外的挑战。某些语言组、例如阿位伯语、印度语和泰国语可以包括所谓的复杂文本,其中,传统的一码点对一字形的呈现可能不适用了。由于几种原因,复杂文本会在字符串中出现。语言可能是双向的,由此打印方向在串的中间会发生切换。例如,在阿拉伯语和希伯来语中,从右到左书写字母字符,以及从左到右书写数字。导致出现复杂文本的其他语言特性包括上下文相关的字符形状或位置、连字、没有Unicode码点(但在字体中存在字形)的特殊形式、以及取决于上下文对字符进行的拆分或组合。处理复杂文本因此是语言相关的,并且通常采用排版引擎来分析文本和生成用于呈现的适当的字形索引和字形位置。特别地,可以由打印机中的排版引擎执行对Unicode复杂文本的处理。(参见上述引用的共同拥有的美国专利申请,其公开号为20040257591A1(序列号10/601,025),名为“METHOD AND SYSTEM FORRENDERING UNICODE COMPLEX TEXT DATA IN APRINTER”,该申请在此引入以供参考)。这样做具有下述优点在打印流中保存Unicode文本,进而允许对打印流中的Unicode文本进行排序、搜索、索引等。然而,调用打印机中的排版引擎可能是处理密集的,由此会不利地影响打印机性能。因此,在现有技术中,需要用于控制Unicode复杂文本的打印的机构,以及需要将与非复杂文本集成的复杂文本的打印进行集成。特别地,在现有技术中,需要用于有选择地调用排版引擎来处理Unicode复杂文本的系统和方法。另外,还需要用于执行下述功能的这种机构如果作业需求不要求适当地呈现复杂文本,则其有选择地禁止在作业提交级呈现复杂文本,以便降低呈现这种文本的成本。
技术实现思路
根据本专利技术的一个实施例,提供了一种识别复杂文本的方法。如果演示数据流包含复杂文本串,则在演示数据流中在复杂文本串前插入预选控制。预选控制对应于用于控制复杂文本的处理的多个参数。每个参数由预选控制中的相应值表示。第一参数具有表示用于控制复杂文本的处理的控制类型的值,以及第二参数具有用于允许和禁止复杂文本的处理的一个或多个值。在另一实施例中,还提供了一种用于处理复杂文本的方法。该方法包括响应于演示数据流中的第一预定类型控制,确定是否允许第一类型复杂文本处理。如果允许第一类型复杂文本处理,则将第一类型复杂文本处理应用于演示数据流中的继第一预定类型控制之后的复杂文本串。第一预定类型控制包括由用于控制第一类型复杂文本处理的第一预定类型控制中的相应值表示的第一参数。以上相当概括地略述了本专利技术的一个或多个实施例的特征和技术优点,以便可以更好地理解下文的本专利技术的详细说明。将在下文中描述本专利技术的另外的、可以形成本专利技术的权利要求主题的特征和优点。附图说明参考附图,通过举例,在下文中,更详细地描述了本专利技术的实施例,其中图1举例说明了根据本专利技术的实施例的打印系统;图2以流程图的形式举例说明了根据本专利技术的实施例、用于识别Unicode数据流中的复杂文本的方法;图3以流程图的形式举例说明了根据本专利技术的实施例、用于处理Unicode复杂文本的方法;图4以流程图的形式举例说明了根据本专利技术的实施例、用于双向(bidi)Unicode文本处理的方法;图5以流程图的形式举例说明了根据本专利技术的实施例、用于Unicode字形处理的方法;图6以流程图的形式举例说明了根据本专利技术的实施例、用于确定文本位置的方法;以及图7以框图的形式举例说明了可以用来执行图3-6中的处理的数据处理系统。具体实施例方式在下面的描述中,阐述了许多具体的细节以提供对本专利技术的全面理解。例如,可以引用特定结构化的字段格式以便举例说明本专利技术的原理。然而,对本领域的技术人员来说,在没有这些具体细节的情况下,也可以实施本专利技术。在其他情况下,以框图形式示出了许多公知电路,以便不会因不必要的细节而使本专利技术不清楚。在极大程度上,已经省略了顾及时间考虑等的细节,因为这些细节对获得本专利技术的全面理解来说是不必要的,并且它们属于相关领域的普通技术人员的知识范围以内。图1举例说明了本专利技术的用于打印由客户计算机102上的应用程序101产生的文档(即“打印文档”)的打印系统100的实施例。在下文中参考图2进一步描述了客户机102的更具体说明。运行在客户机102上的应用程序101生成作为打印文档的格式化的、与平台和设备相关的逻辑描述的数据流。用于打印的数据流的这种逻辑描述的一种已知规范被称为MO:DCA(Mixed Object Document ContentArchitecture,混合对象文档内容体系结构),其在IBM混合对象文档内容体系结构文献号SC31-6802中详细地描述了。特别地,MO:DCA定义了由应用使用来描述用于与其他应用和应用服务互换的文档和对象封套的数据流。在MO:DCA体系结构中,文档表示文档组件分级结构的最高级。页包含构成演示文档、即已经被格式化并用于例如在打印机或显示器上演示的文档的数据对象。数据对象包括将演示的数据和演示它所需的指示。数据对象的例子包括表示由计算机生成的图片的图形对象,表示图像信息、诸如扫描图片的图像对象,和表示文本信息的演示文本对象。根据相应的对象内容体系结构,这些对象表示中的每一个都可以被包含在MO:DCA数据流中。特别地,在下文中,将进一步论述演示文本对象内容体系结构(Presentation Text Obj ect Content Architecture,PTOCA)。(在IBM演示文本对象内容体系结构文本文档来自技高网
...

【技术保护点】
一种识别复杂文本的方法,包括:如果演示数据流包含复杂文本串,则在该演示数据流中在所述复杂文本串前插入预选控制,其中,该预选控制对应于用于控制复杂文本的处理的多个参数,每个参数由预选控制中的相应值表示,第一参数具有表示用于控制复杂文本的处理的控制类型的值,第二参数具有用于允许和禁止复杂文本的处理的一个或多个值。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:雷恩哈德海因里希霍亨塞特里斯科特鲁贝埃里克理查德梅德大卫斯通威塔库鲁马坎卡乌乌马马海斯瓦兰约汉托马斯瓦尔加
申请(专利权)人:普驰有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利