标准化电子文档中字符信息的方法技术

技术编号:2885540 阅读:195 留言:0更新日期:2012-04-11 18:40
一种标准化电子文档中字符信息的方法,包含的步骤为:通过比较电子文档中所用的字体与作为替代字体提供的目标字体集内的字体,自动地生成一个在实际字体代换期间参考的字体比较表;将自动生成的字体比较表提交给用户,让用户修订字体比较表中的错误;根据修订后的字体比较表实际代换电子文档中的字体。它能对各种字体制作的电子文档的信息收集和交换中所用的字符进行标准化,而不损害信号的质量。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种,该方法将电子文档中使用非标准字体集的字符代换为相应的标准字体集的字符。一般来说,选择电子文档中采用的字体是这种文件的制作人员负责的事情。在诸如字处理器的电子文档处理装置中安装的字体,随具体机器的不同而不同,这些机器通常限于只能处理特定的语言。所以,希望制作含有多种语言的文档或者希望使用基本字体集中不含有的字符的文档制作人,只好为这类作为外部字符的字符定义字体,才能在电子文档中使用这种字体。这在对纸件上打印出来的文件的交换中倒不是一个问题,但对于增加因特网上电子文档的交换以及在电子图书馆中登记电子文档的过程中,这却变成了一个主要缺点。要可靠地交换字符信息,电子文档的制作者和读者必须有相同的字体集和字符码。然而,在每个平台上能使用的字体集是不同的-信息交换中所用的格式(诸如经过因特网线路的格式)不同,在电子图书馆内部或者公司内部的集中式文件(centralized files)中存储的数据的格式不同,鉴于这种现状,有必要对字符信息所用的标准字体进行标准化。在相关的电子文档制作系统中,字体代换已经是可能的事情,但是在这种代换中,字符码信息要原封不动地保存,只是字体信息要用另一种字体代换。例如,外部字符字体通常被定义为独立的字体,通常要由字符的定义的顺序来决定字符的索引。所以,即使使用大型字体集-例如包括全世界主要的字符(包括一般电子文档制作系统不支持的涉及数千字的JIS辅助汉字集)的统一代码(Unicode)字体,也不能进行字体代换,原因是字体内部的字符索引(字符编码)是不同的。用户在代换字体时就只得手工地改动电子文档内字符码的码值。为此,用户就需要知道原始电子文档中使用的字体索引和对应于要被代换的字符的字符的索引。当在电子图书馆中收集电子文档时,所收集文档的制作者的数量是个不断增长的数字,所以,要存储所有文档中使用的字体集并存储字体集内字符的索引,以便能每次一个地手工对文档进行标准化,实际上是不可能的。结果,就在相关技术中处理电子文档的字符信息的电子图书馆和公司内部的集中式文件来说,一直只有唯一的选择,即原样地收集文档,基本上放弃对电子文档进行标准化的的努力。因此,由于电子文档的制作者与使用者之间的环境差别,就会出现不能识别的字符。这就为电子文档的交换带来不便,意味着限于0级(Tier-0)资源等的系统不能对其它系统制作的电子文档进行显示和处理。在已公开的公开号为319854/95(Hei7-319854)的日本专利中,披露了一种有效地制作和传播外部字符字体文件的外部字符管理系统。然而这个技术是用于管理封闭网络环境中的外部字体的,不能应用于作为本专利技术目的的对电子文档中字符信息的标准化。本专利技术就是打算要解决上述问题,本专利技术的一个目的是提供一种对电子文档中出现的字符信息标准化的方法,该方法能标准化用因各平台或电子文档制作系统而异的各种字体制作的电子文档的信息收集和转换中所用的字体,同时不损害信息的质量。本专利技术涉及一种,该方法将电子文档中使用非标准字体集的字符代换为相应的字体集的字符,就是说,本专利技术是一种,包含的步骤为自动生成一个在通过将某电子文档中使用的字体与要作为替换字体的目标字体集内的字体进行比较而进行的实际字体代换期间被参考的字体比较表;将自动生成的字体比较表提交给用户,让用户修订比较表中的错误;根据修订后的字体比较表实际地代换电子文档中的字体。按照本专利技术,用外部字符制作的电子文档向诸如统一代码字体的标准字体集的转换及含有一些外语段落的电子文档的转换是可能的,对相似字符和外语文档的信息的转换和收集是可能的。在本专利技术的最佳实施例中,在自动生成字体比较表的步骤中,输入构成源的电子文档、电子文档中使用的字体集、用于进行标准化的目标字体集、在上一次转换中建立的比较表、描述限定字符比较的对象的规则集和关于每个汉字偏旁(kanji radical)的映射的规则集的字体对象信息,输出一个字体比较表候选列表。也可以将关于相似字符之间变换的权重信息作为参考文件输出。字体比较表候选列表是以各分组作为元素的列表-分组合有某源字体内的一个字符和与源字体兼容的某目标字体内的几个字符。可以添加该目标字体内的这几个字符的优先级信息。字体比较表可以是以一组源字体集和该源字体集内的字符码与一组目标字体集和该目标字体集内的字符码之间的对应关系作为元素的列表。这些情况的任何一例都可以应用到自动生成字体比较表的步骤。在本专利技术的最佳实施例中,自动生成字体比较表步骤中的字体比较,可以用光学字符识别(OCR)技术自动执行。此外,修订字体比较表中错误的步骤可以是这样的过程,即逐项显示字体比较表的候选列表,用户从候选列表中选择一个字符。输入字体比较表和一个描述源电子文档的结构的规则集,然后就能在字体代换步骤中执行对源电子文档中使用的字体和字符码的标准化。作为替代而提供的字体集可以是统一代码字体的字体集。本专利技术适合这些情况的任何一例中的应用。附图说明图1是表示本专利技术的的原理的流程图。图1是表示本专利技术的的流程图。现在将按照图1来说明本专利技术。首先,执行字体比较表自动生成步骤,以自动生成在实际字体代换期间被参考的字体比较表,具体执行方法是,比较电子文档中所用的字体与要被替换的字体集范围内的字符(字体),以便建立字体比较表的候选列表。下一步,将自动生成的字体比较表提交给用户,用户执行修订字体比较表中错误的字体比较表修订阶段,建立新的字体比较表。最后,执行根据修订后的新的字体比较表实际代换电子文档中的字体的字体代换阶段,获得标准化的电子文档。能采用本专利技术的领域是电子图书馆、文档管理系统、支持诸如PDA等手持式设备(流行的计算环境)的中间服务器、万维网出版和万维网浏览器等等。现在考察一个将包含用户制作的外部字符的电子文档标准化为统一代码字体的案例。在这个案例中,用户不仅需要将用户独立定义的外部字符标准化成统一代码,还需要将常规字符标准化成统一代码。就常规字符而言,由于在用户已经制作的电子文档的字体之间一例如在MS mincho与统一代码字体之间一存在一个字体索引比较表,所以可以根据这个比较表直截了当地进行标准化。本专利技术也可用于外部字符的标准化。首先,对每个外部字体执行字体比较表自动生成阶段,获得每个外部字符的匹配的或相似的统一代码字体,以便建立字体比较表的一个候选列表,暂时作为字体比较表。字体比较表的候选列表一般是对应每个外部字符的若干统一代码字体。下一步,执行字体比较表修订阶段一字体比较表被提供给用户,用户修订比较表中的错误,即用户从候选列表种选择一个字体,如果没有对应某外部字符的统一代码字体,就分配一个相似的统一代码字体,并将其登记作为没有对应字体时的统一代码外部字符。统一代码也支持数千个JIS辅助汉字,这样就能将几乎所有由用户造出的外部字符与统一代码字体对应。最后,根据修改后的字体比较表执行实际代换电子文档中字体的字体代换阶段,获得标准化成统一代码字体的电子文档。下面说明每个阶段的细节。(1)字体比较表自动生成阶段在这个阶段中,输入一个有关作为源文档的电子文档的规则集、该电子文档中所用的字体集、用于进行标准化的目标字体、一个在此后的转换中建立的比较表、限制每个汉字偏旁的字符比较和映射的对象的规则集(“一笔画偏旁”和“两笔本文档来自技高网...

【技术保护点】
一种标准化电子文档中字符信息的方法,包含的步骤为: 通过比较电子文档中所用的字体与作为替代字体提供的目标字体集内的字体,自动地生成一个在实际字体代换期间参考的字体比较表; 将自动生成的字体比较表提交给用户,让用户修订字体比较表中的错误; 根据修订后的字体比较表实际代换电子文档中的字体。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:中居治彦木户彰夫榎本义彦织田哲治
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1