一种自动辨识文字编码的装置及其方法制造方法及图纸

技术编号:2834582 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动辨识文字编码的装置与方法,该自动辨识文字编码装置包括编码数据库、读取模块、比对模块、判别模块及转换模块,转换模块中设有编码对照表以及撷取器;编码数据库和读取模块分别与比对模块连接,比对模块和判别模块相连,判别模块与转换模块连通。编码数据库储存对应于复数个编码方式的复数个编码资料;读取模块依据编码方式之一的内定编码读取文件,并由文件的编码与内定编码不符的部分产生差异段落;比对模块将异段落与编码资料进行比对,产生复数个符合程度;判别模块依据符合程度的最高者,判别为编码方式之一的原始编码;转换模块将差异段落由原始编码转换为内定编码,以显示文件的全部。

【技术实现步骤摘要】

本专利技术是一种辨识文字编码的装置与方法,特别是一种自动辨识文字编 码的装置与方法。
技术介绍
随着电子信息快速发展,掌上型电子消费产品所提供的便捷性,使掌上 型电子消费产品日趋受到大众的青睐。掌上型电子消费产品的种类繁多,包括电子辞典、掌上型计算机(Handheld Personal Computer, HPC)、个人数 字助理(Personal Digital Assistant, PDA)等。同时,使用者对掌上型 电子消费产品所能提供的功能要求也愈来愈高。因此,未来掌上型电子消费 产品是否能以使用者的需求为导向,提供功能越多使用上愈便利,实已成为 掌上型电子消费产品能否成功打入市场的重要筹码。掌上型电子消费产品通常具有一显示屏,可让使用者通过该显示屏阅读 多种文本文件。但目前文字编码种类繁多,即使是读取纯文字文件,也需事 先在系统设定中选定好开启档案的文字编码方式,否则读入的文字文件会成 为乱码而无法正确显示。此种状况在需要打开编码各异的多个文字文件时, 就变得非常麻烦。例如,要分别开启一个BIG 5编码的文字文件、 一个GB 编码的文字文件、以及一个UTF-8编码的文字文件,前后可能必须分别到 系统设定中做三次设定才行。所以当这些掌上型电子消费产品用来阅读文件时,例如Textviewer、 MP3 LRC歌词等,因文件和产品主机使用的文字编码方式可能会有所不同, 造成主机会显示为乱码,使得使用者无法正常阅读。此时,使用者必须如上 所述,自行判断文件属于何种编码方式,将文件重新制作成相同编码方式的档案,或者通过相关转换软件进行手动转换。加上,如果遇到重叠编码的文 字一般也无法做到正确的转换,所以即使文件经过转换后,仍无法正确的显 示文字。这个问题浪费了使用者大量的时间,也造成使用者使用上的不便。 因此,如何让使用者在通过掌上型电子消费产品来阅读文件时,不论阅 读何种文字编码的文件,都可以正常显示而方便阅读,是本领域的研究人员 需要亟待解决的问题。
技术实现思路
本专利技术的目的在于,提出一种自动辨识文字编码的装置与方法,让掌上 型电子消费产品可以自动辨识所导入文件的文字编码,而自动转换为该产品 可以正常显示的文字编码。所以,使用者不再需要手动转换,不论阅读何种 文字编码的文件,都可以正常显示而方便阅读。为了实现上述任务,本专利技术采取如下的技术解决方案 一种自动辨识文字编码的装置,其特征在于,该装置包括 一编码数据库,用于储存对应于复数个编码方式的复数个编码资料; 一读取模块,用于依据编码数据库的编码方式之一的内定编码读取文 件,并由文件的编码与内定编码不符的部份产生差异段落,其中,内定编码 为正确显示字符的文字编码;一比对模块,用于将差异段落与编码资料进行比对,产生复数个符合程度;一判别模块,用于依据符合程度中最高者,由编码方式判别原始编码; 所述的原始编码就是读取模块所读取文件的差异段落的编码方式;一转换模块,将差异段落由原始编码转换为内定编码,以显示文件的全 部;该转换模块中设有编码对照表以及撷取器;编码数据库和读取模块分别与比对模块连接,比对模块和判别模块相 连,判别模块与转换模块连通。所述的编码方式为繁体中文编码BIG5、简体中文国标码GB、韩文编码 Unified Hangul Code,或各国为其各种不同文字所设定的文字编码方式。所述的产生差异段落是当文件的编码与内定编码不符时,表示该文件有 部份或全部无法正确的显示会成为乱码。上述自动辨识文字编码的装置的自动辨识文字编码的方法,其特征在 于,具体包括下列步骤读取模块依据编码方式之一的内定编码读取文件,并由文件的编码与内 定编码不符的部份产生差异段落,其中,内定编码为正确显示字符的文字编 码;当文件的编码与内定编码不符时,表示该文件有部份或全部无法正确的 显示会成为乱码,该部分称为产生差异段落;比对模块将差异段落与编码资料进行比对,产生复数个符合程度;判别模块依据符合程度中最高者,由编码方式判别原始编码,该原始编 码就是读取模块所读取文件的差异段落的编码方式;最后,转换模块将差异段落由原始编码转换为内定编码,以显示文件的 全部,将差异段落的原始编码转换为正确显示的内定编码,将原本是乱码的 文件部分转换为正确的显示。当任何编码的文件经过本专利技术的自动辨识文字编码装置后,都可以正确 的显示让使用者可顺利阅读文件。附图说明图1是本专利技术的自动辨识文字编码装置的示意图。 图2是本专利技术的自动辨识文字编码的方法流程图。 图3A、图3B为本专利技术的实施例示意图。上述附图标记分别表示10、自动辨识文字编码装置,20、编码数据库, 30、读取模块,40、比对模块,50、判别模块,60、转换模块,62、编码对 照表,64、撷取器,110、文件。以下结合附图和专利技术人给出的较佳实施例对本专利技术作进一步的详细说明。具体实施例方式参见图l,该图为本专利技术的自动辨识文字编码装置的示意图,该自动辨识文字编码装置10包括编码数据库20、读取模块30、比对模块40、判 别模块50及转换模块60。转换模块60中设有编码对照表62以及撷取器64;编码数据库20和读取模块30分别与比对模块40连接,比对模块40和 判别模块50相连,判别模块50与转换模块60连通。编码数据库20储存对应于复数个编码方式的复数个编码资料。其中, 编码方式所包含的范围有,例如BIG 5(繁体中文编码)、GB (简体中文国 标码)、Unified Hangul Code (韩文编码)、S-JIS (日文编码)等,以及各国 为其各种不同文字所设定的文字编码方式。因此,每对应一种编码方式就储 存有一种编码资料。其中,编码资料包含范围资料与重叠资料。范围资料包含编码方式的编码分布范围。由于电子产品的处理器只能对 数字作加减乘除等运算,因此要让处理器处理文字必须给予每个文字一个编 号,也就是所谓的文字编码。再将文字编码的数字代替文字提供给处理器作 处理,这样,处理器才能发挥文字处理的功能。所以,各种不同的编码方式 分别具有对其文字的编码分布范围,也就是文字编码的数值分布范围,在此 称为范围资料。重叠资料包含编码方式中重叠编码所对应的词组。由于各国在编制文字 编码时,并没有约定好分配各自的专属编码范围。所以,各种不同文字编码 之间会有重叠编码的情形产生。例如,文字编码47811在BIG 5编码为"移" 字,在GB编码为"好"字。也就是说,文字编码47811同时被BIG 5编码 与GB编码所采用,造成所谓的重叠编码。当遇到重叠编码时,造成难以判 断属于何种编码方式。所以,本专利技术中的「重叠资料」储存编码方式中重叠编码所对应的词组,针对重叠编码的部份,储存各种不同编码方式的常用语、 成语、固定搭配等词组。因此,当遇到重叠编码时,只要与重叠数据中所储 存的词组加以比对,便可判断出其编码方式。读取模块30依据编码方式的的内定编码读取文件110,并由文件110 的编码与内定编码不符的部份产生差异段落。每一种掌上型电子消费产品都 有其特定的内定编码,该内定编码为可正确显示字符的文字编码。例如,台湾销售的掌上M"电子消费产品内定编码为BIG5的编码方式f所以只有文件 采用BIG5编码方式时,该电子产品才可以正确显示文字。当该电子产品本文档来自技高网
...

【技术保护点】
一种自动辨识文字编码的装置,其特征在于,该装置包括:一编码数据库,用于储存对应于复数个编码方式的复数个编码资料;一读取模块,用于依据编码数据库的编码方式之一的内定编码读取文件,并由文件的编码与内定编码不符的部份产生差异段落,其中,内定编码为正确显示字符的文字编码;一比对模块,用于将差异段落与编码资料进行比对,产生复数个符合程度;一判别模块,用于依据符合程度中最高者,由编码方式判别原始编码;所述的原始编码就是读取模块所读取文件的差异段落的编码方式;一转换模块,将差异段落由原始编码转换为内定编码,以显示文件的全部;该转换模块中设有编码对照表以及撷取器;编码数据库和读取模块分别与比对模块连接,比对模块和判别模块相连,判别模块与转换模块连通。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈淮琰赵崇赵珺
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1