编码转换方法技术

技术编号:6681973 阅读:231 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种编码转换方法,用于不同编码点阵字集的辨识及转换。根据该方法,转换装置先读入第一字集,并选取第一字符,接着读取读入第二字集,并选取第二字符。之后,转换装置分别获取属于第一字符的第一笔划及获取属于第二字符的第二笔划。最后,转换装置比对第一字符的第一笔划及第二字符的第二笔划,以确定第一字符及第二字符是否将对应,以输出比对结果。当完成所有第一字符比对后,即可制作出第一字符及第二字符对应关系的编码转换表。

【技术实现步骤摘要】

本专利技术涉及一种,尤其是应用于不同编码方式的点阵字集间的转 换。
技术介绍
在世界上不同的区域皆有当地通用的文字编码方式,但这些不同的编码方式 间,即使是相同的字符,却常常无法正确地转换为另一种编码方式(例如日本的JIS, Shift-JIS,大陆的GB2312,台湾地区的Big5等),尤其是一些衍生出来的编码,可能不同的 出版社或者一些公司会常年按照自己的使用需求增补一些编码。自从Unicode的出现解决了不同区域的统一编码问题,使用Unicode作为数据编 码已经是一种趋势。然而目前有不少公司仍拥有一部分早期的产品或数据采用非Unicode 编码,这些产品及数据有很高的机率无法对应Unicode完成转换。针对这些无法转换为Unicode的编码方式,目前常见的作法是以整个字符进行全 图比对。然而,不同的编码之间,其所采用的字型差异可能相当大,虽然采用字型相近的字 集进行比对,其比对相当不易,再者,图形符号字符的转换相较于文字字符更是不易。
技术实现思路
本专利技术为解决
技术介绍
中存在的上述技术问题,而提出。本专利技术的技术解决方案是本专利技术为一种,用于不同编码点阵字集的 辨识及转换,其特殊之处在于该方法包含以下步骤1)读入第一字集,并选取第一字符;2)读入第二字集,并选取第二字符;3)获取属于第一字符的第一笔划;4)获取属于第二字符的第二笔划;5)比对第一字符的第一笔划及第二字符的第二笔划;6)输出比对结果。上述步骤3)和步骤4)中获取笔划的具体步骤如下a)在各字符的位图中,扫描包含各字符的有效点的矩形范围;b)在矩形范围中建立二维坐标;c)将矩形范围分四个象限;d)根据由上至下,由左至右的原则,分别获取各字符的笔划。上述步骤d)中,根据由上至下,由左至右的原则是在位图中,按照至上而下、由左 至右的规则,由最高及最左点开始作为起点。上述步骤d)中,获取各笔划的步骤包括dl)由起点将扫描方向区分成八个方向上,下,左,右,左上,左下,右上,右下;d2)以起点为中心,沿紧邻八个方向扫描是否有邻近点,由邻近点方向推进至无连接邻近点;d3)完成笔划的扫描,记录笔划的基本笔划分类及所在象限位置。上述步骤d2)中当扫描时发现多个邻近点,则朝向原前进方向扫描前进。上述步骤d)之后还包括步骤e)获得各笔划的基本笔划类型及所在的象限位置。上述步骤5)的具体步骤如下5. 1)建立容许值,界定获取第一笔划与第二笔划始末以及转弯处可容许的杂点数量;5. 2)忽略杂点而不进行比对。上述步骤幻中若第一字符与第二字符相符合,则在步骤6)输出第二字符作为比 对结果。上述步骤幻中若第一字符与第二字符不符合,则重新执行步骤4)及步骤幻,选取 下一个第二字符进行比对。上述第一字符与第二字集比对无相对应第二字符,则输出第一字符至转换错误 表。通过本专利技术提供的,仅有少数的第一字符会无法找到对应的第二字符,而被记录 于转换错误表。仅有记录在转换错误表的第一字符需要通过人工比对,不需以人工逐字比 对每个第一字符与每个第二字符。根据本方法产生的编码转换表,可快速地将以第一字集 记录的电子数据,转换为以第二字集记录的电子数据。附图说明图1为本专利技术流程图2为本专利技术八方向笔划搜寻方法示意图3为本专利技术笔划获取方法示意图(一);图4为本专利技术笔划获取方法示意图(二);图5为本专利技术笔划获取方法示意图(三);图6为本专利技术笔划获取方法示意图(四);图7为本专利技术笔划获取方法示意图(五);图8为本专利技术笔划获取方法示意图(六);图91为本专利技术笔划比对方法示意图(一);图92为本专利技术笔划比对方法示意图(二);图93为本专利技术笔划比对方法示意图(三);图94为本专利技术笔划比对方法示意图(四);图95为本专利技术笔划比对方法示意图(五);图96为本专利技术笔划比对方法示意图(六)。其中,110/120/130/140/150/160-第一字符“机”的第一笔210/220/'230/240/250/260-第二字符“初”的第二笔划,310/320/330/340/350/360-第二字符“ 机”的第二笔划,122/122/132/142-笔划起点,122/122/132/142-笔划终点;具体实施例方式本专利技术应用于转换装置,以进行不同编码字集的辨识及转换。基于字符位图,该转换装置比对不同字集中的字符,以找出不同字集中互相对应的字符。参见图1,本专利技术利用转换装置读入第一字集,并选取第一字符( 印10),接着读 入第二字集,并选取第二字符(Step 20)。其中第一字集中包含多个第一字符,第二字集中 包含多个第二字符。接着转换装置从第一字符中获取属于第一字符的一个或多个第一笔划,并获取第 二字符的一或多个第二笔划,以根据第一笔划及第二笔划,比对第一字符的第一笔划及第 二字符的第二笔划(St印30)。基于方便人们用笔书写,文字型态都是基于方便书写的原则所创造,因此每一个 字符都有其书写顺序,即笔顺。汉字书写顺序通常如下先横后竖、先左后右、先上后下,先 外后里、先撇后捺等基本原则。而汉字的构成可以按照边旁部首拆解,而边旁部首还可以按 照笔划肢解。基于前述笔顺,转换装置在字符的位图中,扫描包含字符的有效点的矩形范围,从 而在该矩形范围中建立二维坐标;接着按照二维坐标将该矩形范围分四个象限。依照中文 书写习惯“由上至下,由左至右”的原则,依照笔顺分别获取该字符的笔划。获取笔划的原则在于,能一笔书写下去,不会使用二笔;所有的笔划构成中尽量先 直行后拐弯。所有笔划一定是按照一个方向或者笔顺由起点书写至终点,不会先两头后中 间,或由中间朝两头书写。笔划依据汉字笔划原则,可大致分类为下列可一笔连成的基本笔划点、圆点,长点,顿点,甩点,上挑点,短横点,短竖点横上仰横,下斜横,长横,拱弧横,短横竖长竖,短竖,左倾竖,右倾竖,左弯竖,右弯竖撇短撇,长撇捺真捺,直捺,拖尾捺,带挑捺,回锋捺挑点挑、斜挑、竖挑、撇挑折圆角折,尖角折,直角折钩藏钩,长尾钩,平钩,圆钩依据上述笔划分类,转换装置先辨识各字符中,各笔划所属的基本笔划分类。在找寻第一个笔划时,在位图中,按照至上而下、由左至右的规则,由最高最左点 开始作为第一个起点111,由起点11连续扩展扫描笔划。笔划的扫描顺序为由上而下、由左 而右、先撇后捺进行扫描顺序。扫描的重点在于取得每一笔划所属的基本笔划分类及所在 的象限位置,扫描顺序依循如图2的米字型态。图2所示为简体中文“机”字符的局部示意图,转换装置由起点111开始,将扫描方向区分成8个方向上B,下F,左H,右D,左上A,左下G,右上C,右下E。若以起点111为 中心,8个方向与起点111恰可形成汉字的米字。转换装置找出起点111之后,以起点111为中心,沿紧邻八个米字方向扫描是否有 邻近点,如果有则朝向该邻近点扫描前进,推进至无连接邻近点,即完成该笔划的扫描,记 录该笔划的基本笔划分类及所在象限位置。若扫描时发现多个邻近点,朝向原前进方向扫 描前进。以下以简体中文“机”字符,说明每个字符的完整扫描过程。参见图3所示,转换装置先找到最左最上的起点111,并得知起点111位于二维坐 标中的第二象限。接着转换装置以起点111为中心,沿紧邻八个米字方向扫描是否有邻近 的点;如果发现邻近点,则朝该邻近点扫描前进,且在具有本文档来自技高网...

【技术保护点】
一种编码转换方法,用于不同编码点阵字集的辨识及转换,其特征在于:该方法包含以下步骤:1)读入第一字集,并选取第一字符;2)读入第二字集,并选取第二字符;3)获取属于第一字符的第一笔划;4)获取属于第二字符的第二笔划;5)比对第一字符的第一笔划及第二字符的第二笔划;6)输出比对结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈淮琰钟辉
申请(专利权)人:无敌科技西安有限公司
类型:发明
国别省市:87

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1