字符转换系统和字符转换方法技术方案

技术编号:11197665 阅读:89 留言:0更新日期:2015-03-26 04:23
本发明专利技术提供了一种字符转换系统,包括:解析单元,解析接收到的数据,确定数据所包含的至少一个字符,并获取至少一个字符中每个字符对应的属性信息;判断单元,对于每个字符,根据属性信息确定字符的字形位图,判断字形位图是否满足预设条件;转换单元,在判断单元判定满足预设条件的情况下,根据属性信息确定字符的初始内码,并根据初始内码对字符进行转换,在判断单元判定不满足预设条件的情况下,根据字形位图识别字符的实际内码,并根据实际内码对字符进行转换。本发明专利技术还提出了一种字符转换方法。通过本发明专利技术的技术方案,能够在字符转换过程中自动修正内码错误,避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种字符转换系统,包括:解析单元,解析接收到的数据,确定数据所包含的至少一个字符,并获取至少一个字符中每个字符对应的属性信息;判断单元,对于每个字符,根据属性信息确定字符的字形位图,判断字形位图是否满足预设条件;转换单元,在判断单元判定满足预设条件的情况下,根据属性信息确定字符的初始内码,并根据初始内码对字符进行转换,在判断单元判定不满足预设条件的情况下,根据字形位图识别字符的实际内码,并根据实际内码对字符进行转换。本专利技术还提出了一种字符转换方法。通过本专利技术的技术方案,能够在字符转换过程中自动修正内码错误,避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。【专利说明】
本专利技术涉及文字处理
,具体而言,涉及一种字符转换系统和一种字符转 换方法。
技术介绍
中文文字有简体字与繁体字之分,然而因为简体字与繁体字之间的差异甚大,造 成了这两种文字的使用者在交流信息上的隔阂。不仅是简体字的使用者在阅读繁体字上 有一定的困难,对于没接触过简体字的繁体字使用者来说,阅读一份简体字文件也只能理 解其中的部分内容。另外,简体字与繁体字所使用的编码也不相同,简体字是用GB (国标) 编码,繁体字则是使用Big5码,因此如果使用者所在的本地端没有装设相应的编解码设备 时,就会有显示乱码的情形发生。 简繁转换工具正是根据此需求产生,无论是网站或文字编辑软件几乎都附有这类 的简繁转化工具,但要正确无误的转换一份简体字或繁体字文件,却并不轻松。通常的简繁 转换是根据简/繁体文字的内码查找相对应的繁/简体文字内码来进行转换,但当遇到内 码错误的情况就会出现转换出的内容与实际大相径庭的情况。这种文字内码与其字形不匹 配的现象称作乱码现象。 乱码现象通常存在于含有内嵌字体数据格式的文档中,比如PDF或ePub等格式的 文档。含有乱码(错误内码)的文档通常是显示正确,而在提取或复制文字时却出现乱码,这 是由于文档在被制作时使用了特殊的字体或内嵌的字体数据经过了非常规的改动,导致文 档无法提供正确的文字内码。另一方面,一部分特殊字体其字形的度量也与一般字体存在 差异,这将导致使用一般字体绘制转换后的文字时可能出现字符大小显示异常的问题。由 于历史原因,这类含有乱码的文档是大量存在的。 为了转换含有乱码的文档,只能重新制作文档,或采用OCR (光学字符识别)的技 术手段将文档逐页识别出文字再进行转换,而这两种方法都需要消耗额外的人力资源。 因此,需要一种新的字符转换技术,能够在字符转换过程中自动修正内码错误,降 低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系 统的负担。
技术实现思路
本专利技术正是基于上述问题,提出了一种字符转换技术,能够在字符转换过程中自 动修正内码错误,降低人力消耗,并避免了鉴定错误文档与修复或重建文档而耗费时间,减 轻了字符转换时系统的负担。 有鉴于此,本专利技术提出了一种字符转换系统,包括:解析单元,用于解析接收到的 数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的 属性信息;判断单元,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判 断所述字形位图是否满足预设条件;转换单元,用于在所述判断单元判定满足所述预设条 件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字 符进行转换,在所述判断单元判定不满足所述预设条件的情况下,根据所述字形位图识别 所述字符的实际内码,并根据所述实际内码对所述字符进行转换。 在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待 转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码 作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误, 减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。 本专利技术还提出了一种字符转换方法,包括:解析接收到的数据,确定所述数据所包 含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;对于所述每个 字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件, 若满足所述预设条件,则根据所述属性信息确定所述字符的初始内码,并根据所述初始内 码对所述字符进行转换,若不满足所述预设条件,则根据所述字形位图识别所述字符的实 际内码,并根据所述实际内码对所述字符进行转换。 在该技术方案中,可以通过判断待转换字符的位图是否满足预设条件,来确定待 转换字符的字体内码是否正确,并在字体内码不正确时,可以识别待转换字符的实际内码 作为转换依据,对待转换字符进行转换,从而实现了在字符转换过程中自动修复内码错误, 减少了鉴定错误文档与修复或重建文档所耗费的时间,达到减轻系统负担的技术功效。 通过以上技术方案,能够在字符转换过程中自动修正内码错误,降低人力消耗,并 避免了鉴定错误文档与修复或重建文档而耗费时间,减轻了字符转换时系统的负担。 【专利附图】【附图说明】 图1示出了根据本专利技术的实施例的字符转换系统的框图; 图2示出了根据本专利技术的实施例的字符转换方法的流程图; 图3示出了根据本专利技术的实施例的字符转换系统的结构图; 图4示出了根据本专利技术的实施例的字符转换方法的具体流程图; 图5示出了根据本专利技术的实施例的判断字形相似度的流程图; 图6A和图6B示出了根据本专利技术的实施例的字形转换的示意图。 【具体实施方式】 为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实 施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施 例及实施例中的特征可以相互组合。 在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可 以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开 的具体实施例的限制。 图1示出了根据本专利技术的实施例的字符转换系统的框图。 如图1所示,根据本专利技术的实施例的字符转换系统100包括:解析单元102,用于 解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每 个字符对应的属性信息;判断单元104,对于所述每个字符,根据所述属性信息确定所述字 符的字形位图,判断所述字形位图是否满足预设条件;转换单元106,用于在所述判断单元 104判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据 所述初始内码对所述字符进行转换,在所述判断单元104判定不满足所述预设条件的情况 下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转 换。 在上述技术方案中,优选地,还包括:相似度确定单元108,用于将所述字形位图 与标准位图进行比较得到字形相似度,根据所述字形相似度确定平均相似度,其中,所述判 断单元104用于判断平均相似度是否大于或等于预设阈值,所述转换单元106,用于在判断 单元104判定平均相似度大于或等于预设阈值时,根据属性信本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201310415209.html" title="字符转换系统和字符转换方法原文来自X技术">字符转换系统和字符转换方法</a>

【技术保护点】
一种字符转换系统,其特征在于,包括:解析单元,用于解析接收到的数据,确定所述数据所包含的至少一个字符,并获取所述至少一个字符中每个字符对应的属性信息;判断单元,对于所述每个字符,根据所述属性信息确定所述字符的字形位图,判断所述字形位图是否满足预设条件;转换单元,用于在所述判断单元判定满足所述预设条件的情况下,根据所述属性信息确定所述字符的初始内码,并根据所述初始内码对所述字符进行转换,在所述判断单元判定不满足所述预设条件的情况下,根据所述字形位图识别所述字符的实际内码,并根据所述实际内码对所述字符进行转换。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐剑波孙浩鹏丁力王海涛耿蕾蕾
申请(专利权)人:北大方正集团有限公司北京方正阿帕比技术有限公司方正信息产业控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1