一种生僻字标准化的处理方法、系统及相关产品技术方案

技术编号:30432976 阅读:39 留言:0更新日期:2021-10-24 17:28
本发明专利技术公开了一种生僻字标准化的处理方法、系统及相关产品,本方案通过云端配置并加载标准字库;云端接收文字信息并进一步与云端的标准字库进行动态检测、智能纠错匹配、应用处理及信息反馈;根据应用场景要求可实现与常规字一样的生僻字的输出、显示、打印带字体文件的标准化文本信息,以适应与具体设备的无关性。本发明专利技术采用基于文字编码标准化,提高了文字信息的规范性、可靠性和可信性。本发明专利技术所述方法通过对生僻字按常规文字编码的标准化智能识别、动态匹配和自动处理,使得生僻字可支持多端传输、显示和打印等常规应用,具有标准、规范、可靠、简单实用、应用设备无关性、使用范围广等特点,极具广泛的推广使用价值等。极具广泛的推广使用价值等。

【技术实现步骤摘要】
一种生僻字标准化的处理方法、系统及相关产品


[0001]本申请涉及计算机
,尤其涉及生僻字标准化的处理技术。

技术介绍

[0002]在计算机技术发展过程中,电子文件得到广泛的应用,电子文件中的各种文字、字符基本都是通过终端输入的方式录入进去的。由于不常见的文字(简称生僻字,含自造字等)、字符(诸如外文)应用推广存在诸多的问题,其影响的因素较多,如输入工具、承载的电子文件格式、显示工具、打印工具等。因此,绝大部分的输入工具支持度较差;虽然部分输入工具做了优化(如搜狗输入法),但是标准遵从性方面较差,甚至有的通过自造字方法进行录入(如WORD自造字)。总的来说,主要有存在以下局限性:
[0003](1)缺乏统一的编码标准,通用性、兼容性不好;
[0004](2)普通打印设备不能打印(承载文件格式不能使用字库);
[0005](3)第三方系统不能正确识别相应的文字(如识别为其它文字、无法识别等),造成电子文件流转可能存在一定的问题。
[0006]因此,针对以上的相关问题,常规的解决方法:
[0007](1)更新或提升现有的软硬件设备,使之支持GBK字符集的处理,甚至是Unicode字符集的处理;
[0008](2)对于超出GBK之外的生僻字通过输入工具升级、设计开发、升级相关系统软件的办法而使用更大的汉字字符集。
[0009]总之,虽然通过软硬件升级等方式,虽然在一定程度上可以解决输入、显示、打印等问题,但其成本高昂,且若不符合标准,则进一步造成共享应用非常困难

技术实现思路

[0010]针对现有生僻字标准化处理技术所存在的问题,本专利技术的目的在于提供一种生僻字标准化的处理方案,本专利技术从字符编码标准出发,通过检测识别、智能纠错匹配、应用处理和错误反馈等形式,从根本上解决字符编码不统一造成的各类应用问题。
[0011]为了达到上述目的,本专利技术提供一种生僻字标准化的处理方法,该处理方法包括:
[0012]云端配置并加载标准字库;
[0013]云端接收业务系统的文字字符集及编码信息并进一步与云端配置的标准字库进行检测识别、智能纠错匹配、应用处理及信息反馈;
[0014]从云端配置的标准字库中可正确识别文字的生僻字,并为之生成相应的、可为浏览器或文字显示软件加载使用的生僻字字体文件;
[0015]按业务系统设置的目标文件的格式要求,将字体文件以嵌入方式存放在目标文件中,并实时动态生成符合目标格式要求的文件,其中,目标文件格式可为浏览器显示的页面文件、版式文件和流式文件等等;
[0016]从云端标准字库中无法正确识别的生僻字文字,将所包含的生僻字字体、字型和
编码等相关错误信息反馈给发送端,进行标准化确认,确认无误后发送端进行相应的字体处理,并可进一步通过云端按生僻字二次标准化进行检测处理,使得生僻字的文字编码符合国际通用标准,可实现跨系统、跨层级、跨平台正常显示、使用。
[0017]进一步地,所述云端配置的标准字库,可统一为一个标准字库或划分为常用字库信息和生僻字字库信息,其中,生僻字含自造字。
[0018]进一步地,所述处理方法中,当云端接收到文字信息后,包括:
[0019](1)根据接收到的文字信息按照字符进行解码,获取到字符的编码值;
[0020](2)根据接收到的文字字符的编码值,按云端的标准字库为基准对字符编码值进行标准化检测,并确定字符编码值是否属于指定字体所覆盖的区域、或生僻字所覆盖的区域;
[0021](3)编码值属于指定字体所在编码值区域内则检测正确,则根据具体应用场景进行常规字体应用处理;编码值不属于指定字体所在编码值区域内则检测不正确,则可进一步与云端生僻字字库进行字型匹配,即进行字的形状匹配,并可识别出对应的编码值,则根据具体应用场景进行生僻字字体应用处理;对于无法从生僻字库中识别出其字型及相应编码值的字符,则进入信息反馈,将其字型及字符编码值等信息反馈给业务系统。
[0022]进一步地,所述方法中对可正确识别并应用的文字,根据需求生成仅含已正确检测到的生僻字字符的字体文件,其他非生僻字的文字则统一按标准常规字体文件进行生成处理。
[0023]进一步地,所述处理方法中按目标文件的格式要求处理字体文件,字体文件以嵌入方式存放在相应的目标文件结构中。
[0024]进一步地,所述的嵌入方式,包括以生成版式文件的嵌入字体方式、以生成HTML文件的WEB字体嵌入等字体方式,并通过字体嵌入方式,实现生僻字字符同常规字符一样的应用。
[0025]进一步地,所述处理方法中按目标文件的格式要求处理字体文件,根据目标文件中的文字内容的检测结果实时动态生成符合目标格式要求的字体文件信息,将字体文件信息与目标文件信息形成一个物理文件或数据信息。
[0026]进一步地,所述处理方法针对不可正确识别并应用的文字,发送端确认相应的错误信息后,可由发送端重新按生僻字标准化要求进行编码处理,再发送到云端进行标准化检测处理;
[0027]若云端标准化检测处理确认不在生僻字字库中的文字,,云端按自造字的自定义字符编码格式进行标准化处理:
[0028]按文字的字型及字符编码值检测其自定义编码值,其编码值在生僻字库中不存在,则将其字型及字符编码值等字体信息录入到自定义字体文件中;文字的编码值及字型信息在生僻字库中已存在,则反馈二次检测错误信息,将其对应的字型及字符编码值等信息反馈给业务系统;
[0029]根据业务系统设置的目标文件格式要求,将生僻字文字信息生成仅含生僻字字符的字体文件;
[0030]根据业务系统设置的目标文件格式要求,将上述生成仅含生僻字字符的字体文件嵌入到目标文件;
[0031]按业务系统设定的目标格式文件要求生成包含生僻字的字体文件等信息的目标文件。
[0032]为了达到上述目的,本专利技术提供了一种生僻字标准化的处理系统,所述处理系统配置成执行上述生僻字标准化的处理方法的步骤。
[0033]为了达到上述目的,本专利技术提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述生僻字标准化的处理方法的步骤。
[0034]为了达到上述目的,本专利技术提供了一种处理器,所述处理器用于运行程序,所述程序运行时执行上述生僻字标准化的处理方法的步骤。
[0035]为了达到上述目的,本专利技术提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,所述程序代码由所述处理器加载并执行以实现上述生僻字标准化的处理方法的步骤。
[0036]为了达到上述目的,本专利技术提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行上述生僻字标准化的处理方法的步骤。
[0037]本专利技术提供的生僻字标准化的处理方案,通过对生僻字按常规文字编码的标准化智能识别、动态匹配和自动处理,使得生僻字可支持多端传输、显示和打印等应用,具有标准化、简单实用、应用设备无关性、使用范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.生僻字标准化的处理方法,其特征在于,所述处理方法包括:云端配置并加载标准字库;云端接收业务系统的文字字符集及编码信息并进一步与云端配置的标准字库进行检测识别、智能纠错匹配、应用处理及信息反馈;从云端配置的标准字库中可正确识别的生僻字文,并为之生成相应的、可被加载使用的生僻字字体文件;按业务系统设置的目标文件的格式要求,将字体文件以嵌入方式存放在目标文件中,并实时动态生成符合目标格式要求的文件;从云端标准字库中无法正确识别的生僻字文字,将所包含的生僻字字体、字型和编码的错误信息反馈给发送端,进行标准化确认,确认无误后发送端进行相应的字体处理,并进一步通过云端按生僻字二次标准化进行检测处理,使得生僻字的文字编码符合国际通用标准。2.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述云端配置的标准字库,可统一为一个标准字库或划分为常用字库信息和生僻字字库信息,所述生僻字含自造字。3.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法中,当云端接收到文字信息后,包括:(1)根据接收到的文字信息按照字符进行解码,获取到字符的编码值;(2)根据接收到的文字字符的编码值,按云端的标准字库为基准对字符编码值进行标准化检测,并确定字符编码值是否属于指定字体所覆盖的区域、或生僻字所覆盖的区域;(3)字符编码值属于指定字体所在编码值区域内则检测正确,则根据具体应用场景进行常规字体应用处理;编码值不属于指定字体所在编码值区域内则检测不正确,则可进一步与云端的生僻字库进行字型匹配,并可识别出对应的编码值,则根据具体应用场景进行生僻字字体应用处理;对于无法从生僻字库中识别出其字型及相应编码值的字符,则进入信息反馈,将其字型及字符编码值等信息反馈给业务系统。4.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述方法中对可正确识别并应用的文字,根据需求生成仅含已正确检测到的生僻字字符的字体文件,其他非生僻字的文字则统一按标准常规字体文件进行生成处理。5.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法中按目标文件的格式要求处理字体文件,字体文件以嵌入方式存放在相应的目标文件结构中。6.根据权利要求1或5所述的生僻字标准化的处理方法,其特征在于,所述的嵌入方式,包括以生成版式文件的嵌入字体方式、以生成HTML文件的WEB字体嵌入...

【专利技术属性】
技术研发人员:夏东山翁雷刘春香张伟鑫孔家顺
申请(专利权)人:上海浩霖汇信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1