一种简繁转换工具的构建方法及装置制造方法及图纸

技术编号:32858559 阅读:18 留言:0更新日期:2022-03-30 19:33
本申请实施例提供一种简繁转换工具的构建方法及装置,涉及数据处理技术领域,该简繁转换工具的构建方法包括:配置简体字库和繁体字库;然后构建简繁转换数组和繁简转换数组;在简体字库和繁体字库中,获取同一个汉字的简体字和繁体字;再将简体字和繁体字不相同的汉字,确定为目标汉字;最后将目标汉字的繁体字存入简繁转换数组中,以及将目标汉字的简体字存入繁简转换数组中,能够提高简繁转换速度,且转换速率不受简繁体字库大小的影响,在保证转换速率的同时保证转换精度,从而有利于提升简繁转换效率。简繁转换效率。简繁转换效率。

【技术实现步骤摘要】
一种简繁转换工具的构建方法及装置


[0001]本申请涉及数据处理
,具体而言,涉及一种简繁转换工具的构建方法及装置。

技术介绍

[0002]简繁体转换是数据防泄漏安全技术中的重要组成部分。因为中文有简繁体之分,通过对中文文本进行简繁体转换,可以做到最大化检测到违规数据,有效防止数据泄漏。目前对于简繁体转换的主要实现方法是通过创建一个简繁体的hashmap,例如通过C++STL中的map来存储简繁体字库,通过在map结构中查找需要转好的简繁体,然后再替换,实现简繁体转换的功能。然而,在实践中发现,现有方法中,简繁字库越大导致进行查找转化的时间越长,从而降低了简繁转换效率。

技术实现思路

[0003]本申请实施例的目的在于提供一种简繁转换工具的构建方法及装置,能够提高简繁转换速度,且转换速率不受简繁体字库大小的影响,在保证转换速率的同时保证转换精度,从而有利于提升简繁转换效率。
[0004]本申请实施例第一方面提供了一种简繁转换工具的构建方法,包括:
[0005]配置简体字库和繁体字库;
[0006]构建简繁转换数组和繁简转换数组;
[0007]在所述简体字库和所述繁体字库中,获取同一个汉字的简体字和繁体字;
[0008]将所述简体字和所述繁体字不相同的汉字,确定为目标汉字;
[0009]将所述目标汉字的繁体字存入所述简繁转换数组中,以及将所述目标汉字的简体字存入所述繁简转换数组中。
[0010]在上述实现过程中,配置简体字库和繁体字库;然后构建简繁转换数组和繁简转换数组;在简体字库和繁体字库中,获取同一个汉字的简体字和繁体字;再将简体字和繁体字不相同的汉字,确定为目标汉字;最后将目标汉字的繁体字存入简繁转换数组中,以及将目标汉字的简体字存入繁简转换数组中,能够提高简繁转换速度,且转换速率不受简繁体字库大小的影响,在保证转换速率的同时保证转换精度,从而有利于提升简繁转换效率。
[0011]进一步地,将所述目标汉字的繁体字存入所述简繁转换数组中的步骤包括:
[0012]获取所述目标汉字的繁体字的第一编码值,并获取所述第一编码值相对应的第一十进制数值;
[0013]计算所述第一十进制数值与预设数值之间的第一差值;
[0014]根据所述第一差值确定所述目标汉字的繁体字在所述简繁转换数组中的第一位置;
[0015]根据所述第一位置将所述目标汉字的繁体字存入所述简繁转换数组中。
[0016]进一步地,将所述目标汉字的简体字存入所述繁简转换数组中的步骤包括:
[0017]获取所述目标汉字的简体字的第二编码值,并获取所述第二编码值相对应的第二十进制数值;
[0018]计算所述第二十进制数值与预设数值之间的第二差值;
[0019]根据所述第二差值确定所述目标汉字的简体字在所述繁简转换数组中的第二位置;
[0020]根据所述第二位置将所述目标汉字的简体字存入所述繁简转换数组中。
[0021]进一步地,在将所述目标汉字的简体字存入所述繁简转换数组中之后,所述方法还包括:
[0022]获取目标数据中的待检测文字和简繁转换需求;
[0023]根据简繁转需求,将所述简繁转换数组或繁简转换数组确定为应用转换数组;
[0024]根据所述应用转换数组对所述待检测文字进行简繁转换,得到转换文字;
[0025]当检测到所述转换文字为敏感文字时,对所述目标数据进行拦截。
[0026]进一步地,根据所述应用转换数组对所述待检测文字进行简繁转换,得到转换文字,包括:
[0027]获取与所述待检测文字的汉字编码值;
[0028]计算所述汉字编码值与预设数值之间的差值;
[0029]根据所述差值确定所述待检测文字在所述应用转换数组中的位置;
[0030]根据所述位置提取与所述待检测文字对应的转换文字。
[0031]本申请实施例第二方面提供了一种简繁转换工具的构建装置,所述简繁转换工具的构建装置包括:
[0032]配置单元,用于配置简体字库和繁体字库;
[0033]构建单元,用于构建简繁转换数组和繁简转换数组;
[0034]获取单元,用于在所述简体字库和所述繁体字库中,获取同一个汉字的简体字和繁体字;
[0035]确定单元,用于将所述简体字和所述繁体字不相同的汉字,确定为目标汉字;
[0036]第一存入单元,用于将所述目标汉字的繁体字存入所述简繁转换数组中;
[0037]第二存入单元,用于将所述目标汉字的简体字存储所述繁简转换数组中。
[0038]在上述实现过程中,配置单元配置简体字库和繁体字库;然后构建单元构建简繁转换数组和繁简转换数组;获取单元在简体字库和繁体字库中,获取同一个汉字的简体字和繁体字;确定单元再将简体字和繁体字不相同的汉字,确定为目标汉字;最后第一存入单元将目标汉字的繁体字存入简繁转换数组中,第二存入单元将目标汉字的简体字存入繁简转换数组中,能够提高简繁转换速度,且转换速率不受简繁体字库大小的影响,在保证转换速率的同时保证转换精度,从而有利于提升简繁转换效率。
[0039]进一步地,所述第一存入单元包括:
[0040]第一获取子单元,用于获取所述目标汉字的繁体字的第一编码值,并获取所述第一编码值相对应的第一十进制数值;
[0041]第一计算子单元,用于计算所述第一十进制数值与预设数值之间的第一差值;
[0042]第一确定子单元,用于根据所述第一差值确定所述目标汉字的繁体字在所述简繁转换数组中的第一位置;
[0043]第一存储子单元,用于根据所述第一位置将所述目标汉字的繁体字存入所述简繁转换数组中。
[0044]进一步地,所述第二存入单元包括:
[0045]第二获取子单元,用于获取所述目标汉字的简体字的第二编码值,并获取所述第二编码值相对应的第二十进制数值;
[0046]第二计算子单元,用于计算所述第二十进制数值与预设数值之间的第二差值;
[0047]第二确定子单元,用于根据所述第二差值确定所述目标汉字的简体字在所述繁简转换数组中的第二位置;
[0048]第二存储子单元,用于根据所述第二位置将所述目标汉字的简体字存入所述繁简转换数组中。
[0049]本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的简繁转换工具的构建方法。
[0050]本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的简繁转换工具的构建方法。
附图说明
[0051]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种简繁转换工具的构建方法,其特征在于,包括:配置简体字库和繁体字库;构建简繁转换数组和繁简转换数组;在所述简体字库和所述繁体字库中,获取同一个汉字的简体字和繁体字;将所述简体字和所述繁体字不相同的汉字,确定为目标汉字;将所述目标汉字的繁体字存入所述简繁转换数组中,以及将所述目标汉字的简体字存入所述繁简转换数组中。2.根据权利要求1所述的简繁转换工具的构建方法,其特征在于,将所述目标汉字的繁体字存入所述简繁转换数组中的步骤包括:获取所述目标汉字的繁体字的第一编码值,并获取所述第一编码值相对应的第一十进制数值;计算所述第一十进制数值与预设数值之间的第一差值;根据所述第一差值确定所述目标汉字的繁体字在所述简繁转换数组中的第一位置;根据所述第一位置将所述目标汉字的繁体字存入所述简繁转换数组中。3.根据权利要求1所述的简繁转换工具的构建方法,其特征在于,将所述目标汉字的简体字存入所述繁简转换数组中的步骤包括:获取所述目标汉字的简体字的第二编码值,并获取所述第二编码值相对应的第二十进制数值;计算所述第二十进制数值与预设数值之间的第二差值;根据所述第二差值确定所述目标汉字的简体字在所述繁简转换数组中的第二位置;根据所述第二位置将所述目标汉字的简体字存入所述繁简转换数组中。4.根据权利要求1所述的简繁转换工具的构建方法,其特征在于,在将所述目标汉字的简体字存入所述繁简转换数组中之后,所述方法还包括:获取目标数据中的待检测文字和简繁转换需求;根据简繁转需求,将所述简繁转换数组或繁简转换数组确定为应用转换数组;根据所述应用转换数组对所述待检测文字进行简繁转换,得到转换文字;当检测到所述转换文字为敏感文字时,对所述目标数据进行拦截。5.根据权利要求4所述的简繁转换工具的构建方法,其特征在于,根据所述应用转换数组对所述待检测文字进行简繁转换,得到转换文字,包括:获取与所述待检测文字的汉字编码值;计算所述汉字编码值与预设数值之间的差值;根据所述差值确定所述待检测文字在所述应用转换数组中的位置;根据所述位置...

【专利技术属性】
技术研发人员:杨竣
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1