【技术实现步骤摘要】
文本处理、同形异码字确定方法、装置和设备
[0001]本文件涉及计算机
,尤其涉及一种文本处理、同形异码字确定方法、装置和设备。
技术介绍
[0002]国际范围内通用的字符集(如unicode)为了兼容多个国家的文字和符号,可能会存在一定的冗余编码情况,例如,两个语言不通的国家可能使用人眼看起来相同的一个字,但是这个字在字符集中却对应了两个编码。计算机在处理文字时,使用的是文字的编码,也即,即便两个文字看起来完全相同,对于计算机来说,二者却是两个不同的字。字形相同但计算机编码不同的两个字被称为同形异码字。
[0003]同形异码字会给后续的与文字处理相关的任务带来很多隐患,比如,在检索任务中,同形异码字会导致文本检索结果不符合预期;在机器学习中,同形异码字可能无法被编码;对于一些依赖光学字符识别(optical character recognition,OCR)技术进行文本识别的软件,可能存在一定程度的错误识别情况,等等。
技术实现思路
[0004]本说明书实施例提供了一种文本处理、同形异码字确 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:获取待处理文本;针对所述待处理文本中的第一字符,确定目标字符集中是否包含所述第一字符,其中,所述第一字符为所述待处理文本中的任一字符,所述目标字符集中的字符能够被后续文本处理任务正确处理;在所述目标字符集中不包含所述第一字符的情况下,确定所述目标字符集中是否存在第二字符,其中,所述第二字符为所述第一字符在所述目标字符集中的同形异码字;在所述目标字符集中存在所述第二字符的情况下,将所述待处理文本中的所述第一字符替换为所述第二字符。2.根据权利要求1所述的方法,所述确定目标字符集中是否包含所述第一字符,包括:根据所述第一字符的编码确定目标字符集中是否包含所述第一字符。3.根据权利要求1所述的方法,所述确定所述目标字符集中是否存在第二字符,包括:获取所述第一字符的编码,并根据所述第一字符的编码渲染出第一图片;获取所述目标字符集中字符的编码,并根据所述目标字符集中的字符的编码渲染出若干第二图片,一张第二图片对应显示所述目标字符集中的一个字符;分别确定所述第一图片与所述若干第二图片的相似度,得到若干相似度;确定所述若干相似度中是否存在大于或等于预设阈值的目标相似度;在所述若干相似度中存在所述目标相似度的情况下,将所述目标相似度对应的第二图片所显示的字符确定为所述第二字符。4.根据权利要求3所述的方法,所述确定所述目标字符集中是否存在第二字符,还包括:在所述若干相似度中不存在所述目标相似度的情况下,则确定所述目标字符集中不存在所述第二字符。5.根据权利要求1所述的方法,所述确定所述目标字符集中是否存在第二字符,包括:确定所述目标字符集对应的同形异码字映射表;确定所述同形异码字映射表中是否包含所述第一字符;在所述同形异码字映射表中包含所述第一字符的情况下,根据所述同形异码字映射表中确定所述第二字符。6.根据权利要求5所述的方法,确定所述目标字符集对应的同形异码字映射表,包括:从原始字符集中选出所述目标字符集;针对所述目标字符集中的第三字符,确定剩余字符集中是否存在与所述第三字符形状相同的第四字符,其中,所述第三字符为所述目标字符集中的任一字符,所述剩余字符集为所述原始字符集中除所述目标字符集外的全部或部分字符形成的字符集;在所述剩余字符集中存在与所述第三字符形状相同的第四字符的情况下,将所述第三字符与所述第四字符对应记录,得到所述目标字符集对应的同形异码字映射表。7.根据权利要求6所述的方法,所述确定剩余字符集中是否存在与所述第三字符形状相同的第四字符,包括:根据所述第三字符的编码渲染出显示有所述第三字符的第三图片;根据所述剩余字符集中字符的编码,渲染出显示有所述剩余字符集中字符的若干第四
图片,其中,所述若干第四图片中的一张图片对应显示所述剩余字符集中的一个字符;分别确定所述第三图片与所述若干第四图片的相似度,得到若干相似度;确定所述若干相似度中是否存在大于或等于预设阈值的目标相似度;在所述若干相似度中存在所述目标相似度的情况下,确定所述剩余字符集中存在与所述第三字符形状相同的第四字符,且所述第四字符为所述目标相似度对应的第四图片所显示的字符。8.根据权利要求7所述的方法,所述确定剩余字符集中是否存在与所述第三字符形状相同的第四字符,还包括:在所述若干相似度中不存在所述目标相似度的情况下,确定所述剩余字符集中不存在与所述第三字符形状相同的第四字符。9.根据权利要求6
‑
8任一项所述的方法,所述原始字符集为任意的字符集。10.根据权利要求9所述的方法,所述原始字符集为国际通用字符集。11.根据权利要求1
‑
8、10中任一项所述的方法,所述目标字符集是根据所述待处理文本的应用环境确定的。12.根据权利要求1
‑
8、10中任一项所述的方法,还包括:根据替换后的待处理文本执行与文字处理相关的任...
【专利技术属性】
技术研发人员:马诗涵,黄文亢,石秋慧,王洪彬,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。