文本变异关系的获取方法和装置制造方法及图纸

技术编号：31582784 阅读：20 留言：0更新日期：2021-12-25 11:26

本说明书实施例提供了一种文本变异关系的获取方法及装置以及真实文本的获取方法及装置。首先，得到变异文本字符；将该变异文本字符转换为第一图像；对转换出的第一图像进行图像变换处理，得到第二图像；对变换处理后得到的第二图像进行OCR识别，得到第二图像对应的OCR识别字符；将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系；根据文本变异关系得到待识别的第一文本字符串对应的第二文本字符串，根据第二文本字符串得到真实文本。本说明书实施例能够更为全面地得到文本变异关系并得到具有更加真实语义的真实文本。语义的真实文本。语义的真实文本。

全部详细技术资料下载

【技术实现步骤摘要】
文本变异关系的获取方法和装置

[0001]本说明书一个或多个实施例涉及网络通信技术，尤其涉及文本变异关系的获取方法和装置、真实文本的获取方法和装置。

技术介绍

[0002]随着网络通信技术的日益发展，在很多业务场景中，会在网络中传输变异文本。比如在内容安全风险防控体系中，一些使用者为了突破防控体系，会尝试对文本进行各种形式的变异，如将文本中的一个原始字符变异为两个字符，从而让内容安全检查系统无法识别出文本的真实含义，躲避内容安全检查。
[0003]目前，通常是人为预先设定文本变异关系，即各原始字符与变异文本字符的映射关系。之后，当需要识别一个文本的真实语义时，可以根据该人为设定的文本变异关系识别出该文本中所包括的变异文本字符并还原成原始字符，得到具有真实语义的真实文本。但是人为设定文本变异关系的方式，使得获取到的文本变异关系不够全面，从而也导致获取的真实文本往往不具有真实语义。

技术实现思路

[0004]本说明书一个或多个实施例描述了文本变异关系的获取方法和装置、真实文本的获取方法和装置，能够更为全面地得到文本变异关系，并得到具有更加真实的语义的真实文本。
[0005]根据第一方面，提供了一种文本变异关系的获取方法，包括：
[0006]得到变异文本字符；
[0007]将该变异文本字符转换为第一图像；
[0008]对转换出的第一图像进行图像变换处理，得到第二图像；
[0009]对变换处理后得到的第二图像进行OCR识别，得到第二图像对应的OCR识别字符；r/>[0010]将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
[0011]所述得到变异文本字符包括：根据已有经验得到之前已经确定的变异文本字符；
[0012]和/或，
[0013]所述得到变异文本字符包括：
[0014]从网络中得到样本数据；
[0015]从样本数据中选取符合如下字符特点的字符，作为变异文本字符：
[0016]不属于汉语字符、英语字符或数字字符的单字符；和/或，在对所述样本数据进行分词后，在所述样本数据中无法成词的连续字符。
[0017]其中，所述从网络中得到样本数据包括：从各种UGC(User Generated Content)数据中提取出样本数据。
[0018]其中，所述对转换出的第一图像进行图像变换处理包括：对转换出的第一图像进
行至少两种图像变换处理，得到至少两个第二图像；
[0019]则对至少两个第二图像分别进行OCR识别，得到至少两个第二图像对应的至少一个OCR识别字符；
[0020]则保存所述变异文本字符与所述至少一个OCR识别字符的映射关系。
[0021]进一步包括：
[0022]对所述第一图像进行OCR识别，得到第一图像对应的OCR识别字符；
[0023]将所述变异文本字符与所述第一图像对应的OCR识别字符的映射关系作为文本变异关系。
[0024]根据第二方面，提供了真实文本的获取方法，包括：
[0025]接收待识别的第一文本字符串；
[0026]对于待识别的第一文本字符串中的每一个字符，均执行：
[0027]在文本变异关系中查找当前字符；如果不能查找到，则在所述第一文本字符串中保留该当前字符；如果能查找到，则从文本变异关系中获取与当前字符对应的OCR识别字符，并用该OCR识别字符替换第一文本字符串中的当前字符；
[0028]根据执行完毕后得到的至少一个第二文本字符串，得到具有真实语义的真实文本。
[0029]其中，所述根据执行完毕后得到的至少一个第二文本字符串得到具有真实语义的真实文本，包括：
[0030]分别计算所述至少一个第二文本字符串的句子概率；
[0031]选择句子概率最大的文本字符串作为具有真实语义的真实文本。
[0032]其中，所述分别计算所述至少一个第二文本字符串的句子概率的步骤进一步包括：计算所述第一文本字符串的句子概率。
[0033]根据第三方面，提供了文本变异关系的获取装置，包括:
[0034]变异字符获取模块，配置为得到变异文本字符；
[0035]转换模块，配置为将该变异文本字符转换为第一图像；
[0036]图像变换模块，配置为对转换出的第一图像进行图像变换处理，得到第二图像；
[0037]OCR字符识别模块，配置为对变换处理后得到的第二图像进行OCR识别，得到第二图像对应的OCR识别字符；
[0038]映射模块，配置为将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
[0039]根据第四方面，提供了真实文本的获取装置，包括：
[0040]上述的文本变异关系获取装置；
[0041]输入模块，配置为接收待识别的第一文本字符串；
[0042]变异识别模块，配置为对于待识别的第一文本字符串中的每一个字符，均执行：在文本变异关系获取装置所获取的文本变异关系中查找当前字符；如果不能查找到，则在所述第一文本字符串中保留该当前字符；如果能查找到，则从文本变异关系中获取与当前字符对应的OCR识别字符，并用该OCR识别字符替换第一文本字符串中的当前字符；
[0043]真实文本确定模块，配置为根据变异识别模块执行完毕后得到的至少一个第二文本字符串，得到具有真实语义的真实文本。
[0044]根据第五方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本说明书任一实施例所述的方法。
[0045]本说明书实施例提供的文本变异关系获取方法及装置，不是人为设定一个变异文本字符与一个原始字符的映射关系，而是通过对变异文本字符的一系列计算机处理来得到变异文本字符与OCR识别字符的映射关系，其中，OCR识别字符即代表了该变异文本字符所替代的原始字符，因此实现了计算机自动获取文本变异关系，解决了人工获取方式的一系列问题。比如，因为计算机处理时，可以进行海量运算，得到的文本变异关系覆盖范围更大，能够更为全面的得到文本变异关系；再如，通过计算机自动获取，可以实时获取最新的文本变异关系，具有自适应能力，对于涌现的新变种字符的泛化能力强。并且，本说明书实施例提供的真实文本获取方法及装置，基于文本变异关系则能得到具有更加真实的语义的真实文本。
附图说明
[0046]为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0047]图1是本说明书一个实施例所应用的业务场景的示意图。
[0048]图2是本说明书一个实施例中文本变异关系的获取方法的流程图。
[0049]图3是本说明本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.文本变异关系的获取方法，包括：得到变异文本字符；将该变异文本字符转换为第一图像；对转换出的第一图像进行图像变换处理，得到第二图像；对变换处理后得到的第二图像进行OCR识别，得到第二图像对应的OCR识别字符；将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。2.根据权利要求1所述的方法，其中，所述得到变异文本字符包括：根据已有经验得到之前已经确定的变异文本字符；和/或，所述得到变异文本字符包括：从网络中得到样本数据；从样本数据中选取符合如下字符特点的字符，作为变异文本字符：不属于汉语字符、英语字符或数字字符的单字符；和/或，在对所述样本数据进行分词后，在所述样本数据中无法成词的连续字符。3.根据权利要求2所述的方法，其中，所述从网络中得到样本数据包括：从各种UGC(User Generated Content)数据中提取出样本数据。4.根据权利要求1所述的方法，其中，所述对转换出的第一图像进行图像变换处理包括：对转换出的第一图像进行至少两种图像变换处理，得到至少两个第二图像；则对至少两个第二图像分别进行OCR识别，得到至少两个第二图像对应的至少一个OCR识别字符；则保存所述变异文本字符与所述至少一个OCR识别字符的映射关系。5.根据权利要求1所述的方法，进一步包括：对所述第一图像进行OCR识别，得到第一图像对应的OCR识别字符；将所述变异文本字符与所述第一图像对应的OCR识别字符的映射关系作为文本变异关系。6.真实文本的获取方法，包括：接收待识别的第一文本字符串；对于待识别的第一文本字符串中的每一个字符，均执行：在文本变异关系中查找当前字符；其中，所述文本变异关系是利用权利要求1至5中任一所述方法得到的；如果不能查找到，则在所述第一文本字符串中保留该当前字符；如果能查找到，则从文本变异关系中获取与当前字符对应的OCR识别字符，并用...

【专利技术属性】
技术研发人员：张睿，赵智源，祝慧佳，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人