基于视觉相似性的文本匹配方法及装置、介质、设备制造方法及图纸

技术编号：37123573 阅读：18 留言：0更新日期：2023-04-01 05:19

本说明书实施例提供了一种基于视觉相似性的文本匹配方法及装置、介质、设备。方法包括：接收待匹配文本；将所述待匹配文本输入至预先训练的视觉表征模型中，得到所述待匹配文本的视觉表征向量；计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度；根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度，确定所述待匹配文本的视觉相似文本。本发明专利技术能够识别出文本的视觉相似性变种。相似性变种。相似性变种。

全部详细技术资料下载

【技术实现步骤摘要】
基于视觉相似性的文本匹配方法及装置、介质、设备

[0001]本说明书一个或多个实施例涉及风险治理
，尤其是涉及一种基于视觉相似性的文本匹配方法及装置、介质、设备。

技术介绍

[0002]文本视觉相似性变种是自然语言处理领域中的一种新型对抗性攻击，通常用于逃避社交媒体中的内容审核或被用于逃避监管的制裁扫描系统。例如，将idot写作“！d10t”，再例如，使用形态非常相似的西里尔字母
‘
a
’
(Unicode即统一码为1072)替代拉丁字母
‘
a
’
(Unicode即统一码为97)。常用的文本匹配方法往往在字符维度或语义维度对两个文本进行比较，难以识别这种视觉相似性攻击的变种，会造成不良内容传播或受制裁主体漏过监管合规风险。

技术实现思路

[0003]本说明书一个或多个实施例描述了一种基于视觉相似性的文本匹配方法及装置、介质、设备，能够识别出文本的视觉相似性变种。
[0004]根据第一方面，提供了一种基于视觉相似性的文本匹配方法，包括：
[0005]接收待匹配文本；
[0006]将所述待匹配文本输入至预先训练的视觉表征模型中，得到所述待匹配文本的视觉表征向量；
[0007]计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度；
[0008]根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度，确定所述待匹配文本的视觉相似文本。<...

【技术保护点】

【技术特征摘要】
1.一种基于视觉相似性的文本匹配方法，包括：接收待匹配文本；将所述待匹配文本输入至预先训练的视觉表征模型中，得到所述待匹配文本的视觉表征向量；计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度；根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度，确定所述待匹配文本的视觉相似文本。2.根据权利要求1所述的方法，其中，所述视觉表征模型中包括处理支路，所述处理支路包括依次连接的嵌入层、编码器和全连接头，其中：所述嵌入层用于将一个文本中的每一个字符转换为对应的嵌入式表征向量；所述编码器用于将该文本的各个字符对应的嵌入式表征向量转换成该文本对应的编码向量；所述全连接头用于将该文本对应的编码向量进行降维，得到该文本对应的视觉表征向量。3.根据权利要求2所述的方法，其中，所述视觉表征模型中包括三个相同的所述处理支路；在应用所述视觉表征模型时，将所述待匹配文本输入至所述三个处理支路中的任意一个处理支路中，得到所述待匹配文本的视觉表征向量；在训练过程中，将训练文本、所述训练文本的正样本和所述训练文本的负样本输入至三个处理支路中，得到三个视觉表征向量；三个处理支路通过训练使得所述训练文本的视觉表征向量和所述正样本的视觉表征向量之间的相似性最大化且所述训练文本的视觉表征向量和所述负样本的视觉表征向量之间的相异性最大化；其中，所述训练文本的正样本为所述训练样本的视觉相似文本，所述训练文本的负样本为所述训练文本的非视觉相似文本。4.根据权利要求3所述的方法，其中，所述视觉表征模型中还包括三元损失函数，所述三元损失函数用于综合评价所述训练文本的视觉表征向量和所述正样本的视觉表征向量之间的相似性和所述训练文本的视觉表征向量和所述负样本的视觉表征向量之间的相异性。5.根据权利要求4所述的方法，其中，所述...

【专利技术属性】
技术研发人员：陈珺，孙清清，张天翼，邹泊滔，何茂林，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人