基于视觉相似性的文本匹配方法及装置、介质、设备制造方法及图纸

技术编号:37123573 阅读:18 留言:0更新日期:2023-04-01 05:19
本说明书实施例提供了一种基于视觉相似性的文本匹配方法及装置、介质、设备。方法包括:接收待匹配文本;将所述待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度;根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定所述待匹配文本的视觉相似文本。本发明专利技术能够识别出文本的视觉相似性变种。相似性变种。相似性变种。

【技术实现步骤摘要】
基于视觉相似性的文本匹配方法及装置、介质、设备


[0001]本说明书一个或多个实施例涉及风险治理
,尤其是涉及一种基于视觉相似性的文本匹配方法及装置、介质、设备。

技术介绍

[0002]文本视觉相似性变种是自然语言处理领域中的一种新型对抗性攻击,通常用于逃避社交媒体中的内容审核或被用于逃避监管的制裁扫描系统。例如,将idot写作“!d10t”,再例如,使用形态非常相似的西里尔字母

a

(Unicode即统一码为1072)替代拉丁字母

a

(Unicode即统一码为97)。常用的文本匹配方法往往在字符维度或语义维度对两个文本进行比较,难以识别这种视觉相似性攻击的变种,会造成不良内容传播或受制裁主体漏过监管合规风险。

技术实现思路

[0003]本说明书一个或多个实施例描述了一种基于视觉相似性的文本匹配方法及装置、介质、设备,能够识别出文本的视觉相似性变种。
[0004]根据第一方面,提供了一种基于视觉相似性的文本匹配方法,包括:
[0005]接收待匹配文本;
[0006]将所述待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;
[0007]计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度;
[0008]根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定所述待匹配文本的视觉相似文本。<br/>[0009]根据第二方面,提供了一种基于视觉相似性的文本匹配装置,包括:
[0010]文本接收模块,用于接收待匹配文本;
[0011]文本表征模块,用于将所述待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;
[0012]相似计算模块,用于计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度;
[0013]匹配确定模块,用于根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定所述待匹配文本的视觉相似文本。
[0014]根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。
[0015]根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面提供的所述的方法。
[0016]本说明书实施例提供的基于视觉相似性的文本匹配方法及装置、介质、设备,各自
或者组合后具有如下有益效果:
[0017](1)在接收到待匹配文本时,将待匹配文本输入到视觉表征模型,得到对应的视觉表征向量,然后计算该视觉表征向量和待对比列表中的各个文本的视觉表征向量之间的相似度。如果两个视觉表征向量之间的相似度越高,那么对应的两个文本在视觉上看起来越相似,因此根据待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,判断待对比列表中是否存在待匹配文本的视觉相似文本。实际上待匹配文本与待对比列表中对应的视觉相似文本这两个文本互为视觉相似性文本,因此通过以上方法可以确定待匹配文本是否为待对比列表中文本的视觉相似性变种,从而避免不良内容传播或受制裁主体漏过监管合规风险。
[0018](2)在一个实施例中,视觉表征模型中具有三个相同的处理支路,每一个支路用于输入训练文本,一个处理支路用于输入训练文本的正样本,一个处理支路用于输入训练文本的负样本,训练样本、正样本和负样本形成一个样本三元组输入到模型中进行训练,即通过对比表征学习的方式实现模型的训练,可以更好的使两个视觉相似的文本的视觉表征向量之间的相似性越来越大,两个视觉不相似的文本的视觉表征向量之间的相似性越来越小,即有利于模型的训练。
[0019](3)在一个实施例中,采用三元损失函数评估两个视觉相似文本的视觉表征向量之间的相似性和两个视觉不相似文本的视觉表征向量之间的相异性的综合情况,即通过三元损失函数计算得到的损失值评估视觉表征模型的视觉表征性能,进而基于评估情况可以进一步进行模型训练,有利于模型的训练。
附图说明
[0020]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本说明书一个实施例中基于视觉相似性的文本匹配方法的流程示意图;
[0022]图2是本说明书一个实施例中基于视觉相似性的文本匹配装置的结构框图。
具体实施方式
[0023]下面结合附图,对本说明书提供的方案进行描述。
[0024]正如
技术介绍
中所说的,现有技术很难识别出文本的视觉相似性变种,会造成不良内容传播或受制裁主体漏过监管合规风险。
[0025]为此根据第一方面,本说明书实施例提供了一种基于视觉相似性的文本匹配方法,该方法包括在接收到待匹配文本时,将待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;然后计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度,进而根据待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定待比对列表中是否存在待匹配文本的视觉相似文本。
[0026]下面描述以上构思的具体实现方式。
[0027]图1是本专利技术一个实施例中基于视觉相似性的文本匹配方法的流程示意图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,基于视觉相似性的文本匹配方法包括如下步骤S102~S108:
[0028]S102、接收待匹配文本;
[0029]S104、将所述待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;
[0030]S106、计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度;
[0031]S108、根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定所述待匹配文本的视觉相似文本。
[0032]在图1示出的基于视觉相似性的文本匹配方法中,在接收到待匹配文本时,将待匹配文本输入到视觉表征模型,得到对应的视觉表征向量,然后计算该视觉表征向量和待对比列表中的各个文本的视觉表征向量之间的相似度。如果两个视觉表征向量之间的相似度越高,那么对应的两个文本在视觉上看起来越相似,因此根据待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,判断待对比列表中是否存在待匹配文本的视觉相似文本。实际上待匹配文本与待对比列表中对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉相似性的文本匹配方法,包括:接收待匹配文本;将所述待匹配文本输入至预先训练的视觉表征模型中,得到所述待匹配文本的视觉表征向量;计算所述待匹配文本的视觉表征向量与待比对列表中每一个文本的视觉表征向量之间的相似度;根据所述待匹配文本的视觉表征向量分别与待比对列表中各个文本的视觉表征向量之间的相似度,确定所述待匹配文本的视觉相似文本。2.根据权利要求1所述的方法,其中,所述视觉表征模型中包括处理支路,所述处理支路包括依次连接的嵌入层、编码器和全连接头,其中:所述嵌入层用于将一个文本中的每一个字符转换为对应的嵌入式表征向量;所述编码器用于将该文本的各个字符对应的嵌入式表征向量转换成该文本对应的编码向量;所述全连接头用于将该文本对应的编码向量进行降维,得到该文本对应的视觉表征向量。3.根据权利要求2所述的方法,其中,所述视觉表征模型中包括三个相同的所述处理支路;在应用所述视觉表征模型时,将所述待匹配文本输入至所述三个处理支路中的任意一个处理支路中,得到所述待匹配文本的视觉表征向量;在训练过程中,将训练文本、所述训练文本的正样本和所述训练文本的负样本输入至三个处理支路中,得到三个视觉表征向量;三个处理支路通过训练使得所述训练文本的视觉表征向量和所述正样本的视觉表征向量之间的相似性最大化且所述训练文本的视觉表征向量和所述负样本的视觉表征向量之间的相异性最大化;其中,所述训练文本的正样本为所述训练样本的视觉相似文本,所述训练文本的负样本为所述训练文本的非视觉相似文本。4.根据权利要求3所述的方法,其中,所述视觉表征模型中还包括三元损失函数,所述三元损失函数用于综合评价所述训练文本的视觉表征向量和所述正样本的视觉表征向量之间的相似性和所述训练文本的视觉表征向量和所述负样本的视觉表征向量之间的相异性。5.根据权利要求4所述的方法,其中,所述...

【专利技术属性】
技术研发人员:陈珺孙清清张天翼邹泊滔何茂林
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1