结合文本表征的召回方法和系统技术方案

技术编号:37197933 阅读:10 留言:0更新日期:2023-04-20 22:55
本公开涉及一种结合文本表征的召回方法和系统。该方法包括:获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;将所述文本信息转换成第一向量;基于所述第一向量来确定属于同一实体的候选商户对;以及对候选商户对进行打分和排序以输出属于同一实体的商户对。户对。户对。

【技术实现步骤摘要】
结合文本表征的召回方法和系统


[0001]本公开涉及风控领域,尤其涉及结合文本表征的召回方法和系统。

技术介绍

[0002]同一实体控制不同商户对于风险控制而言是重要的参考信息,例如贷款额度、风控内部的关联排白和关联抓黑等等。
[0003]现有的针对属于同一实体的不同商户的召回只是根据身份标识号、邮箱、手机号等信息进行直接关联,对于如文本信息、wifi信息等弱介质利用不充分,不能充分完全地找出具有关联的商户对。
[0004]本公开针对但不限于上述诸多因素进行了改进。

技术实现思路

[0005]基于此,本公开提出了一种综合利用各个维度的信息进行召回的方法和系统,从而能够更充分地挖掘出商户之间的关系。具体而言,作为原有关联召回(即通过电话号码、身份标识号、营业执照等的召回)的替换或补充,本公开的方法和系统创新性地将商户的文本信息(诸如商户的名称、商户的地址、WiFi文本信息等)进行向量化,从而使得正样本(属于同一实体)的表征向量相似度更高、负样本(不属于同一实体)的表征向量相似度更低。由此,可以使用这些文本信息来召回属于同一实体的商户,从而能够找出原先不能挖掘出的属于同一实体的商户。
[0006]本公开的方法和系统综合考虑了关联召回与向量召回,将推荐系统中的多路召回思想应用到商户关系识别中,在原先身份标识、电话号码、邮箱地址等强介质的基础上,新增WiFI关联,同时根据商户名、商户地址以及WiFI文本名称等进行文本向量检索召回,通过多路召回挖掘出原先不能被覆盖的关系对。此外,本公开的方法和系统在训练样本的选取上考虑了跨领域文本关系对,同时运用多任务学习方法综合考虑了Cosine Sentence(余弦句)和无监督对比学习,提高了模型的泛化能力以及通用表达能力,并在现有数据集上取得了更佳结果。同时,本公开的方法和系统还采用了白化降维的方法,将高维度(例如768维度)的文本向量压缩到低维度(例如32维),大大提高了向量检索的效率。
[0007]根据本公开的第一方面,提供了一种结合文本表征的召回方法,包括:获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;将所述文本信息转换成第一向量;基于所述第一向量来确定属于同一实体的候选商户对;以及对候选商户对进行打分和排序以输出属于同一实体的商户对。
[0008]根据一实施例,所述方法还包括获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述方法还包括:在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。
[0009]根据另一实施例,所述文本信息还包括商户登录历史的IP地址序列,并且所述方
法还包括:将所述IP地址序列转换成第二向量;以及基于所述第二向量来确定属于同一实体的候选商户对。
[0010]根据又一实施例,所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。
[0011]根据又一实施例,所述初步模型是孟子模型。
[0012]根据又一实施例,所述训练使用Cosine Sentence方案,并且其中所述Cosine Sentence方案使用如下损失函数:其中λ是超参数,(u
i
,u
j
)和(u
k
,u
l
)是样本对,i、j、k、l是正整数,Ω
pos
是正样本集合,且Ω
neg
是负样本集合,其中所述训练使得对于任意正样本对(u
i
,u
j
)∈Ω
pos
和负样本对(u
k
,u
l
)∈Ω
neg
,都有cos(u
i
,u
j
)大于cos(u
k
,u
l
)。
[0013]根据又一实施例,所述训练还使用对比学习来对所述初步模型进行训练,其中所述对比学习使用SimCSE方案。
[0014]根据又一实施例,所述训练还将所述Cosine Sentence方案的损失函数与所述SimCSE方案的损失函数进行加权,以获得经加权的损失函数。
[0015]根据又一实施例,所述方法还包括采用白化降维来将文本表征模型所输出的向量进行降维。
[0016]根据又一实施例,所述方法还包括应用属于同一实体的商户对来进行风控。
[0017]根据本公开的第二方面,提供了一种结合文本表征的召回系统,包括:获取模块,所述获取模块被配置成获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;文本表征模块,所述文本表征模块被配置成将所述文本信息转换成第一向量;识别模块,所述识别模块被配置成基于所述第一向量来确定属于同一实体的候选商户对;以及输出模块,所述输出模块被配置成对候选商户对进行打分和排序以输出属于同一实体的商户对。
[0018]根据一实施例,所述获取模块还被配置成获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述识别模块还被配置成在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。
[0019]根据另一实施例,所述文本信息还包括商户登录历史的IP地址序列,并且所述文本表征模块被配置还将所述IP地址序列转换成第二向量,所述识别模块还被配置成基于所述第二向量来确定属于同一实体的候选商户对。
[0020]根据又一实施例,所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。
[0021]根据又一实施例,所述初步模型是孟子模型。
[0022]根据又一实施例,所述训练使用Cosine Sentence方案,并且其中所述Cosine Sentence方案使用如下损失函数:其中λ是超参数,(u
i
,u
j
)和(u
k
,u
l
)是样本对,i、j、k、l是正整数,Ω
pos
是正样本集合,且Ω
neg
是负样本集合,其中所述训练使得对于任意正样本对(u
i
,u
j
)∈Ω
pos
和负样本对(u
k
,u
l
)∈Ω
neg
,都有
cos(u
i
,u
j
)大于cos(u
k
,u
l
)。
[0023]根据又一实施例,所述训练还使用对比学习来对所述初步模型进行训练,其中所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合文本表征的召回方法,包括:获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;将所述文本信息转换成第一向量;基于所述第一向量来确定属于同一实体的候选商户对;以及对候选商户对进行打分和排序以输出属于同一实体的商户对。2.根据权利要求1所述的方法,还包括获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述方法还包括:在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。3.根据权利要求1所述的方法,其中所述文本信息还包括商户登录历史的IP地址序列,并且所述方法还包括:将所述IP地址序列转换成第二向量;以及基于所述第二向量来确定属于同一实体的候选商户对。4.根据权利要求3所述的方法,其中所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。5.根据权利要求4所述的方法,其中所述初步模型是孟子模型。6.根据权利要求5所述的方法,其中所述训练使用Cosine Sentence方案,并且其中所述Cosine Sentence方案使用如下损失函数:其中λ是超参数,(u
i
,u
j
)和(u
k
,u
l
)是样本对,i、j、k、l是正整数,Ω
pos
是正样本集合,且Ω
neg
是负样本集合,其中所述训练使得对于任意正样本对(u
i
,u
j
)∈Ω
pos
和负样本对(u
k
,u
l
)∈Ω
neg
,都有cos(u
i
,u
j
)大于cos(u
k
,u
l
)。7.根据权利要求6所述的方法,其中所述训练还使用对比学习来对所述初步模型进行训练,其中所述对比学习使用SimCSE方案。8.根据权利要求7所述的方法,其中所述训练还将所述Cosine Sentence方案的损失函数与所述SimCSE方案的损失函数进行加权,以获得经加权的损失函数。9.根据权利要求8所述的方法,还包括采用白化降维来将文本表征模型所输出的向量进行降维。10.根据权利要求1所述的方法,还包括应用属于同一实体的商户对来进行风控。11.一种结合文本表征的召回系统,包括:获取模块,所述获取模块被配置成获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;文本表征模块,所述文本表征模块被配置成将所述文本信息转换成第一向量;识别模块...

【专利技术属性】
技术研发人员:高培鑫宝鹏庆金宏
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1