【技术实现步骤摘要】
信息匹配方法和存储介质
[0001]本申请涉及计算机
,具体而言,涉及一种信息匹配方法和存储介质。
技术介绍
[0002]目前,在图片类风控功能中,通常采用对比学习的双流多模态模型(Contrastive Language
‑
Image Pre
‑
training简称为CLIP)进行信息检索,但是CLIP模型对于长文本的理解能力较差,对于文本信息中相似概念的区分能力较弱,导致信息检索的准确性低的技术问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本申请实施例提供了一种信息匹配方法和存储介质,以至少解决信息搜索准确性低的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种信息匹配方法。该方法可以包括:监测到待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用语义识别模型,其中,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本并结合对比学习训练得到,文本样本用于描述图像样本的图像内容;使用语义识别模型中与待匹配信息对应的特征提取模型,从待匹配信息中提取出语义特征;在数据库中,确定与语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同语义特征的图像。
[0006]根据本申请实施例的一个方面,还提供了一种信息匹配方法。该方法包括:在操作界面上显示待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息 ...
【技术保护点】
【技术特征摘要】
1.一种信息匹配方法,其特征在于,包括:监测到待匹配信息,其中,所述待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用语义识别模型,其中,所述语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本训练得到,所述文本样本用于描述所述图像样本的图像内容;使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征;在数据库中,确定与所述语义特征相匹配的至少一目标图像,其中,所述数据库用于存储匹配了不同语义特征的图像。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述文本样本按照不同文本信息量进行乱序处理,得到所述混淆文本样本,其中,所述文本信息量用于至少确定所述文本样本的语义,所述混淆文本样本的语义不同于所述文本样本的语义。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述混淆文本样本作为所述负样本的语义与所述图像样本的语义之间的第一语义相似度,其中,所述第一语义相似度小于第一语义相似度阈值;获取所述扰动图像样本作为所述正样本的语义和所述图像样本的语义之间的第二语义相似度,其中,所述第二语义相似度大于第二语义相似度阈值;基于所述第一语义相似度和所述第二语义相似度,训练得到所述语义识别模型。4.根据权利要求1所述的方法,其特征在于,所述待匹配信息至少包括待匹配的文本信息,所述方法还包括:获取所述文本信息的至少一扩充文本信息;在所述文本信息和所述至少一扩充文本信息中选择目标文本信息;使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征,包括:使用与所述文本信息对应的文本特征提取模型,从所述目标文本信息中提取出文本语义特征。5.根据权利要求4所述的方法,其特征在于,获取所述文本信息的至少一扩充文本信息,包括:获取所述文本信息的多个关键词;确定所述关键词的风险指标,其中,所述风险指标用于表征所述关键词存在风险的程度;将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息。6.根据权利要求5所述的方法,其特征在于,获取所述文本信息的多个关键词,包括:在知识图谱中,基于所述文本信息的实体的权重,将所述文本信息切分为所述多个关键词,其中,所述知识图谱用于表示多个实体之间的关联关系。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:基于所述目标文本信息的选择次数,对所述知识图谱中所述文本信息的实体的权重进
行调整。8.根据权利要求6所述的方法,其特征在于,将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息,包括:基于所述知识图谱,将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息,其中,所述知识图谱用于表示多个实体之间的关联关系;和/或,基于知识库,将所述多个关键词中所述风险指标高于所述风险指标阈值的所述关键词,转换为所述扩充文本信息,其中,所述知识库用于存储与所述关键词相关联的知识信息。9.根据权利要求4所述的方法,其特征在于,在数据库中,确定与所述语义特征相匹配的目标图像,包括:在所述数据库中,确定与所述文本语义特征之间的相似度大于第三相似度阈值的所述目标图像。10.根据权利要求4所述的方法,其特征在于,所述待匹配信息包括待匹配的文本信息和待匹配的图像信息,使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征,包括:使用与所述...
【专利技术属性】
技术研发人员:洪海文,金炫,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。