信息匹配方法和存储介质组成比例

技术编号:38261823 阅读:9 留言:0更新日期:2023-07-27 10:21
本申请公开了一种信息匹配方法和存储介质。其中,该方法包括:监测到待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用语义识别模型,其中,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本训练得到,文本样本用于描述图像样本的图像内容;使用语义识别模型中与待匹配信息对应的特征提取模型,从待匹配信息中提取出语义特征;在数据库中,确定与语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同语义特征的图像。本申请解决了信息搜索准确性低的技术问题。低的技术问题。低的技术问题。

【技术实现步骤摘要】
信息匹配方法和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种信息匹配方法和存储介质。

技术介绍

[0002]目前,在图片类风控功能中,通常采用对比学习的双流多模态模型(Contrastive Language

Image Pre

training简称为CLIP)进行信息检索,但是CLIP模型对于长文本的理解能力较差,对于文本信息中相似概念的区分能力较弱,导致信息检索的准确性低的技术问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请实施例提供了一种信息匹配方法和存储介质,以至少解决信息搜索准确性低的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种信息匹配方法。该方法可以包括:监测到待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用语义识别模型,其中,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本并结合对比学习训练得到,文本样本用于描述图像样本的图像内容;使用语义识别模型中与待匹配信息对应的特征提取模型,从待匹配信息中提取出语义特征;在数据库中,确定与语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同语义特征的图像。
[0006]根据本申请实施例的一个方面,还提供了一种信息匹配方法。该方法包括:在操作界面上显示待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;响应作用于操作界面上的匹配操作指令,在操作界面上显示与待匹配信息的语义特征相匹配的至少一目标图像,其中,至少一目标图像为从数据库中确定,语义特征为基于语义识别模型中与待匹配信息对应的特征提取模型从待匹配信息中提取出,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本并结合对比学习训练得到,文本样本用于描述图像样本的图像内容。
[0007]根据本申请实施例的一个方面,还提供了一种信息匹配方法。该方法包括:监测到来自信息匹配平台的待匹配风险信息,其中,待匹配风险信息包括待匹配的风险文本信息和/或待匹配的风险图像信息;调用语义识别模型,其中,语义识别模型为基于将风险文本样本的混淆文本样本作为负样本,以及将风险图像样本的扰动图像样本作为正样本而训练得到,风险文本样本用于描述风险图像样本的图像内容;使用语义识别模型中与待匹配风险信息对应的特征提取模型,从待匹配风险信息中提取出风险语义特征;在数据库中,确定与风险语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同风险语义特征的图像;将至少一目标图像返回至信息匹配平台进行展示,其中,信息匹配平台用于将至少一目标图像传输至终端设备,目标图像对应的风险事件由终端设备进行防控。
[0008]根据本申请实施例的一个方面,还提供了一种语义识别模型的生成方法。该方法包括:获取文本样本和图像样本,其中,文本样本用于描述图像样本的图像内容;生成文本样本的混淆文本样本和图像样本的扰动图像样本;将混淆文本样本作为负样本,以及将扰动图像样本作为正样本,训练得到语义识别模型,其中,语义识别模型包括用于提取输入文本信息的语义特征的特征提取模型,和用于提取输入图像信息的语义特征的特征提取模型。
[0009]根据本申请实施例的一个方面,还提供了一种信息匹配装置。该装置包括:监测单元,用于监测到待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用单元,用于调用语义识别模型,其中,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本并结合对比学习训练得到,文本样本用于描述图像样本的图像内容;提取单元,用于使用语义识别模型中与待匹配信息对应的特征提取模型,从待匹配信息中提取出语义特征;搜索单元,用于在数据库中,确定与语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同语义特征的图像。
[0010]根据本申请实施例的一个方面,还提供了一种信息匹配装置。该装置包括:第一显示单元,用于在操作界面上显示待匹配信息,其中,待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;第二显示单元,用于响应作用于操作界面上的匹配操作指令,在操作界面上显示与待匹配信息的语义特征相匹配的至少一目标图像,其中,至少一目标图像为从数据库中确定,语义特征为基于语义识别模型中与待匹配信息对应的特征提取模型从待匹配信息中提取出,语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本并结合对比学习训练得到,文本样本用于描述图像样本的图像内容。
[0011]根据本申请实施例的一个方面,还提供了一种信息匹配装置。该装置包括:监测单元,用于监测到来自信息匹配平台的待匹配风险信息,其中,待匹配风险信息包括待匹配的风险文本信息和/或待匹配的风险图像信息;调用单元,用于调用语义识别模型,其中,语义识别模型为基于将风险文本样本的混淆文本样本作为负样本,以及将风险图像样本的扰动图像样本作为正样本而训练得到,风险文本样本用于描述风险图像样本的图像内容;提取单元,用于使用语义识别模型中与待匹配风险信息对应的特征提取模型,从待匹配风险信息中提取出风险语义特征;搜索单元,用于在数据库中,确定与风险语义特征相匹配的至少一目标图像,其中,数据库用于存储匹配了不同风险语义特征的图像;展示单元,用于将至少一目标图像返回至信息匹配平台进行展示,其中,信息匹配平台用于将至少一目标图像传输至终端设备,目标图像对应的风险事件由终端设备进行防控。
[0012]根据本申请实施例的一个方面,还提供了一种语义识别模型的生成装置。该装置包括:获取单元,用于获取文本样本和图像样本,其中,文本样本用于描述图像样本的图像内容;生成单元,用于生成文本样本的混淆文本样本和图像样本的扰动图像样本;训练单元,用于将混淆文本样本作为负样本,以及将扰动图像样本作为正样本,训练得到语义识别模型,其中,语义识别模型包括用于提取输入文本信息的语义特征的特征提取模型,和用于提取输入图像信息的语义特征的特征提取模型。
[0013]根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读
存储介质包括存储的程序,其中,在程序被处理器运行时控制计算机可读存储介质所在设备执行信息匹配方法。
[0014]根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,该计算机可执行指令被处理器执行时实现语义识别模型的生成的方法步骤。
[0015]在本申请实施例中,在监测待匹配信息后,调用语义识别模型,并使用语义识别模型中与待匹配信息对应的特征提取模型,从待匹配信息中提取出语义特征,该待匹配信息可以包括待匹配的文本信息/或待匹配的图像信息,从待匹配信息中提取出语义特征之后,可以在数据库中,搜索出与语义特征相匹配的至少一目标图像。其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息匹配方法,其特征在于,包括:监测到待匹配信息,其中,所述待匹配信息包括待匹配的文本信息和/或待匹配的图像信息;调用语义识别模型,其中,所述语义识别模型为基于将文本样本的混淆文本样本作为负样本,以及将图像样本的扰动图像样本作为正样本训练得到,所述文本样本用于描述所述图像样本的图像内容;使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征;在数据库中,确定与所述语义特征相匹配的至少一目标图像,其中,所述数据库用于存储匹配了不同语义特征的图像。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述文本样本按照不同文本信息量进行乱序处理,得到所述混淆文本样本,其中,所述文本信息量用于至少确定所述文本样本的语义,所述混淆文本样本的语义不同于所述文本样本的语义。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述混淆文本样本作为所述负样本的语义与所述图像样本的语义之间的第一语义相似度,其中,所述第一语义相似度小于第一语义相似度阈值;获取所述扰动图像样本作为所述正样本的语义和所述图像样本的语义之间的第二语义相似度,其中,所述第二语义相似度大于第二语义相似度阈值;基于所述第一语义相似度和所述第二语义相似度,训练得到所述语义识别模型。4.根据权利要求1所述的方法,其特征在于,所述待匹配信息至少包括待匹配的文本信息,所述方法还包括:获取所述文本信息的至少一扩充文本信息;在所述文本信息和所述至少一扩充文本信息中选择目标文本信息;使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征,包括:使用与所述文本信息对应的文本特征提取模型,从所述目标文本信息中提取出文本语义特征。5.根据权利要求4所述的方法,其特征在于,获取所述文本信息的至少一扩充文本信息,包括:获取所述文本信息的多个关键词;确定所述关键词的风险指标,其中,所述风险指标用于表征所述关键词存在风险的程度;将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息。6.根据权利要求5所述的方法,其特征在于,获取所述文本信息的多个关键词,包括:在知识图谱中,基于所述文本信息的实体的权重,将所述文本信息切分为所述多个关键词,其中,所述知识图谱用于表示多个实体之间的关联关系。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:基于所述目标文本信息的选择次数,对所述知识图谱中所述文本信息的实体的权重进
行调整。8.根据权利要求6所述的方法,其特征在于,将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息,包括:基于所述知识图谱,将所述多个关键词中所述风险指标高于风险指标阈值的所述关键词,转换为所述扩充文本信息,其中,所述知识图谱用于表示多个实体之间的关联关系;和/或,基于知识库,将所述多个关键词中所述风险指标高于所述风险指标阈值的所述关键词,转换为所述扩充文本信息,其中,所述知识库用于存储与所述关键词相关联的知识信息。9.根据权利要求4所述的方法,其特征在于,在数据库中,确定与所述语义特征相匹配的目标图像,包括:在所述数据库中,确定与所述文本语义特征之间的相似度大于第三相似度阈值的所述目标图像。10.根据权利要求4所述的方法,其特征在于,所述待匹配信息包括待匹配的文本信息和待匹配的图像信息,使用所述语义识别模型中与所述待匹配信息对应的特征提取模型,从所述待匹配信息中提取出语义特征,包括:使用与所述...

【专利技术属性】
技术研发人员:洪海文金炫
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1