图文发布的方法、模型的训练方法、装置及存储介质制造方法及图纸

技术编号:24575070 阅读:23 留言:0更新日期:2020-06-21 00:15
本申请提供图文发布的方法、模型的训练方法、装置及存储介质,属于计算机技术领域,涉及人工智能和计算机视觉技术,用以提高图文阅览效果。本申请中获取待发布图文的标题图片;获取所述待发布图文的标题图片的语义向量;基于所述待发布图文的标题图片的语义向量,对所述待发布图文的标题图片进行相似度检测;根据相似度检测结果和预设的发布策略,发布所述待发布图文。语义向量对应标题图片中包含的对象,将两张图片的语义向量进行比较,准确的确定出两张图片的相似度检测结果;根据相似度检测结果和预设的发布策略,发布待发布的图文,避免相似图片同时出现的情况,在图文阅览过程中不会出现连续多张相似的图片,提高图文阅览效果。

【技术实现步骤摘要】
图文发布的方法、模型的训练方法、装置及存储介质
本申请涉及计算机技术,提供一种图文发布的方法、模型的训练方法、装置及存储介质。
技术介绍
在互联网快速发展的时代,各种图文发布和分发平台获得了极大的快速发展。将图文通过推荐分发算法直接展现在Feeds消息流中,以便阅览者通过终端中的阅读应用程序或其他应用程序中的阅读功能对图文进行阅览。分发到终端中的图文通常用图片作为封面,图片是图文内容非常重要的一部分,封面图片的样式直接关系到用户看到图文的效果,影响用户的点击转化数据。目前Feeds消息流中的图文对应的封面图片通常是发布者主动挑选的封;若Feeds消息流中所有的图文都采用一样的封面图片,或采用相似的封面图片,在阅览时,终端的显示页面上将连续展示多个包含有相同或相似的封面图片的图文。连续展示多个表意信息重复的图文,影响阅览者的阅览效果,造成视觉疲劳。
技术实现思路
本申请实施例提供一种图文发布的方法、装置及存储介质,用以提高图文阅览效果。第一方面,本申请提供一种图文发布的方法,该方法包括:获取待发布图文的标题图片;获取待发布图文的标题图片的语义向量;基于待发布图文的标题图片的语义向量,对待发布图文的标题图片进行相似度检测;根据相似度检测结果和预设的发布策略,发布待发布图文。在一种可能的实现方式中,获取待发布图文的标题图片的语义向量时:若标题图片为特殊类型图片,则获取标题图片中局部图片的局部语义向量,其中特殊类型图片为目标对象在标题图片中的占比大于设定比值,局部图片为目标对象在标题图片中的位置对应的图片。在一种可能的实现方式中,获取待发布图文的标题图片的语义向量,具体包括:基于已训练的孪生网络模型,获取待发布图文的标题图片的语义向量,其中已训练的孪生网络模型是基于多对样本对对孪生网络模型进行训练生成的,多对样本对中包括正样本对和负样本对,每个正样本对为带相似图片标签的样本,每个负样本对为带非相似图片标签的样本。在一种可能的实现方式中,孪生网络模型的训练过程为:在多对样本对中选取任一样本对,多对样本对中包括正样本对和负样本对,每个正样本对包括带有相似图片标签的两张图片,每个负样本对包括带有非相似图片标签的两张图片;针对选取的任一样本对,获取样本对中的第一图片和第二图片;将第一图片和第二图片,分别输入到孪生网络模型的第一子网络和第二子网络中,获取第一图片的第一语义向量以及第二图片的第二语义向量;根据第一语义向量和第二语义向量,确定第一图片与第二图片的相似度检测结果;根据相似度检测结果与样本对的相似性标签,确定损失值;根据损失值对孪生网络模型的网络参数进行调整,直至损失值收敛至预设的期望值为止,得到已训练的孪生网络模型。在一种可能的实现方式中,已训练的孪生网络模型包括第一子网络和第二子网络,且每个子网络中包括卷积层、池化层以及全连接层,基于已训练的孪生网络模型获取待发布图文的标题图片的语义向量时:基于已训练的孪生网络模型中的任一子网络获取待发布图文的标题图片的语义向量;具体包括:将标题图片的参数信息输入到卷积层中进行卷积处理,获得标题图片的第一特征图,其中参数信息包括像素数据以及通道数;将第一特征图输入到池化层中进行下采样处理,获得第二特征图;将第二特征图输入到全连接层进行特征分类,确定标题图片中包含的语义信息,并将语义信息转换成语义向量。在一种可能的实现方式中,获取待发布图文的标题图片的语义向量后,生成语义向量的索引信息,将语义向量与索引信息对应存储在到向量存储系统中,以更新向量存储系统;其中,索引信息用于指示语义向量对应的标题图片及标题图片所在的图文。在一种可能的实现方式中,将语义向量存储到向量存储系统中:基于已训练的降维网络模型对语义向量进行降维处理,并将降维处理后的语义向量存储到向量存储系统中。在一种可能的实现方式中,降维网络模型的训练过程为:从训练数据集中选取训练样本图片;将训练样本图片输入降维网络模型,得到训练样本图片的输出值;将输出值输入损失函数,并通过反向传播优化降维网络模型的网络参数,直至输出值近似离散值为止,得到已训练的降维网络模型。在一种可能的实现方式中,基于待发布图文的标题图片的语义向量对标题图片进行相似度检测时:若待发布图文包括多张标题图片,则基于待发布图文的每张标题图片的语义向量,对多张标题图片之间的相似度进行相似度检测;和/或基于待发布图文的每张标题图片的语义向量,和历史标题图片的历史语义向量,分别对待发布图文的每张标题图片和历史标题图片之间的相似性进行相似度检测。在一种可能的实现方式中,通过如下方式获取历史标题图片的历史语义向量:将待发布图文的每张标题图片的语义向量发送给向量存储系统,其中向量存储系统中存储有历史标题图片的历史语义向量信息,历史语义向量信息包括:历史语义向量,和用于指示历史标题图片和历史标题图片对应的历史图文的索引信息;接收向量存储系统返回的历史语义向量信息,其中历史语义向量信息是根据语义向量对应的向量召回区间确定的。在一种可能的实现方式中,若待发布图文的多张标题图片中包括相似图片,根据相似度检测结果和预设的发布策略,发布待发布图文时:若待发布图文中除标题图片外包含有其他图片,则基于已训练的孪生网络模型获取其他图片的语义向量;基于其他图片的语义向量与相似图片中任一标题图片的语义向量,对其他图片与标题图片的相似性进行检测;若确定其他图片与标题图片不相似,则使用其他图片替换相似图片中任一标题图片,并发布替换标题图片后的待发布图文。在一种可能的实现方式中,若待发布图文的标题图片和历史标题图片相似,根据相似度检测结果和预设的发布策略,发布待发布图文时:发布待发布图文时,设置待发布图文与历史标题图片的历史图文之间的发布距离大于设定距离,其中历史图文是根据历史标题图片的历史语义向量对应的索引信息确定的。在一种可能的实现方式中,若标题图片为特殊类型图片,基于待发布图文的标题图片的语义向量,对待发布图文的标题图片进行相似度检测时:基于标题图片的局部语义向量确定第一检测结果,以及基于标题图片的语义向量确定第二检测结果;基于第一检测结果和第二检测结果,对待发布图文的标题图片进行相似度检测;若第一检测结果和第二检测结果中存在图片相似的检测结果,则确定图片相似。第二方面,本申请实施例提供一种孪生网络模型训练的方法,孪生网络模型应用于图文发布的方法,该方法包括:构建孪生网络模型,其中孪生网络模型中包含两个相同的子网络,每个子网络包括卷积层、池化层、全连接层,孪生网络模型中还包括损失函数;获取训练过程中的多对样本对,其中多对样本对中包括正样本对和负样本对,每个正样本对包括带有相似图片标签的两张图片,每个负样本对包括带有非相似图片标签的两张图片;本文档来自技高网...

【技术保护点】
1.一种图文发布的方法,其特征在于,该方法包括:/n获取待发布图文的标题图片;/n获取所述待发布图文的标题图片的语义向量;/n基于所述待发布图文的标题图片的语义向量,对所述待发布图文的标题图片进行相似度检测;/n根据相似度检测结果和预设的发布策略,发布所述待发布图文。/n

【技术特征摘要】
1.一种图文发布的方法,其特征在于,该方法包括:
获取待发布图文的标题图片;
获取所述待发布图文的标题图片的语义向量;
基于所述待发布图文的标题图片的语义向量,对所述待发布图文的标题图片进行相似度检测;
根据相似度检测结果和预设的发布策略,发布所述待发布图文。


2.如权利要求1所述的方法,其特征在于,所述获取所述待发布图文的标题图片的语义向量,包括:
若所述标题图片为特殊类型图片,则获取所述标题图片中局部图片的局部语义向量,其中所述特殊类型图片为目标对象在标题图片中的占比大于设定比值或为目标对象属于预设类别,所述局部图片为所述目标对象在标题图片中的位置对应的图片。


3.如权利要求1~2任一所述的方法,其特征在于,获取所述待发布图文的标题图片的语义向量,具体包括:
基于已训练的孪生网络模型,获取所述待发布图文的标题图片的语义向量,其中所述已训练的孪生网络模型是基于多对样本对对孪生网络模型进行训练生成的,多对样本对中包括正样本对和负样本对,每个正样本对为带相似图片标签的样本,每个负样本对为带非相似图片标签的样本。


4.如权利要求3所述的方法,其特征在于,所述孪生网络模型的训练过程,包括:
在多对样本对中选取任一样本对,所述多对样本对中包括正样本对和负样本对,每个正样本对包括带有相似图片标签的两张图片,每个负样本对包括带有非相似图片标签的两张图片;
针对选取的任一样本对,获取所述样本对中的第一图片和第二图片;
将所述第一图片和所述第二图片,分别输入到所述孪生网络模型的第一子网络和第二子网络中,获取所述第一图片的第一语义向量以及所述第二图片的第二语义向量;
根据所述第一语义向量和所述第二语义向量,确定所述第一图片与第二图片的相似度检测结果;
根据所述相似度检测结果与所述样本对的相似性标签,确定损失值;
根据损失值对所述孪生网络模型的网络参数进行调整,直至所述损失值收敛至预设的期望值为止,得到已训练的孪生网络模型。


5.如权利要求3所述的方法,其特征在于,所述已训练的孪生网络模型包括第一子网络和第二子网络,且每个子网络中包括卷积层、池化层以及全连接层,所述基于已训练的孪生网络模型获取所述待发布图文的标题图片的语义向量,包括:
基于所述已训练的孪生网络模型中的任一子网络获取所述待发布图文的标题图片的语义向量;
具体包括:
将标题图片的参数信息输入到所述卷积层中进行卷积处理,获得标题图片的第一特征图,其中所述参数信息包括像素数据以及通道数;
将所述第一特征图输入到所述池化层中进行下采样处理,获得第二特征图;
将所述第二特征图输入到全连接层进行特征分类,确定标题图片中包含的语义信息,并将所述语义信息转换成语义向量。


6.如权利要求3所述的方法,其特征在于,所述获取待发布图文的标题图片的语义向量后,还包括:
生成所述语义向量的索引信息,将所述语义向量与所述索引信息对应存储在到向量存储系统中,以更新所述向量存储系统;
其中,所述索引信息用于指示所述语义向量对应的标题图片及所述标题图片所在的图文。


7.如权利要求6所述的方法,其特征在于,所述将所述语义向量存储到向量存储系统中,包括:
基于已训练的降维网络模型对所述语义向量进行降维处理,并将降维处理后的语义向量存储到所述向量存储系统中。


8.如权利要求7所述的方法,其特征在于,所述降维网络模型的训练过程,包括:
从训练数据集中选取训练样本图片;
将所述训练样本图片输入降维网络模型,得到训练样本图片的输出值;
将所述输出值输入损失函数,并通过反向传播优化所述降维网络模型的网络参数,直至所述输出值近似离散值为止,得到已训练的降维网络模型。


9.如权利要求1~2任一所述的方法,其特征在于,所述基于所述待发布图文的标题图片的语义向量对所述标题图片进行相似度检测,包括:
若待发布图文包括多张标题图片,则基于待发布图文的每张标题图片的语义向量,对多张标题图片之间的相似度进行相似度检测;和/或...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1