【技术实现步骤摘要】
跨媒体大数据的公共语义表示、搜索方法和装置
本专利技术涉及跨媒体大数据领域,特别是指一种跨媒体大数据的公共语义表示、搜索方法和装置。
技术介绍
随着大规模信息网络技术在各领域,比如教育领域的应用,逐步形成和积累了前所未有的大数据资源,包括文本、图像和视频等跨媒体数据等,这些庞大的数据中蕴藏着丰富而有价值的信息。然而面对海量异构多样化的跨媒体大数据,以及数据分布于各类社交网络等多源互联网平台的情况,如果用户希望能在海量数据中搜索到所需的有效信息,传统的信息搜索技术已经难以满足用户日益增长的个性化和精确化的信息获取需求。因此需要提升资源搜索的精准性,充分利用大数据驱动的人工智能技术,深入开展跨媒体大数据智能精准搜索研究具有重要的理论意义和广泛的应用价值。在智能化精准搜索过程中,不再局限于简单的关键词匹配,可根据用户情境与意图进行语义推理演算和匹配,建立知识间的语义关联,使搜索从以网页搜索为粒度转变为以知识为粒度,从而获取更加智慧综合的推荐和搜索结果。另外,各领域产生的跨媒体大数据以及关联情境信息,在语义上呈现出较强的语义 ...
【技术保护点】
1.一种跨媒体大数据的公共语义表示方法,其特征在于,包括:/n提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征;/n确定所述图像和文本的全局语义特征相似性,以及所述图像和文本的局部显著性语义特征相似性;/n联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习,获得跨媒体大数据的公共语义表示。/n
【技术特征摘要】
1.一种跨媒体大数据的公共语义表示方法,其特征在于,包括:
提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征;
确定所述图像和文本的全局语义特征相似性,以及所述图像和文本的局部显著性语义特征相似性;
联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习,获得跨媒体大数据的公共语义表示。
2.根据权利要求1所述的方法,其特征在于,所述联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习,获得跨媒体大数据的公共语义表示,具体包括:
联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习时,最大化不同媒体数据之间的语义关联关系,并最小化媒体内哈希量化后的重构误差,获得跨媒体大数据的公共语义表示。
3.根据权利要求2所述的方法,其特征在于,在所述获得跨媒体大数据的公共语义表示之前,还包括:基于对抗学习进一步增强不同媒体的语义相关性;以及
所述联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习时,最大化不同媒体数据之间的语义关联关系,并最小化媒体内哈希量化后的重构误差,基于对抗学习进一步增强不同媒体的语义相关性,获得跨媒体大数据的公共语义表示的具体方法为:
通过构建如下式一所示的目标损失函数来学习跨媒体关联映射,获得跨媒体大数据的公共语义表示:
minLoss=Lcm+λLhq+γLadv(式一)
其中,Lcm表示自适应交叉熵损失函数,最大化不同媒体之间的关联关系;Lhq表示媒体内二进制哈希量化损失函数,最小化媒体内哈希量化后的重构误差;Ladv表示对抗损失函数,进一步增强不同媒体的语义相关性;λ和γ是设置的权重调节因子;
所述自适应交叉熵损失函数Lcm如式三所示:
其中,表示跨媒体全局语义特征相似性;表示跨媒体局部显著性语义特征相似性;θ是使得网络训练过程中反向传播的自适应sigmoid函数的超参数;和分别表示第i个图像实例的全局语义特征和局部显著性深度语义特征;和分别表示第j个文本实例的全局语义特征和局部显著性深度语义特征;SIMi,j表示图像和文本对之间的相似性;如果两者相似,则SIMi,j=1,否则SIMi,j=0;
所述媒体内二进制哈希量化损失函数Lhq,如式四所示:
其中,M为码书个数,Cm为表示第m个码书,表示第i个图像实例v的全局语义特征,表示第j个文本实例t的全局语义特征,为用来近似表示第i个图像实例所指定第m个码书中的一个词,为用来近似表示第j个文本实例所指定第m个码书中的一个词,Nt和Nv分别表示文本实例t和图像实例v的个数;
所述对抗损失函数Ladv如式五所示:
其中,N表示图像-文本对的个数。bu表示第u个图像或文本实例的真实媒体标签。和分别表示第u个图像或文本实例的全局语义特征表示;表示每条实例中图像产生的概率,表示每条实例中文本产生的概率。
4.根...
【专利技术属性】
技术研发人员:梁美玉,杜军平,薛哲,寇菲菲,杨从先,王旭,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。