内容查询方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号:38209534 阅读:8 留言:0更新日期:2023-07-21 17:00
本发明专利技术实施例公开了内容查询方法、装置、电子设备、存储介质和程序产品;可以获取待查询内容,确定待查询内容的内容类型,通过内容类型对应的目标特征提取模型对待查询内容进行特征提取,得到第一查询内容特征,将第一查询内容特征映射到多种类型内容共享的内容特征空间中,得到第二查询内容特征,计算待查询内容特征与内容特征空间中第二候选内容特征的相似度,第二候选内容特征所源于的内容类型有至少两种,根据相似度确定至少一个目标内容特征,从目标内容特征来源的候选内容中,确定待查询内容的查询结果;对于不同内容类型的内容无需分别构建数据集,可以降低数据标注成本,提高查询效率和准确度。提高查询效率和准确度。提高查询效率和准确度。

【技术实现步骤摘要】
内容查询方法、装置、电子设备、存储介质和程序产品


[0001]本专利技术涉及搜索
,具体涉及内容查询方法、装置、电子设备、存储介质和程序产品。

技术介绍

[0002]随着当前互联网的快速发展,互联网中的信息越来越多,人们可以通过关键词、图像等内容,从海量的信息中查询到自己需要的信息。比如,人们可以通过文字查询图像或者音频等。
[0003]目前,以通过文字查询图像为例,在进行查询时采取的主要方法是,将查询用户输入的文字,与预先设置的图像数据集中各个图像的文字描述标签进行匹配。采用这种方案,在构建图像数据集时,需要定义好图像的类目体系,对图像进行分类并标注文字描述标签,但是,在这种方案中,需要构建完整且细致的图像分类体系,对于大规模的图像数据来说,数据标注成本高昂,且图像与用户输入的文字之间并没有直接的联系,影响文字查询图像的准确度,且对于不同内容类型的文字、图像,需要构建不同的数据集以满足查询需求。

技术实现思路

[0004]本专利技术实施例提供内容查询方法、装置、电子设备、存储介质和程序产品,无需对图像等内容进行分类,对于不同内容类型的内容无需分别构建数据集,可以降低数据标注成本,直接根据用户输入的内容得到相应的查询结果,提高查询效率和准确度。
[0005]本专利技术实施例提供一种内容查询方法,包括:
[0006]获取待查询内容,确定所述待查询内容的内容类型;
[0007]通过所述内容类型对应的目标特征提取模型,对所述待查询内容进行特征提取,得到所述待查询内容的第一查询内容特征;
[0008]将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中,得到第二查询内容特征;
[0009]计算所述待查询内容特征与所述内容特征空间中第二候选内容特征的相似度,所述第二候选内容特征所源于的内容类型有至少两种,第二候选内容特征对应的内容类型不同,则采用的特征提取模型不同;
[0010]根据所述相似度,确定所述待查询内容对应的至少一个目标内容特征;
[0011]从所述目标内容特征来源的候选内容中,确定所述待查询内容的查询结果。
[0012]相应的,本专利技术实施例还提供一种内容查询装置,包括:
[0013]内容获取单元,用于获取待查询内容,确定所述待查询内容的内容类型;
[0014]特征提取单元,用于通过所述内容类型对应的目标特征提取模型,对所述待查询内容进行特征提取,得到所述待查询内容的第一查询内容特征;
[0015]特征映射单元,用于将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中,得到第二查询内容特征;
[0016]相似度计算单元,用于计算所述待查询内容特征与所述内容特征空间中第二候选内容特征的相似度,所述第二候选内容特征所源于的内容类型有至少两种,第二候选内容特征对应的内容类型不同,则采用的特征提取模型不同;
[0017]特征确定单元,用于根据所述相似度,确定所述待查询内容对应的至少一个目标内容特征;
[0018]查询结果确定单元,用于从所述目标内容特征来源的候选内容中,确定所述待查询内容的查询结果。
[0019]可选的,本专利技术实施例提供的内容查询装置,还包括空间构建单元,所述空间构建单元包括内容对获取单元、候选特征提取单元和候选特征映射单元;
[0020]所述内容对获取单元,用于获取至少一个候选内容对,同一个所述候选内容对中的候选内容之间的语义相同且内容类型不同;
[0021]所述候选特征提取单元,用于通过各所述内容类型对应的特征提取模型,分别对各所述候选内容进行特征提取,得到各所述候选内容的第一候选内容特征;
[0022]所述候选特征映射单元,用于将各所述第一候选内容特征进行映射,得到第二候选内容特征共享的内容特征空间,所述内容特征空间中,同一所述候选内容对对应的第二候选内容特征之间的相似度,大于不同候选内容对对应的第二候选内容特征之间的相似度。
[0023]可选的,所述候选内容对中包括候选图像和候选文本,所述候选文本的文本语义与针对所述候选图像的图像语义相同;
[0024]对应的,所述候选特征提取单元,用于通过文本类型对应的文本特征提取模型,对各所述候选内容对中的候选文本进行特征提取,得到各所述候选文本的第一文本内容特征;
[0025]通过图像类型对应的图像特征提取模型,对各所述候选内容对中的候选图像进行特征提取,得到各所述候选图像的第一图像内容特征。
[0026]可选的,所述图像特征提取模型包括区域特征提取层和序列特征编码层,所述候选特征提取单元,用于根据所述区域特征提取层的区域划分参数,将各所述候选图像分别划分为至少两个子区域;
[0027]将各所述子区域通过所述区域特征提取层的区域特征提取参数进行特征提取,得到各所述子区域的区域特征;
[0028]分别将同一所述候选图像的各所述区域特征构成区域特征序列,基于所述序列特征编码层的编码参数对各所述区域特征序列进行编码,得到各所述候选图像的第一图像内容特征。
[0029]可选的,所述文本特征提取模型包括词嵌入模块和注意力映射模块,所述通过文本特征提取模型的词嵌入模块,对各所述候选内容对中的候选文本进行词嵌入处理,得到各所述候选文本的词嵌入特征;
[0030]分别将各所述候选文本的词嵌入特征,通过所述注意力映射模块进行注意力处理,得到各所述候选文本的第一文本内容特征。
[0031]可选的,所述候选特征映射单元,用于将各所述第一候选内容特征进行正则化处理,得到各所述第一候选内容特征对应的第二候选内容特征;
[0032]根据各所述第二候选内容特征,构建各所述第二候选内容特征共享的内容特征空间。
[0033]可选的,本专利技术实施例提供的内容查询装置,还包括模型训练单元,用于获取至少两个训练内容对,同一个所述训练内容对中的训练内容之间的语义相同且内容类型不同;
[0034]根据所述训练内容以及各所述训练内容的训练类型,构建负训练内容对,所述负训练内容对中的训练内容所源于的训练内容对不同,且所述训练内容的内容类型不同;
[0035]通过各所述内容类型对应的待训练的特征提取模型,分别对各所述训练内容对和所述负训练内容对中的训练内容进行特征提取,得到各所述训练内容的第一训练内容特征;
[0036]基于各所述训练内容的第一训练内容特征,对各所述待训练的特征提取模型的参数进行调整,得到训练后的特征提取模型。
[0037]可选的,所述模型训练单元,用于基于各所述训练内容的第一训练内容特征进行特征映射,得到各所述训练内容的第二候选内容特征,各所述第二候选内容特征共享内容特征空间;
[0038]计算所述训练内容对中训练内容的第一训练内容特征之间的第一内容相似度;
[0039]计算所述负训练内容对中训练内容的第一训练内容特征之间的第二内容相似度;
[0040]根据所述第一内容相似度和所述第二内容相似度,对各所述待训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容查询方法,其特征在于,包括:获取待查询内容,确定所述待查询内容的内容类型;通过所述内容类型对应的目标特征提取模型,对所述待查询内容进行特征提取,得到所述待查询内容的第一查询内容特征;将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中,得到第二查询内容特征;计算所述待查询内容特征与所述内容特征空间中第二候选内容特征的相似度,所述第二候选内容特征所源于的内容类型有至少两种,第二候选内容特征对应的内容类型不同,则采用的特征提取模型不同;根据所述相似度,确定所述待查询内容对应的至少一个目标内容特征;从所述目标内容特征来源的候选内容中,确定所述待查询内容的查询结果。2.根据权利要求1所述的内容查询方法,其特征在于,所述将所述第一查询内容特征映射到多种类型内容共享的内容特征空间中之前,所述方法还包括:获取至少一个候选内容对,同一个所述候选内容对中的候选内容之间的语义相同且内容类型不同;通过各所述内容类型对应的特征提取模型,分别对各所述候选内容进行特征提取,得到各所述候选内容的第一候选内容特征;将各所述第一候选内容特征进行映射,得到第二候选内容特征共享的内容特征空间,所述内容特征空间中,同一所述候选内容对对应的第二候选内容特征之间的相似度,大于不同候选内容对对应的第二候选内容特征之间的相似度。3.根据权利要求2所述的内容查询方法,其特征在于,所述候选内容对中包括候选图像和候选文本,所述候选文本的文本语义与针对所述候选图像的图像语义相同;所述通过各所述内容类型对应的特征提取模型,分别对各所述候选内容进行特征提取,得到各所述候选内容的第一候选内容特征,包括:通过文本类型对应的文本特征提取模型,对各所述候选内容对中的候选文本进行特征提取,得到各所述候选文本的第一文本内容特征;通过图像类型对应的图像特征提取模型,对各所述候选内容对中的候选图像进行特征提取,得到各所述候选图像的第一图像内容特征。4.根据权利要求3所述的内容查询方法,其特征在于,所述图像特征提取模型包括区域特征提取层和序列特征编码层;所述通过图像类型对应的图像特征提取模型,对各所述候选内容对中的候选图像进行特征提取,得到各所述候选图像的第一图像内容特征,包括:根据所述区域特征提取层的区域划分参数,将各所述候选图像分别划分为至少两个子区域;将各所述子区域通过所述区域特征提取层的区域特征提取参数进行特征提取,得到各所述子区域的区域特征;分别将同一所述候选图像的各所述区域特征构成区域特征序列,基于所述序列特征编码层的编码参数对各所述区域特征序列进行编码,得到各所述候选图像的第一图像内容特征。
5.根据权利要求3所述的内容查询方法,其特征在于,所述文本特征提取模型包括词嵌入模块和注意力映射模块;所述通过文本类型对应的文本特征提取模型,对各所述候选内容对中的候选文本进行特征提取,得到各所述候选文本的第一文本内容特征,包括:通过文本特征提取模型的词嵌入模块,对各所述候选内容对中的候选文本进行词嵌入处理,得到各所述候选文本的词嵌入特征;分别将各所述候选文本的词嵌入特征,通过所述注意力映射模块进行注意力处理,得到各所述候选文本的第一文本内容特征。6.根据权利要求2所述的内容查询方法,其特征在于,所述将各所述第一候选内容特征进行映射,得到第二候选内容特征共享的内容特征空间,包括:将各所述第一候选内容特征进行正则化处理,得到各所述第一候选内容特征对应的第二候选内容特征;根据各所述第二候选内容特征,构建各所述第二候选内容特征共享的内容特征空间。7.根据权利要求1所述的内容查询方法,其特征在于,所述方法还包括:获取至少两个训练内容对,同一个所述训练内容对中的训练内容之间的语义相同且内容类型不同;根据所述训练内容以及各所述训练内容的训练类型,构建负训练内容对,所述负训练内容对中的训练内容所源于的训练内容对不同,且所述训练内容的内容类型不同;通过各所述内容类型对应的待训练的特征提取模型,分别对各所述训练内容对和所述负训练内容对中的训练内容进行特征提取,得到各所述训练内容的第一训练内容特征;基于各所述训练内容的第一训练内容特征,对各所述待训练的特征提取模型的参数进行调整,得到训练后...

【专利技术属性】
技术研发人员:程瑞张金超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1