【技术实现步骤摘要】
内容匹配方法、装置、设备、存储介质及计算机程序产品
[0001]本申请涉及计算机
,具体而言,本申请涉及一种内容匹配方法、装置、设备、存储介质及计算机程序产品。
技术介绍
[0002]现有技术中内容匹配的应用场景可以是文章检索,文章检索广泛应用于文章排重等领域,通过文章检索,可以在数据库中查询是否存在与待查询文章相似的内容。现有技术中的文章检索方法直接使用TF
‑
IDF(Term Frequency
–
Inverse Document Frequency,词频
‑
逆向文件频率),TF
‑
IDF是一种用于信息检索与数据挖掘的常用加权技术,TF
‑
IDF将词向量加权以获得文章的文本特征向量,但是TF
‑
IDF只考虑了文章的文本特征的向量化,从而导致文章的特征粒度粗以及信息缺失,文章检索的准确率不高,即内容匹配的准确率不高。
技术实现思路
[0003]本申请针对现有的方式的缺点,提出一种内容匹配方法、装 ...
【技术保护点】
【技术特征摘要】
1.一种内容匹配方法,其特征在于,包括:确定待查询内容中文本的第一特征向量和各图像的第二特征向量,所述第一特征向量为所述文本的向量化细粒度表征,所述第二特征向量用于表征所述各图像的视觉特征;将所述各图像的第二特征向量之间进行融合处理,确定所述待查询内容的图像特征向量;将所述图像特征向量和所述第一特征向量之间进行融合加权处理,确定所述待查询内容的特征嵌入向量;根据所述待查询内容的特征嵌入向量和预设的多个内容的特征嵌入向量,从所述多个内容中匹配所述待查询内容对应的相似内容。2.根据权利要求1所述的方法,其特征在于,所述确定所述待查询内容中文本的第一特征向量,包括:将所述待查询内容中文本输入至神经网络模型的文本特征提取模型的匹配子模型,将所述文本和预设的多个聚类集合经过匹配处理,确定所述文本的第一特征嵌入向量对应的一个聚类集合,所述多个聚类集合包括所述一个聚类集合,多个聚类集合中的每个所述聚类集合包括多个归属于同一类型的文本标签;根据所述文本的第一特征嵌入向量和所述聚类集合中各文本标签的特征嵌入向量,确定所述第一特征向量。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本的第一特征嵌入向量和所述聚类集合中各文本标签的特征嵌入向量,确定所述第一特征向量,包括:确定所述文本的第一特征嵌入向量和各文本标签的特征嵌入向量之间的第一相似度;根据所述各文本标签的特征嵌入向量和各第一相似度对应的权重,确定所述第一特征向量,所述各第一相似度与所述各第一相似度对应的权重之间呈正相关。4.根据权利要求3所述的方法,其特征在于,所述根据所述各文本标签的特征嵌入向量和各第一相似度对应的权重,确定所述第一特征向量,包括:将各第一相似度输入至神经网络模型的文本特征提取模型的排序子模型,将各第一相似度从大到小进行排序,确定排序在前的M个第一相似度;根据所述M个第一相似度对应的权重,以及所述M个第一相似度对应的文本标签的特征嵌入向量,确定所述第一特征向量,M为正整数。5.根据权利要求2所述的方法,其特征在于,在所述确定所述待查询内容中文本的第一特征向量之前,还包括:获取多个文本标签;将所述多个文本标签进行聚类处理,得到所述多个聚类集合,所述多个聚类集合中的每个聚类集合包括多个归属于同一类型的文本标签。6.根据权利要求1所述的方法,其特征在于,所述确定所述待查询内容中各图像的第二特征向量,包括:将所述待查询内容中各图像分别输入至神经网络模型的图像特征提取模型的训练后的图像编码器,对所述各图像分别进行编码处理,得到所述待查询内容中各图像的第二特征向量。7.根据权利要求6所述的方法,其特征在于,在所述确定所述待查询内容中各图像的第
二特征向量之前,还包括:获取预设数据集中多个文本样本和多个图像样本;将所述多个文本样本输入至所述图像特征提取模型的文本编码器,并将所述多个图像样本输入至所述图像特征提取模型的图像编码器,进...
【专利技术属性】
技术研发人员:安涵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。