一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33244014 阅读:48 留言:0更新日期:2022-04-27 17:51
本公开关于一种数据处理方法、装置、设备及存储介质,包括:获取多媒体数据及文本数据;抽取文本数据中的句子信息及句子信息对应的词语信息,分别进行语义分析,得到文本数据的句子特征及对应的词语特征;提取多媒体数据的初始特征,并将初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,第一多媒体特征对应于多媒体数据包括的事件,第二多媒体特征对应于多媒体数据包括的实体或动作;基于第一多媒体特征及句子特征之间的第一相似度,及第二多媒体特征与词语特征之间的第二相似度,确定多媒体数据及文本数据之间的相似程度。这样,对多媒体数据和文本数据进行了深层次的特征对齐,提高后续检索的准确性。续检索的准确性。续检索的准确性。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本公开涉及数据检索领域,特别是涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着多媒体平台的发展,越来越多的用户将多媒体分享至多媒体平台,当用户需要在多媒体平台上浏览自己感兴趣的内容时,往往需要进行搜索,比如,输入文本内容,希望得到与文本内容相关的多媒体,或者,在浏览自己感兴趣的多媒体后,希望能够查询到该多媒体对应的文本内容,等等。
[0003]多媒体文本检索任务旨在根据一个多媒体得到对应的文本,或者根据一个文本检索出对应的多媒体,以满足用户在多媒体平台上的搜索需求,在多媒体文本检索任务中,通常需要对多媒体数据和文本数据进行数据处理,比如,与任一文本数据相似度较高的多媒体数据,都可以作为该文本数据对应的检索结果。
[0004]现有技术中,通常采用单塔模型或者双塔模型确定文本数据和多媒体数据之间的相似度,其中,单塔模型是指将文本数据和多媒体数据一起输入至特征分类模型进行分类,根据分类结果确定文本数据和多媒体数据的相似度,双塔模型是指分别对文本特征和多媒体特征本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多媒体数据及文本数据;抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征;提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,其中,所述第一多媒体特征表征所述多媒体数据对应的事件信息,所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息;基于所述第一多媒体特征及所述句子特征之间的第一相似度,以及所述第二多媒体特征与所述词语特征之间的第二相似度,确定所述多媒体数据及文本数据之间的相似程度。2.根据权利要求1所述的方法,其特征在于,所述词语信息包括多种,每种词语信息对应于一种词性,所述对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析,得到句子特征及对应的每种词语特征;所述提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,包括:提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型,得到第一多媒体特征及多个第二多媒体特征,其中,每个第二特征提取模型用于提取一种第二多媒体特征,每种第二多媒体特征对应于一种词语特征。3.根据权利要求1所述的方法,其特征在于,所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:利用词性标注模型,从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息;根据所述词语信息,生成第二句子信息;将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析,得到句子特征及所述句子特征对应的词语特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述词语信息,生成第二句子信息,包括:将所述词语信息采用预设符号进行分隔,得到所述词语信息对应的...

【专利技术属性】
技术研发人员:程星吴翔宇
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1