一种数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33244014 阅读:34 留言:0更新日期:2022-04-27 17:51
本公开关于一种数据处理方法、装置、设备及存储介质,包括:获取多媒体数据及文本数据;抽取文本数据中的句子信息及句子信息对应的词语信息,分别进行语义分析,得到文本数据的句子特征及对应的词语特征;提取多媒体数据的初始特征,并将初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,第一多媒体特征对应于多媒体数据包括的事件,第二多媒体特征对应于多媒体数据包括的实体或动作;基于第一多媒体特征及句子特征之间的第一相似度,及第二多媒体特征与词语特征之间的第二相似度,确定多媒体数据及文本数据之间的相似程度。这样,对多媒体数据和文本数据进行了深层次的特征对齐,提高后续检索的准确性。续检索的准确性。续检索的准确性。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本公开涉及数据检索领域,特别是涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着多媒体平台的发展,越来越多的用户将多媒体分享至多媒体平台,当用户需要在多媒体平台上浏览自己感兴趣的内容时,往往需要进行搜索,比如,输入文本内容,希望得到与文本内容相关的多媒体,或者,在浏览自己感兴趣的多媒体后,希望能够查询到该多媒体对应的文本内容,等等。
[0003]多媒体文本检索任务旨在根据一个多媒体得到对应的文本,或者根据一个文本检索出对应的多媒体,以满足用户在多媒体平台上的搜索需求,在多媒体文本检索任务中,通常需要对多媒体数据和文本数据进行数据处理,比如,与任一文本数据相似度较高的多媒体数据,都可以作为该文本数据对应的检索结果。
[0004]现有技术中,通常采用单塔模型或者双塔模型确定文本数据和多媒体数据之间的相似度,其中,单塔模型是指将文本数据和多媒体数据一起输入至特征分类模型进行分类,根据分类结果确定文本数据和多媒体数据的相似度,双塔模型是指分别对文本特征和多媒体特征进行特征提取,再对特征提取结果进行数据处理。
[0005]但是,由于在多媒体文本检索任务中,多媒体数据和文本数据是跨模态的两种不同的数据,具有异构性,而单塔模型和双塔模型都不能让多媒体数据和文本数据进行深层次的特征对齐,从而导致检索结果的准确性较差,用户体验也不够好。

技术实现思路

[0006]为了解决相关技术中存在的单塔模型和双塔模型都不能让多媒体数据和文本数据进行深层次的特征对齐,从而导致检索结果的准确性较差,用户体验也不够好的问题,本公开提供了一种数据处理方法、装置、设备及存储介质,本公开的技术方案如下:
[0007]根据本公开实施例的第一方面,提供了一种数据处理方法,所述方法包括:
[0008]获取多媒体数据及文本数据;
[0009]抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征;
[0010]提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,其中,所述第一多媒体特征表征所述多媒体数据对应的事件信息,所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息;
[0011]基于所述第一多媒体特征及所述句子特征之间的第一相似度,以及所述第二多媒体特征与所述词语特征之间的第二相似度,确定所述多媒体数据及文本数据之间的相似程
度。
[0012]可选地,所述词语信息包括多种,每种词语信息对应于一种词性,所述对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:
[0013]对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析,得到句子特征及对应的每种词语特征;
[0014]所述提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,包括:
[0015]提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型,得到第一多媒体特征及多个第二多媒体特征,其中,每个第二特征提取模型用于提取一种第二多媒体特征,每种第二多媒体特征对应于一种词语特征。
[0016]可选地,所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:
[0017]利用词性标注模型,从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息;
[0018]根据所述词语信息,生成第二句子信息;
[0019]将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析,得到句子特征及所述句子特征对应的词语特征。
[0020]可选地,所述根据所述词语信息,生成第二句子信息,包括:
[0021]将所述词语信息采用预设符号进行分隔,得到所述词语信息对应的第二句子信息。
[0022]可选地,所述根据所述词语信息,生成第二句子信息,包括:
[0023]对所述词语信息对应的第一句子信息中的其他词语进行掩码处理,得到所述词语信息对应的第二句子信息。
[0024]可选地,所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:
[0025]利用词性标注模型,从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息;
[0026]将所述第一句子信息输入至语义分析模型进行语义分析,得到句子特征及所述词语信息在对应的第一句子信息中的特征;
[0027]根据所述词语信息在对应的第一句子信息中的特征,计算所述句子特征对应的词语特征。
[0028]可选地,所述提取所述多媒体数据的初始特征,包括:
[0029]从所述多媒体数据中抽取预设数量的参考帧;
[0030]分别提取所述参考帧的特征信息,得到参考帧特征;
[0031]根据所述参考帧特征,计算所述多媒体数据的初始特征。
[0032]可选地,所述将所述初始特征输入至第一特征提取模型及第二特征提取模型,得
到第一多媒体特征及第二多媒体特征,包括:
[0033]将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到初始第一多媒体特征及第二多媒体特征;
[0034]将所述初始特征输入至门控模型进行权重计算,得到所述初始第一多媒体特征及所述第二多媒体特征分别对应的权重;
[0035]根据初始第一多媒体特征的权重、所述第二多媒体特征以及所述第二多媒体特征的权重,对所述初始第一多媒体特征进行更新,得到第一多媒体特征。
[0036]根据本公开实施例的第二方面,提供了一种数据处理装置,所述装置包括:
[0037]获取单元,被配置为执行获取多媒体数据及文本数据;
[0038]抽取单元,被配置为执行抽取所述文本数据中的句子信息及句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征;
[0039]提取单元,被配置为执行提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,其中,所述第一多媒体特征表征所述多媒体数据对应的事件信息,所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息;
[0040]确定单元,被配置为执行基于所述第一多媒体特征及所述句子特征之间的第一相似度,以及所述第二多媒体特征与所述词语特征之间的第二相似度,确定所述多媒体数据及文本数据之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取多媒体数据及文本数据;抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征;提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,其中,所述第一多媒体特征表征所述多媒体数据对应的事件信息,所述第二多媒体特征表征所述多媒体数据中的实体信息或动作信息;基于所述第一多媒体特征及所述句子特征之间的第一相似度,以及所述第二多媒体特征与所述词语特征之间的第二相似度,确定所述多媒体数据及文本数据之间的相似程度。2.根据权利要求1所述的方法,其特征在于,所述词语信息包括多种,每种词语信息对应于一种词性,所述对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:对所述句子信息及所述句子信息对应的每种词语信息分别进行语义分析,得到句子特征及对应的每种词语特征;所述提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及第二特征提取模型,得到第一多媒体特征及第二多媒体特征,包括:提取所述多媒体数据的初始特征,并将所述初始特征输入至第一特征提取模型及多个第二特征提取模型,得到第一多媒体特征及多个第二多媒体特征,其中,每个第二特征提取模型用于提取一种第二多媒体特征,每种第二多媒体特征对应于一种词语特征。3.根据权利要求1所述的方法,其特征在于,所述抽取所述文本数据中的句子信息及所述句子信息对应的词语信息,并对所述句子信息及所述句子信息对应的词语信息分别进行语义分析,得到句子特征及对应的词语特征,包括:利用词性标注模型,从所述文本数据中抽取第一句子信息及所述第一句子信息对应的词语信息;根据所述词语信息,生成第二句子信息;将所述第一句子信息及所述第二句子信息分别输入至语义分析模型进行语义分析,得到句子特征及所述句子特征对应的词语特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述词语信息,生成第二句子信息,包括:将所述词语信息采用预设符号进行分隔,得到所述词语信息对应的...

【专利技术属性】
技术研发人员:程星吴翔宇
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1