跨模态训练数据生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38052825 阅读:8 留言:0更新日期:2023-06-30 11:18
本发明专利技术公开了一种跨模态训练数据生成方法、装置、设备及存储介质,属于互联网技术领域,所述方法包括:获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。从而可通过自动化获取以及自动化筛选的方式,通过搜索行为数据中各数据对应的模态类型来从中选取目标搜索行为数据,并自动生成不同模态的训练数据,降低了人工成本以及数据获取周期,解决了跨模态训练数据难获取的问题。解决了跨模态训练数据难获取的问题。解决了跨模态训练数据难获取的问题。

【技术实现步骤摘要】
跨模态训练数据生成方法、装置、设备及存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种跨模态训练数据生成方法、装置、设备及存储介质。

技术介绍

[0002]在深度学习的训练中,常常面临数据层面的多种困难,而训练数据又是跨模态检索中的一个重要的部分。在数据获取上,训练样本普遍要求较高,训练途中会出现无可用样本集的问题,而使用人工获取和筛选样本会存在成本太高、周期太长的问题。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提出一种跨模态训练数据生成方法、装置、设备及存储介质,旨在解决如何自动生成训练数据,克服跨模态训练数据难获取的技术问题。
[0005]为实现上述目的,本专利技术提供一种跨模态训练数据生成方法,所述跨模态训练数据生成方法包括:
[0006]获取预设时间段内的多个搜索行为数据;
[0007]识别所述搜索行为数据中各数据对应的模态类型;
[0008]根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
[0009]根据所述目标搜索行为数据生成多个不同模态的训练数据。
[0010]可选地,所述根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据,包括:
[0011]根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;
[0012]根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
[0013]可选地,所述根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,包括:
[0014]获取所述模态类型对应的数据清洗策略;
[0015]根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
[0016]可选地,所述模态类型包括:第一模态类型和第二模态类型;
[0017]所述获取所述模态类型对应的数据清洗策略,包括:
[0018]获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;
[0019]相应地,所述根据所述数据清洗策略对所述搜索行为数据中相应模态类型的数据进行数据清洗,包括:
[0020]将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;
[0021]将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;
[0022]根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。
[0023]可选地,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:
[0024]根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;
[0025]保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
[0026]可选地,所述根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据,包括:
[0027]根据所述第一数据清洗策略检测所述第一行为数据中各文本数据对应的文本字数;
[0028]根据所述文本字数从所述第一行为数据中筛选出第一待选文本数据;
[0029]根据所述第一待选文本数据确定待清洗文本数据。
[0030]可选地,所述根据所述第一待选文本数据确定待清洗文本数据,包括:
[0031]将所述第一行为数据中除所述第一待选文本数据之外的其他数据作为第一候选文本数据;
[0032]检测所述第一候选文本数据中各文本数据对应的生僻字占比;
[0033]根据所述生僻字占比从所述第一候选文本数据中筛选出第二待选文本数据;
[0034]根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据。
[0035]可选地,所述根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据,包括:
[0036]将所述第一候选文本数据中除所述第二待选文本数据之外的其他数据作为第二候选文本数据;
[0037]检测所述第二候选文本数据中各文本数据对应的文字完整度;
[0038]根据所述文字完整度从所述第二候选文本数据中筛选出第三待选文本数据;
[0039]根据所述第一待选文本数据、所述第二待选文本数据以及所述第三待选文本数据确定待清洗文本数据。
[0040]可选地,所述根据所述第二数据清洗策略对所述第二行为数据进行数据清洗,包括:
[0041]根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据;
[0042]保留所述第二行为数据中除所述待清洗图像数据之外的其他数据,并对所述待清洗图像数据进行数据清洗。
[0043]可选地,所述根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据,包括:
[0044]根据所述第二数据清洗策略检测所述第二行为数据中各图像数据对应的图像分辨率;
[0045]根据所述图像分辨率从所述第二行为数据中筛选出第一待选图像数据;
[0046]根据所述第一待选图像数据确定待清洗图像数据。
[0047]可选地,所述根据所述第一待选图像数据确定待清洗图像数据,包括:
[0048]将所述第二行为数据中除所述第一待选图像数据之外的其他数据作为第一候选图像数据;
[0049]检测所述第一候选图像数据中各图像数据对应的图像大小;
[0050]根据所述图像大小从所述第一候选图像数据中筛选出第二待选图像数据;
[0051]根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据。
[0052]可选地,所述根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据,包括:
[0053]将所述第一候选图像数据中除所述第二待选图像数据之外的其他数据作为第二候选图像数据;
[0054]检测所述第二候选图像数据中各图像数据对应的图像完整度;
[0055]根据所述图像完整度从所述第二候选图像数据中筛选出第三待选图像数据;
[0056]根据所述第一待选图像数据、所述第二待选图像数据以及所述第三待选图像数据生成待清洗图像数据。
[0057]可选地,所述识别所述搜索行为数据中各数据对应的模态类型,包括:
[0058]获取所述搜索行为数据中各数据对应的数据格式;
[0059]检测所述数据格式对应的格式类型;
[0060]根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
[0061]可选地,所述根据所述目标搜索行为数据生成多个不同模态的训练数据,包括:
[0062]根据所述目标搜索行为数据确定用户查询行为信息;
[0063]根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态训练数据生成方法,其特征在于,所述跨模态训练数据生成方法包括:获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。2.如权利要求1所述的跨模态训练数据生成方法,其特征在于,所述根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据,包括:根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。3.如权利要求2所述的跨模态训练数据生成方法,其特征在于,所述根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,包括:获取所述模态类型对应的数据清洗策略;根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。4.如权利要求3所述的跨模态训练数据生成方法,其特征在于,所述模态类型包括:第一模态类型和第二模态类型;所述获取所述模态类型对应的数据清洗策略,包括:获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;相应地,所述根据所述数据清洗策略对所述搜索行为数据中相应模态类型的数据进行数据清洗,包括:将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。5.如权利要求4所述的跨模态训练数据生成方法,其特征在于,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;保留所述第一...

【专利技术属性】
技术研发人员:谢春宇
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1