模型训练方法、数据检索方法、装置及电子设备制造方法及图纸

技术编号：40241243 阅读：4 留言：0更新日期：2024-02-02 22:39

本申请实施例提供了一种模型训练方法、数据检索方法、装置及电子设备，涉及人工智能技术领域。模型训练方法包括：获取多个初始样本对；对于多个初始样本对中的至少一个第一样本对，对各第一样本对的初始样本文本进行掩码处理，得到至少一个第二样本对；将至少一个第二样本对和未进行掩码处理的初始样本对作为训练样本对，得到样本训练集；基于样本训练集对初始特征提取模型进行训练，得到训练好的特征提取模型；掩码处理包括：基于初始样本文本所包含的各个样本词语的词性，采用目标掩码信息替换多个样本词语中的至少一个样本词语。本申请的模型训练方法可以有效提高训练好的特征提取模型的多模态检索的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能领域，具体而言，本申请涉及一种模型训练方法、数据检索方法、装置及电子设备。

技术介绍

1、近年来，随着海量视频的生产，视频理解任务变得尤为重要。视频理解一个很重要的下游任务就是视频检索，通过视频检索，用户能够很方便的检索出相关的视频片段，视频的文本标签，标题信息等，该能力对于视频推荐，视频加工，视频编目都有着非常重要的意义。

2、随着用户检索需求的不断增加，视频检索平台也需要支持越来越多的能力。其中包括，用户输入文本，平台需要输出相关的视频，图像，语音等信息。反过来，用户也可以通过输入图像，视频或者语音去检索文本/图片/语音/视频。因此，基于多模态的检索能力变得越来越重要。

3、目前，通常是采用多模态的特征提取模型来支撑视频图像检索平台，对于多模态的特征提取模型的训练过程中，通常直接对不同模态的输入数据进行特征提取，训练好的特征提取模型的多模态检索的准确度较低。

技术实现思路

1、本申请实施例的目的旨在提供一种模型训练方法、装置及电子设备，本申请实施例提供的技术方案如下：

2、一方面，本申请实施例提供了一种模型训练的方法，该方法包括：

3、获取多个初始样本对；每一初始样本对包括初始样本文本和至少一个初始样本图像；初始样本文本为至少一个初始样本图像的描述文本；

4、对于多个初始样本对中的至少一个第一样本对，对各第一样本对的初始样本文本进行掩码处理，得到至少一个第二样本对；

5、将至少一个第二样本

6、基于样本训练集对初始特征提取模型进行训练，得到训练好的特征提取模型；

7、其中，掩码处理包括：

8、对于每一第一样本对的初始样本文本，基于初始样本文本所包含的各个样本词语的词性，采用目标掩码信息替换多个样本词语中的至少一个样本词语，得到初始样本文本对应的样本文本。

9、在一些可能的实施方式中，对于每一第一样本对的初始样本文本，基于初始样本文本所包含的各个样本词语的词性，采用目标掩码信息替换多个样本词语中的至少一个样本词语，得到初始样本文本对应的样本文本，包括：

10、确定每一样本词语对应的词性；

11、采用目标掩码信息替换至少一个目标词性的样本词语，得到与初始样本文本对应的样本文本；其中，目标词性包括动词和名词中的至少一种。

12、在一些可能的实施方式中，在所述目标词性包括动词和名词的情况下，在进行掩码处理的多个第一样本对中，采用目标掩码信息替换动词的第一样本对的数量，大于采用目标掩码信息替换名词的第一样本对的数量。

13、在一些可能的实施方式中，若检测到针对初始特征提取模型的训练次数达到目标次数，还包括：

14、在至少一个进行掩码处理的第一样本对的初始样本文本中，增加词性为动词的目标词语被目标掩码信息所替换的比率，对初始样本文本重新进行掩码处理，得到新的第二样本对；

15、基于新的第二样本对和未进行掩码处理的多个初始样本对生成新的样本训练集。

16、在一些可能的实施方式中，基于样本训练集对初始特征提取模型进行训练，得到训练好的特征提取模型，包括：

17、对于每一训练样本对，通过初始特征提取模型，对训练样本对执行至少两次特征提取操作，基于最后一次特征提取操作的输出特征，得到训练样本对中样本文本的样本文本特征和样本图像的样本图像特征；

18、基于样本图像特征和样本文本特征之间的差异，确定训练样本对对应的训练损失；基于各个训练样本对对应的训练损失，确定总损失；根据总损失训练特征提取模型，以得到训练好的特征提取模型；

19、其中，特征提取操作包括：

20、获取样本文本的文本输入特征；对文本输入特征进行特征提取，得到第一样本文本特征；获取样本图像的图像输入特征，对图像输入特征进行特征提取，得到第一样本图像特征；第一次特征提取操作对应的文本输入特征包括样本文本；第一次特征提取操作对应的图像输入特征包括样本图像的样本图像帧；

21、基于第一样本文本特征和第一样本图像特征的关联程度，分别对第一样本文本特征和第一样本图像特征进行加权，得到对应的第二样本文本特征和第二样本图像特征；

22、将第二样本文本特征作为下一次特征提取操作的文本输入特征，将第二样本图像特征作为下一次特征提取操作的图像输入特征。

23、在一些可能的实施方式中，初始特征提取模型包括文本特征提取模块、图像特征提取模块以及特征交互模块；文本特征提取模块包括多个文本特征提取层；图像特征提取模块包括多个图像特征提取层；特征交互模块包括多个特征交互层；文本特征提取层、图像特征提取层以及特征交互层的数量均相同；文本特征提取层用于对文本输入特征进行特征提取；视频特征提取层用于对图像输入特征进行特征提取；

24、基于第一样本文本特征和第一样本图像特征的关联程度，分别对第一样本文本特征和第一样本图像特征进行加权，得到对应的第二样本文本特征和第二样本图像特征，包括：

25、通过与特征提取操作对应的特征交互层，基于第一样本文本特征和第一样本图像特征的关联程度，确定加权特征；

26、基于加权特征分别对第一样本文本特征和第一样本图像特征进行加权，得到对应的第二样本文本特征和第二样本图像特征。

27、在一些可能的实施方式中，加权特征包括第一注意力权重；

28、基于第一样本文本特征和第一样本图像特征的关联程度，确定加权特征，基于加权特征对第一样本图像特征进行加权，得到对应的第二样本图像特征，包括：

29、将第一样本文本特征作为第一查询特征，将第一样本图像特征作为第一被查询特征，确定第一查询特征和第一被查询特征之间的第一注意力权重；

30、将第一样本图像特征作为第一内容特征，基于第一注意力权重对第一内容特征进行加权，得到第二样本图像特征。

31、在一些可能的实施方式中，加权特征还包括第二注意力权重；

32、基于第一样本文本特征和第一样本图像特征的关联程度，确定加权特征，基于加权特征对第一样本文本特征进行加权，得到对应的第二样本文本特征，包括：

33、将第一样本图像特征作为第二查询特征，将第一样本文本特征作为第二被查询特征，确定第二查询特征和第二被查询特征之间的第二注意力权重；

34、将第一样本文本特征作为第二内容特征，基于第二注意力权重对第二内容特征进行加权，得到第二样本文本特征。

35、另一方面，本申请实施例提供了一种数据检索方法，包括：

36、第三获取模块，用于获取待检索的目标查询数据；目标查询数据包括目标文本或目标图像；

37、特征提取模块，用于通过训练好的特征提取模型，提取目标查询数据的查询特征；特征提取模型是基于上述的本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对于每一第一样本对的初始样本文本，基于所述初始样本文本所包含的各个样本词语的词性，采用目标掩码信息替换所述多个样本词语中的至少一个样本词语，得到所述初始样本文本对应的样本文本，包括：

3.根据权利要求2所述的方法，其特征在于，在所述目标词性包括动词和名词的情况下，在进行掩码处理的多个第一样本对中，采用所述目标掩码信息替换动词的第一样本对的数量，大于采用所述目标掩码信息替换名词的第一样本对的数量。

4.根据权利要求2所述的方法，其特征在于，若检测到针对初始特征提取模型的训练次数达到目标次数，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述样本训练集对初始特征提取模型进行训练，得到训练好的特征提取模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述初始特征提取模型包括文本特征提取模块、图像特征提取模块以及特征交互模块；所述文本特征提取模块包括多个文本特征提取层；所述图像特征提取模块包括多个图像特征提取层；所

7.根据权利要求6所述的方法，其特征在于，所述加权特征包括第一注意力权重；

8.根据权利要求7所述的方法，其特征在于，所述加权特征还包括第二注意力权重；

9.一种数据检索方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述查询特征与多个候选特征分别进行匹配，从多个候选特征中确定与所述查询特征相匹配的匹配特征，包括：

11.一种模型训练装置，其特征在于，所述装置包括：

12.一种数据检索装置，其特征在于，包括：

13.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

4.根据权利要求2所述的方法，其特征在于，若检测到针对初始特征提取模型的训练次数达到目标次数，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述样本训练集对初始特征提取模型进行训练，得到训练好的特征提取模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述初始特征提取模型包括文本特征提取模块、图像特征提取模块以及特征交互模块；所述文本特征提取模块包括多个文本特征提取层；所述图像特征提取模块包括多个图像特征提取层；所述特征交互模块包括多个特征交互层；所述文本特征提取层、所述图像特征提取层以及所述特征交互层的数量均相同；所述...

【专利技术属性】
技术研发人员：刘烨，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人