System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图文模型的训练方法和装置、房型图片筛选方法及设备制造方法及图纸_技高网

图文模型的训练方法和装置、房型图片筛选方法及设备制造方法及图纸

技术编号:40827749 阅读:7 留言:0更新日期:2024-04-01 14:49
本发明专利技术公开了一种图文模型的训练方法和装置、房型图片筛选方法及设备,该训练方法,包括:获取包含房型名称与房型图片的初始样本集;使用正则表达式对初始样本集进行初步清洗得到初筛样本集;将初筛样本集输入到过滤模型中进行过滤,得到目标样本集;采用目标样本集对神经网络进行训练,得到图文模型。使用正则表达式对初始样本集进行初步清洗以及使用过滤模型对初始样本进一步过滤得到的目标样本集,该目标样本集对神经网络进行训练,可以使得到的图文模型对房型名称与房型图片的相关性计算的更为准确,进而使用该图文模型筛选出的房型图片与房型名称的相关性更强。

【技术实现步骤摘要】

本专利技术涉及数据分析领域,尤其涉及一种图文模型的训练方法和装置、房型图片筛选方法及设备


技术介绍

1、随着ota(online travel agency,在线旅行社)行业的发展,人们对住宿的个性化要求越来越高。因此,酒店推出了多种多样的房型。为了更好的展示房型,则需要选择一张与房型名称强相关的图片作为首页图片。然而,在根据房型名称选择首页图片时,如果房型名称与房型图片的相关性计算的不准确,会导致选择出的首页图片与房型名称的相关性弱,因此,如何更加准确的计算出房型名称与房型图片的相关性成了亟需解决的问题。


技术实现思路

1、本专利技术要解决的技术问题是为了克服现有技术中房型名称与图片的相关性计算的不准确,会导致选择出的首页图片与房型名称的相关性弱的缺陷,提供了一种图文模型的训练方法和装置、房型图片筛选方法及设备。

2、本专利技术是通过下述技术方案来解决上述技术问题:

3、第一方面,提供了一种图文模型的训练方法,所述训练方法,包括:

4、获取包含房型名称与房型图片的初始样本集;

5、使用正则表达式对所述初始样本集进行初步清洗得到初筛样本集;其中,所述正则表达式用于过滤所述初始样本集中的无效信息和图像质量不符合质量要求的所述房型图片;所述无效信息包括所述房型名称中包含表情、所述房型名称中包含特殊字符中的至少一种;

6、将所述初筛样本集输入到过滤模型中进行过滤,得到目标样本集;其中,所述过滤模型用于将与每一所述房型名称相关性都低于阈值的所述房型图片剔除;

7、采用所述目标样本集对神经网络进行训练,得到所述图文模型;其中,所述图文模型用于计算房型名称和房型图片的关联性。

8、可选地,所述采用所述目标样本集对神经网络进行训练,得到所述图文模型,包括:

9、执行所述图文模型的第一任务,并计算所述第一任务的第一神经网络损失值;其中,所述第一任务用于使所述房型名称和所述房型图片能够在共享的语义空间中进行对齐;

10、执行所述图文模型的第二任务,并计算所述第二任务的第二神经网络损失值;其中,所述第二任务用于使所述图文模型学习所述房型名称和所述房型图片之间的语义关联;

11、执行所述图文模型的第三任务,并计算所述第三任务的第三神经网络损失值;其中,所述第三任务用于预测房型名称的概率分布;

12、根据所述第一神经网络损失值、所述第二神经网络损失值及所述第三神经网络损失值调整所述图文模型的模型参数,以生成用于计算所述房型名称和所述房型图片相关性的图文模型。

13、可选地,所述计算所述第一任务的第一神经网络损失值,包括:

14、获取所述房型名称的文本特征;

15、获取所述房型图片的图像特征;

16、根据所述文本特征、所述图像特征及第一损失函数计算所述第一神经网络损失值。

17、可选地,所述执行所述图文模型的第二任务,并计算所述第二任务的第二神经网络损失值,包括:

18、为所述房型名称选择一个图像负样本;其中,所述图像负样本为在所述房型图片中选择一个与房型名称的相关性低于预期值的所述房型图片;

19、为所述房型图片选择一个文字负样本;其中,所述文字负样本为在所述房型名称中选择一个与房型图片的相关性低于预期值的所述房型名称;

20、将所述图像负样本与所述文字负样本拼接形成图文负样本;

21、根据所述图文负样本和第二损失函数计算所述第二神经网络损失值。

22、可选地,所述执行所述图文模型的第三任务,并计算所述第三任务的第三神经网络损失值,包括:

23、将所述房型名称划分为单词序列;

24、将所述单词序列划分为输入序列和目标序列,其中目标序列是输入序列的后续单词;

25、根据所述输入序列、所述目标序列及第三损失函数计算所述第三神经网络损失值。

26、可选地,所述将所述初筛样本集输入到过滤模型中进行过滤,得到目标样本集,包括;

27、将所述初筛样本集输入到所述过滤模型中,输出所述初筛样本集的过滤结果;

28、构建包含所述初筛样本集及所述过滤结果的训练数据;

29、使用所述训练数据优化所述过滤模型;直至所构建的训练数据的总数满足需求时,输出包含所构建的训练数据的数据集,将该数据集视为目标样本集。

30、可选地,所述根据所述第一神经网络损失值、所述第二神经网络损失值及所述第三神经网络损失值调整所述图文模型的模型参数,以生成用于计算所述房型名称和所述房型图片相关性的图文模型,包括:

31、计算所述第一神经网络损失值、所述第二神经网络损失值及所述第三神经网络损失值的神经网络总损失;

32、将所述神经网络总损失输入至自适应优化器中调整所述模型参数。

33、第二方面,提供了一种图文模型的训练装置,所述训练装置,包括:

34、获取模块,用于获取包含房型名称与房型图片的初始样本集;

35、清洗模块,用于使用正则表达式对所述初始样本集进行初步清洗得到初筛样本集;其中,所述正则表达式用于过滤所述初始样本集中的无效信息和图像质量不符合质量要求的所述房型图片;所述无效信息包括所述房型名称中包含表情、所述房型名称中包含特殊字符中的至少一种;

36、过滤模块,用于将所述初筛样本集输入到过滤模型中进行过滤,得到目标样本集;其中,所述过滤模型用于将与每一所述房型名称相关性都低于阈值的所述房型图片剔除;

37、采用模块,用于采用所述目标样本集对神经网络进行训练,得到所述图文模型;其中,所述图文模型用于计算房型名称和房型图片的关联性。

38、第三方面,提供了一种房型图片筛选方法,所述房型图片筛选方法,包括:

39、获取房型名称;

40、将房型名称输入图文模型,以由所述图文模型筛选出与所述房型名称强相关的房型图片;其中,所述图文模型由上述任一项所述的图文模型的训练方法训练得到。

41、第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的图文模型的训练方法。

42、本专利技术的积极进步效果在于:使用正则表达式对初始样本集进行初步清洗以及使用过滤模型对初始样本进一步过滤得到的目标样本集,该目标样本集对神经网络进行训练,可以使得到的图文模型对房型名称与房型图片的相关性计算的更为准确,进而使用该图文模型筛选出的房型图片与房型名称的相关性更强。

本文档来自技高网...

【技术保护点】

1.一种图文模型的训练方法,其特征在于,所述训练方法,包括:

2.如权利要求1所述的训练方法,其特征在于,所述采用所述目标样本集对神经网络进行训练,得到所述图文模型,包括:

3.如权利要求2所述的训练方法,其特征在于,所述计算所述第一任务的第一神经网络损失值,包括:

4.如权利要求2所述的训练方法,其特征在于,所述执行所述图文模型的第二任务,并计算所述第二任务的第二神经网络损失值,包括:

5.如权利要求2所述的训练方法,其特征在于,所述执行所述图文模型的第三任务,并计算所述第三任务的第三神经网络损失值,包括:

6.如权利要求1所述的训练方法,其特征在于,所述将所述初筛样本集输入到过滤模型中进行过滤,得到目标样本集,包括;

7.如权利要求2所述的训练方法,其特征在于,所述根据所述第一神经网络损失值、所述第二神经网络损失值及所述第三神经网络损失值调整所述图文模型的模型参数,以生成用于计算所述房型名称和所述房型图片相关性的图文模型,包括:

8.一种图文模型的训练装置,其特征在于,所述训练装置,包括:p>

9.一种房型图片筛选方法,其特征在于,所述房型图片筛选方法,包括:

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的图文模型的训练方法。

...

【技术特征摘要】

1.一种图文模型的训练方法,其特征在于,所述训练方法,包括:

2.如权利要求1所述的训练方法,其特征在于,所述采用所述目标样本集对神经网络进行训练,得到所述图文模型,包括:

3.如权利要求2所述的训练方法,其特征在于,所述计算所述第一任务的第一神经网络损失值,包括:

4.如权利要求2所述的训练方法,其特征在于,所述执行所述图文模型的第二任务,并计算所述第二任务的第二神经网络损失值,包括:

5.如权利要求2所述的训练方法,其特征在于,所述执行所述图文模型的第三任务,并计算所述第三任务的第三神经网络损失值,包括:

6.如权利要求1所述的训练方法,其特征在于,所述将所述初...

【专利技术属性】
技术研发人员:刘梓韦成丹妮罗超
申请(专利权)人:携程旅游网络技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1