图像生成模型训练方法及相关装置制造方法及图纸

技术编号:39289758 阅读:6 留言:0更新日期:2023-11-07 10:58
本申请涉及计算机技术领域,提供一种图像生成模型训练方法及相关装置,用以提升图像生成质量,其中,该方法包括:针对获取的各样本图像分别进行两种语种的标签预测,并基于各样本图像各自针对各参考词的预测概率,结合各参考词各自的预测阈值,确定各参考词各自的准确性评估值,以及基于预测概率、预测阈值和准确性评估值,获得各样本图像各自对应的至少一组关键词,然后,基于各样本图像及其各自对应的各组关键词,构造图文对集,并利用图文对集训练针对第一语种进行预训练得到的图像生成模型。这样,通过双语标签描述样本图像,提升第二语种场景下生成图像的准确性。种场景下生成图像的准确性。种场景下生成图像的准确性。

【技术实现步骤摘要】
图像生成模型训练方法及相关装置


[0001]本申请涉及计算机
,提供一种图像生成模型训练方法及相关装置。

技术介绍

[0002]随着计算机技术的不断发展,利用文生图技术能够快速生成图像,文生图技术是指利用人工智能技术将文本转换为图像的过程,其可以根据给定文本生成符合文本描述的图像。
[0003]相关技术中,用于文生图的图像生成模型通常是基于英文语料训练得到的,因此,在模型应用过程中,针对给定的中文文本,将中文文本翻译为英文文本后,基于翻译获得的英文文本,利用训练后的图像生成模型,获得相应图像。
[0004]然而,不同语种的文本之间存在较大的语义区别,因此,基于英文语料训练得到的图像生成模型,难以满足中文文本的图像生成需求,图像生成效果不佳。比如,针对茅屋,会生成欧美大草地上蒙古包样式的谷仓,而不是中式草棚。

技术实现思路

[0005]本申请实施例提供一种图像生成模型训练方法及相关装置,用以提高文生图场景下的生成图像的准确性。
[0006]第一方面,本申请实施例提供一种图像生成模型训练方法,包括:
[0007]基于获取的各样本图像,针对第一语种和第二语种,分别执行以下操作:
[0008]基于针对当前语种设置的各参考词,获得所述各样本图像各自针对所述各参考词的预测概率,并结合所述各参考词各自的预测阈值,确定所述各参考词各自的准确性评估值;
[0009]基于获得的各预测概率,结合所述各参考词各自的预测阈值和准确性评估值,获得所述各样本图像各自对应的至少一组关键词;
[0010]基于所述各样本图像及其各自对应的各组关键词,构造图文对集,每个图文对包含:一个样本图像及其对应的一组关键词,各图文对中,针对第二语种获得的关键词,是参考所述第一语种进行语种转换后得到的关键词;
[0011]基于所述图文对集,对采用所述第一语种进行预训练得到的图像生成模型进行迭代训练,得到目标图像生成模型。
[0012]第二方面,本申请实施例提供一种图像生成模型训练装置,包括:
[0013]标签预测单元,用于基于获取的各样本图像,针对第一语种和第二语种,分别执行以下操作:基于针对当前语种设置的各参考词,获得所述各样本图像各自针对所述各参考词的预测概率,并结合所述各参考词各自的预测阈值,确定所述各参考词各自的准确性评估值;以及基于获得的各预测概率,结合所述各参考词各自的预测阈值和准确性评估值,获得所述各样本图像各自对应的至少一组关键词;
[0014]图文对构建单元,用于基于所述各样本图像及其各自对应的各组关键词,构造图
文对集,每个图文对包含:一个样本图像及其对应的一组关键词,各图文对中,针对第二语种获得的关键词,是参考所述第一语种进行语种转换后得到的关键词;
[0015]训练单元,用于基于所述图文对集,对采用所述第一语种进行预训练得到的图像生成模型进行迭代训练,得到目标图像生成模型。
[0016]作为一种可能的实现方式,标签预测单元还用于:
[0017]获取目标应用场景下的各候选图像,并利用场景类别分类模型,获得所述各候选图像各自对应的场景类别;
[0018]当基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出符合设定擦除条件的至少一个候选图像时,分别对所述至少一个候选图像进行对象擦除,获得对应的擦除图像;
[0019]将获得的至少一个擦除图像,以及所述各候选图像中除所述至少一个候选图像之外的其他候选图像,作为各样本图像。
[0020]作为一种可能的实现方式,所述基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出符合设定擦除条件的至少一个候选图像时,标签预测单元具体用于:
[0021]当基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出对应的场景类别为目标场景类别的候选图像时,利用对象检测模型,对筛选出的各候选图像进行对象检测;
[0022]基于检测结果,将筛选出的各候选图像中,包含目标对象的至少一个候选图像,作为符合设定擦除条件的至少一个候选图像。
[0023]作为一种可能的实现方式,基于所述各样本图像各自针对所述各参考词的预测概率,结合所述各参考词各自的预测阈值,确定所述各参考词各自的准确性评估值时,标签预测单元具体用于:
[0024]针对所述各参考词中的每个参考词,分别执行以下操作:
[0025]基于所述各样本图像分别针对一个参考词的预测概率,从所述各样本图像中,筛选出对应的预测概率大于所述一个参考词的预测阈值的样本图像;
[0026]按照设定的样本抽取数量,从筛选出的样本图像中,抽取出各标注样本,并基于所述各标注样本各自对应的标注结果,确定所述一个参考词的准确性评估值,其中,每个标注结果用于表征对应标注样本是否具备所述一个参考词。
[0027]作为一种可能的实现方式,标签预测单元还用于:
[0028]获取针对一个参考词标注的各标签样本,并对所述各标签样本进行参考词预测,获得所述各标签样本分别针对所述一个参考词的预测概率;
[0029]基于所述各标签样本分别针对所述一个参考词的预测概率,结合所述各标注样本各自对应的标注结果,确定所述一个参考词在各候选阈值下的准确性评估值;
[0030]基于所述各候选阈值下的准确性评估值,从所述各候选阈值中,确定所述一个参考词的预测阈值。
[0031]作为一种可能的实现方式,所述基于获得的各预测概率,结合所述各参考词各自的预测阈值和准确性评估值,获得所述各样本图像各自对应的至少一组关键词时,标签预测单元具体用于:
[0032]针对所述各样本图像中的每个样本图像,分别执行以下操作:
[0033]当所述各参考词中,存在对应的预测概率不小于对应的预测阈值的至少一个参考词时,将所述至少一个参考词作为当前样本图像的至少一个非噪声词;
[0034]当除所述至少一个参考词之外的各其他参考词中,存在对应的准确性评估值小于评估值阈值的至少一个其他参考词时,将所述至少一个其他参考词作为所述当前样本图像的至少一个噪声词;
[0035]对所述至少一个非噪声词和所述至少一个噪声词进行组合,获得所述当前样本图像对应的至少一组关键词。
[0036]作为一种可能的实现方式,所述对所述至少一个目标词和所述至少一个噪声词进行组合,获得所述当前样本图像对应的至少一组关键词时,标签预测单元具体用于:
[0037]对所述至少一个非噪声词和所述至少一个噪声词进行组合,获得初始词组,并将所述初始词组作为一组关键词;
[0038]从所述初始词组,分别删除所述至少一个噪声词,获得至少一组增强词,并将所述至少一组增强词,作为至少一组关键词。
[0039]作为一种可能的实现方式,训练单元还用于在每次迭代过程中,针对选取的各样本图文对中的每组关键词,分别执行以下操作:
[0040]若一组关键词中包含噪声词,则直接基于所述一组关键词对应的预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成模型训练方法,其特征在于,包括:基于获取的各样本图像,针对第一语种和第二语种,分别执行以下操作:基于针对当前语种设置的各参考词,获得所述各样本图像各自针对所述各参考词的预测概率,并结合所述各参考词各自的预测阈值,确定所述各参考词各自的准确性评估值;基于获得的各预测概率,结合所述各参考词各自的预测阈值和准确性评估值,获得所述各样本图像各自对应的至少一组关键词;基于所述各样本图像及其各自对应的各组关键词,构造图文对集,每个图文对包含:一个样本图像及其对应的一组关键词,各图文对中,针对第二语种获得的关键词,是参考所述第一语种进行语种转换后得到的关键词;基于所述图文对集,对采用所述第一语种进行预训练得到的图像生成模型进行迭代训练,得到目标图像生成模型。2.如权利要求1所述的方法,其特征在于,所述各样本图像是通过以下方式获取的:获取目标应用场景下的各候选图像,并利用场景类别分类模型,获得所述各候选图像各自对应的场景类别;当基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出符合设定擦除条件的至少一个候选图像时,分别对所述至少一个候选图像进行对象擦除,获得对应的擦除图像;将获得的至少一个擦除图像,以及所述各候选图像中除所述至少一个候选图像之外的其他候选图像,作为各样本图像。3.如权利要求2所述的方法,其特征在于,所述基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出符合设定擦除条件的至少一个候选图像,包括:当基于所述各候选图像各自对应的场景类别,从所述各候选图像中,筛选出对应的场景类别为目标场景类别的候选图像时,利用对象检测模型,对筛选出的各候选图像进行对象检测;基于检测结果,将筛选出的各候选图像中,包含目标对象的至少一个候选图像,作为符合设定擦除条件的至少一个候选图像。4.如权利要求1、2或3所述的方法,其特征在于,基于所述各样本图像各自针对所述各参考词的预测概率,结合所述各参考词各自的预测阈值,确定所述各参考词各自的准确性评估值,包括:针对所述各参考词中的每个参考词,分别执行以下操作:基于所述各样本图像分别针对一个参考词的预测概率,从所述各样本图像中,筛选出对应的预测概率大于所述一个参考词的预测阈值的样本图像;按照设定的样本抽取数量,从筛选出的样本图像中,抽取出各标注样本,并基于所述各标注样本各自对应的标注结果,确定所述一个参考词的准确性评估值,其中,每个标注结果用于表征对应标注样本是否具备所述一个参考词。5.如权利要求1、2或3所述的方法,其特征在于,所述各参考词中的每个参考词的预测阈值是通过以下方式确定的:获取针对一个参考词标注的各标签样本,并对所述各标签样本进行参考词预测,获得所述各标签样本分别针对所述一个参考词的预测概率;
基于所述各标签样本分别针对所述一个参考词的预测概率,结合所述各标注样本各自对应的标注结果,确定所述一个参考词在各候选阈值下的准确性评估值;基于所述各候选阈值下的准确性评估值,从所述各候选阈值中,确定所述一个参考词的预测阈值。6.如权利要求1、2或3所述的方法,其特征在于,所述基于获得的各预测概率,结合所述各参考词各自的预测阈值和准确性评估值,获得所述各样本图像各自对应的至少一组关键词,包括:针对所述各样本图像中的每个样本图像,分别执行以下操作:当所述各参考词中,存在对应的预测概率不小于对应的预测阈值的至少一个参考词时,将所述至少一个参考词作为当前样本图像的至少一个非噪声词;当除所述至少一个参考词之外的各其他参考词中,存在对应的准确性评估值小于评估值阈值的至少一个其他参考词时,将所述至少一个其他参考词作为所述当前样本图像的至少一个噪声词;对所述至少一个非噪声词和所述至少一个噪声词进行组合,获得所述当前样本图像对应的至少一组关键词。7.如权利要求6所述的方法,其特征在于,所述对所述至少一个目标词和所述至少一个噪声词进行组合,获得所述当前样本图像对应的至少一组关键词,包括:对所述至少一个非噪声词和所述至少一个噪声词进行组合,获得初始词组,并将所述初始词组作为一组关键词;从所述初始词组,分别删除所述至少一个噪声词,获得至少一组增强词,并将所述至少一组增强词,作为至少一组关键词。8.如权利要求1、2或3...

【专利技术属性】
技术研发人员:郭卉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1