一种模型训练的方法、装置、存储介质及电子设备制造方法及图纸

技术编号：41206345 阅读：28 留言：0更新日期：2024-05-07 22:32

本说明书公开了一种模型训练的方法、装置、存储介质和电子设备，图像分割模型包括图像编码器、文本编码器、解码器。先获取样本图像、样本指代文本及标签。再通过文本编码器确定不同尺度的文本特征，并通过图像编码器确定每个尺度的文本特征对应的图像特征。之后，将每个尺度的文本特征与对应尺度的图像特征进行融合。接着，通过解码器及各尺度的融合特征，得到预测分割结果，根据预测分割结果及标签，对图像分割模型进行训练。也就是说，通过获取图像及文本的不同尺度的特征，捕获了更多特征，并且，通过将同尺度的图像特征与文本特征融合，使得不同模态的特征进行信息交互，提高了图像分割模型输出的预测分割结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及图像处理领域，尤其涉及一种模型训练的方法、装置、存储介质及电子设备。

技术介绍

1、指代图像分割是指从图像中分割出指代文本表述的对象，例如，一张图像中包括黄色、蓝色及红色的甜甜圈，指代文本为“红色甜甜圈”，那么，通过机器学习训练出的图像分割模型可根据输入的指代文本及图像，从图像中定位并分割出红色的甜甜圈。其中，指代文本是指表述了图像中目标物体或区域的语句。

2、指代图像分割技术可应用于各个领域，例如，买家购买某双鞋，但收货后发现鞋已损坏，卖家拒绝退款，则买家向平台商提供举证信息。举证信息包括图像、文字表述、订单截图及视频等私有信息，如开箱视频、商品的损坏部位的图片及买家描述的商品的损坏部位，如这双鞋的鞋尖脱胶。平台商可通过指代图像分割技术自动提取图片中的鞋尖的图像区域，并确认鞋尖是否存在脱胶的问题，以便确定后续操作是为买家退款还是拒绝退款。

3、但目前用于指代图像分割的图像分割模型的准确率较低，基于此，本说明书提供一种模型训练的方法。

技术实现思路

1、...

【技术保护点】

1.一种模型训练的方法，图像分割模型包括图像编码器、文本编码器、解码器，所述方法包括：

2.如权利要求1所述的方法，将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的若干个不同尺度的文本特征，具体包括：

3.如权利要求2述的方法，针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征，具体包括：

4.如权利要求1所述的方法，针对每个尺度的文本特征，通过所述图像分割模型中的图像编码器，根据该尺度的文本特征及所述样本图像，确定与该尺度的文本特征对应的图像特征，具体包括：

<...

【技术特征摘要】

1.一种模型训练的方法，图像分割模型包括图像编码器、文本编码器、解码器，所述方法包括：

3.如权利要求2述的方法，针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征，具体包括：

5.如权利要求3所述的方法，所述图像分割模型还包括自注意力层、全连接层、交叉注意力层；

6.如权利要求3所述的方法，所述图像分割模型还包括自注意力层；

7.如权利要求1所述的方法，将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果，具体包括：

8.如权利要求3所述的方法，将每个尺度的融合特征输入所述图像分割模型中的解码器，得到所述解码器输出的所述样本指代文本对应的预测分割结果，具体包括：

9.如权利要求1所述的方法，根据所述预测分割结果及所述标签，对所述图像分割模型进行训练，具体包括：

10.如权利要求9所述的方法，根据所述第一损失及所述第二损失，对所述图像分割模型进行训练，具体包括：

11.一种模型训练的装置，图像分割模型包括图像编码器、文本编码器、解码器，所述装置包括：

12.如权利要求11所述的装置，所述文本特征确定模块，具体用于将所述样本指代文本输入所述图像分割模型中的文本编码器，得到所述文本编码器输出的所述样本指代文本的单字特征；针对每个尺度，根据预设特征处理方法，对所述单字特征进行特征处理，得到该尺度的文本特征。

13.如权利要求12所述的装置，所述文本特征确定模块，具体用于针对第一尺度，对所述单字特征进行筛选，得到该第一尺度的第一文本特征；针对第二尺度，使用若干个不同尺寸的卷积核对所述单字特征进行卷积，得到若干个卷积后的特征；根据所述若干个卷积后的特征，确定该第二尺度的第二文本特征；针对第三尺度，对所述单字特征进行最大池化，得到该第三尺度的第三文本特征；针对第四尺度，获...

【专利技术属性】
技术研发人员：孙新，吴星，孟昌华，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人