图像识别模型的训练方法及装置、图像识别方法及装置制造方法及图纸

技术编号:22565746 阅读:37 留言:0更新日期:2019-11-16 12:18
本申请提供图像识别模型的训练方法及装置、图像识别方法及装置,所述图像识别模型的训练方法包括:获取预训练的图像识别模型和训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的标准描述信息;将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息;根据所述描述信息和所述样本图像对应的标准描述信息计算损失值,调整所述图像识别模型的模型参数和注意力调整机制参数。通过注意力调整机制,使图像识别模型在识别样本图像过程中,能有效关注样本图像的局部特征,避免重复关注样本图像的同一局部特征,提高图像识别模型的识别准确率,提高图像识别模型的训练效率。

Training method and device of image recognition model, image recognition method and device

The application provides a training method and device for an image recognition model, an image recognition method and device, and the training method for the image recognition model includes: acquiring a pre trained image recognition model and training data, wherein the training data includes standard description information corresponding to the sample image and the sample image; inputting the sample image into the image recognition model, according to The attention adjustment mechanism of the model obtains the description information of the sample image; calculates the loss value according to the description information and the standard description information corresponding to the sample image, and adjusts the model parameters and attention adjustment mechanism parameters of the image recognition model. Through the attention adjustment mechanism, the image recognition model can effectively pay attention to the local features of the sample image in the process of recognizing the sample image, avoid repeatedly paying attention to the same local features of the sample image, improve the recognition accuracy of the image recognition model, and improve the training efficiency of the image recognition model.

【技术实现步骤摘要】
图像识别模型的训练方法及装置、图像识别方法及装置
本申请涉及机器学习
,特别涉及图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片。
技术介绍
在实际应用中,很多时候需要通过图像识别模型获取图像的描述信息,例如识别图像中的内容生成表格或公式,识别图像的内容生成描述信息等。在训练和使用图像识别模型时,多采用编码-解码框架,并在解码过程中并结合注意力机制,识别图像中的内容。但是,在结合注意力机制对图像进行解码的过程中,经常会出现多次重复地注意同一位置,造成识别过程耗时严重,识别生成的内容不准确,从而影响图像识别模型的训练效率和图像识别的准确率。那么如何解决上述问题,提高图像识别模型的训练效率,提高图像识别的准确率,就成为目前亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种图像识别模型的训练方法,包括:获取预训练的图像识别模型和训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的标准描述信息;将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息;根据所述描述信息和所述样本图像对应的标准描述信息计算损失值,调整所述图像识别模型的模型参数和注意力调整机制参数。可选的,将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息,包括:将所述样本图像输入至所述图像识别模型的编码端进行编码,获得所述样本图像的局部特征向量集合和全局编码向量;根据所述样本图像的局部特征向量集合获取注意力分布;将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。可选的,将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息,包括:S31、根据所述注意力分布对所述全局编码向量进行解码,生成解码字符集;S32、判断所述图像识别模型的解码端是否完成解码,若否,执行S33,若是,则执行S34;S33、根据模型的注意力调整机制调整所述注意力分布,执行S31;S34、根据所述解码字符集生成所述图像的描述信息。可选的,根据模型的注意力调整机制调整所述注意力分布,包括:获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量;根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量,获取注意力参数向量;根据所述注意力参数向量和关注次数向量,获取上一次注意力分布的衰减率;根据所述上一次注意力分布和所述上一次注意力分布的衰减率,获得当前次的注意力分布。可选的,根据所述注意力分布对所述全局编码向量进行解码,生成解码字符集,包括:将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端,解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。可选的,所述图像识别模型的训练方法,还包括:在所述损失值小于预设阈值的情况下,停止调整所述图像识别模型的模型参数和注意力调整机制参数。根据本申请实施例的第二方面,提供了一种图像识别方法,包括:获取待识别图像;将所述待识别图像输入预先训练好的图像识别模型,所述图像识别模型是通过上述任意一项所述的图像识别模型训练方法得到的图像识别模型;所述图像识别模型响应于所述待识别图像作为输入,根据模型的注意力调整机制获取所述待识别图像的描述信息。可选的,所述图像识别模型包括编码端和解码端;所述图像识别模型响应于所述待识别图像作为输入,根据模型的注意力调整机制获取所述待识别图像的描述信息,包括:将所述待识别图像输入至所述图像识别模型的编码端进行编码,获得所述待识别图像的局部特征向量集合和全局编码向量;根据所述待识别图像的局部特征向量集合获取注意力分布;将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述待识别图像的描述信息。根据本申请实施例的第三方面,提供了一种图像识别模型的训练装置,包括:第一获取模块,被配置为获取预训练的图像识别模型和训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的标准描述信息;输入识别模块,被配置为将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息;调整模块,被配置为根据所述描述信息和所述样本图像对应的标准描述信息计算损失值,调整所述图像识别模型的模型参数和注意力调整机制参数。可选的,所述输入识别模块,包括:编码单元,被配置为将所述样本图像输入至所述图像识别模型的编码端进行编码,获得所述样本图像的局部特征向量集合和全局编码向量;获取单元,被配置为根据所述样本图像的局部特征向量集合获取注意力分布;解码单元,被配置为将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。可选的,所述解码单元,包括:解码子单元,被配置为根据所述注意力分布对所述全局编码向量进行解码,生成解码字符集;判断子单元,被配置为判断所述图像识别模型的解码端是否完成解码;调整子单元,被配置为根据模型的注意力调整机制调整所述注意力分布;生成子单元,被配置为根据所述解码字符集生成所述图像的描述信息。可选的,所述调整子单元,进一步被配置为获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量;根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量,获取注意力参数向量;根据所述注意力参数向量和关注次数向量,获取上一次注意力分布的衰减率;根据所述上一次注意力分布和所述上一次注意力分布的衰减率,获得当前次的注意力分布。可选的,所述解码子单元,进一步被配置为将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端,解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。可选的,所述调整模块,进一步被配置为在所述损失值小于预设阈值的情况下,停止调整所述图像识别模型的模型参数和注意力调整机制参数。根据本申请实施例的第四方面,提供了一种图像识别装置,包括:第二获取模块,被配置为获取待识别图像;输入模块,被配置为将所述待识别图像输入预先训练好的图像识别模型,所述图像识别模型是通过根据上述任意一项所述的图像识别模型训练方法得到的图像识别模型;响应模块,被配置为所述图像识别模型响应于所述待识别图像作为输入,根据模型的注意力调整机制获取所述待识别图像的描述信息。本文档来自技高网...

【技术保护点】
1.一种图像识别模型的训练方法,其特征在于,包括:/n获取预训练的图像识别模型和训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的标准描述信息;/n将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息;/n根据所述描述信息和所述样本图像对应的标准描述信息计算损失值,调整所述图像识别模型的模型参数和注意力调整机制参数。/n

【技术特征摘要】
1.一种图像识别模型的训练方法,其特征在于,包括:
获取预训练的图像识别模型和训练数据,其中,所述训练数据包括样本图像和所述样本图像对应的标准描述信息;
将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息;
根据所述描述信息和所述样本图像对应的标准描述信息计算损失值,调整所述图像识别模型的模型参数和注意力调整机制参数。


2.如权利要求1所述的图像识别模型的训练方法,其特征在于,将所述样本图像输入所述图像识别模型,根据模型的注意力调整机制获取所述样本图像的描述信息,包括:
将所述样本图像输入至所述图像识别模型的编码端进行编码,获得所述样本图像的局部特征向量集合和全局编码向量;
根据所述样本图像的局部特征向量集合获取注意力分布;
将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。


3.如权利要求2所述的图像识别模型的训练方法,其特征在于,将所述全局编码向量输入至所述图像识别模型的解码端,根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息,包括:
S31、根据所述注意力分布对所述全局编码向量进行解码,生成解码字符集;
S32、判断所述图像识别模型的解码端是否完成解码,若否,执行S33,若是,则执行S34;
S33、根据模型的注意力调整机制调整所述注意力分布,执行S31;
S34、根据所述解码字符集生成所述图像的描述信息。


4.如权利要求3所述的图像识别模型的训练方法,其特征在于,根据模型的注意力调整机制调整所述注意力分布,包括:
获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量;
根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量,获取注意力参数向量;
根据所述注意力参数向量和关注次数向量,获取上一次注意力分布的衰减率;
根据所述上一次注意力分布和所述上一次注意力分布的衰减率,获得当前次的注意力分布。


5.如权利要求3所述的图像识别模型的训练方法,其特征在于,根据所述注意力分布对所述全局编码向量进行解码,生成解码字符集,包括:
将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端,解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。


6.如权利要求1所述的图像识别模型的训练方法,其特征在于,...

【专利技术属性】
技术研发人员:史红亮廖敏鹏李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山数字娱乐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1