学习方法及装置、程序、学习完毕模型以及文本生成装置制造方法及图纸

技术编号：31228851 阅读：18 留言：0更新日期：2021-12-08 09:45

本发明专利技术提供一种根据图像自动生成文本的处理中所使用的模型的学习方法及装置、程序、学习完毕模型以及文本生成装置。本发明专利技术的一方式所涉及的学习方法使用学习模型，并使用第1图像、第1元数据及第1文本的组合作为学习数据，该学习模型具备：特征量提取部，从图像中提取图像特征量；文本生成部，根据图像特征量生成推断文本；及统计量推断部，根据文本生成推断图像统计量。计算根据第1图像的第1图像特征量推断的第1推断文本的第1误差、根据第1文本推断的第1推断图像统计量的第2误差及根据第1推断文本推断的第2推断图像统计量的第3误差，更新学习模型的参数。更新学习模型的参数。更新学习模型的参数。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】学习方法及装置、程序、学习完毕模型以及文本生成装置

[0001]本专利技术涉及一种学习方法及装置、程序、学习完毕模型以及文本生成装置，尤其涉及一种实现与图像相关的文本的生成的机器学习技术、图像处理技术及自然语言处理技术。

技术介绍

[0002]作为根据图像自动生成图像标题的技术，已知有非专利文献1中所记载的技术。在非专利文献1中提出了一种图像标题生成器，其通过组合从图像中提取图像的特征的卷积神经网络(CNN：Convolutional neural network)和基于所提取的图像特征量来生成基于自然语言的标题的递归型神经网络(RNN：R ecurrent Neural Network)而成。另外，标题包含在文本的概念中。
[0003]在非专利文献2中，对以往的图像标题的自动生成技术概括地进行了总结。
[0004]在非专利文献3中记载了一种研究，其中，使用条件生成对抗网络(Cond itional GAN：Conditional Generative Adversarial Network)，在学习时进行除了图像以外的输入，由此从1个模型输出各种文体。
[0005]以往技术文献
[0006]非专利文献
[0007]非专利文献1：Oriol Vinyals，Alexander Toshev，Samy Bengio，Dumitru Erhan“Show and Tell：A Neural Image Caption Generator”，arXiv：1411.4555
[...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习方法，其包括如下步骤：使用学习模型，所述学习模型包括：特征量提取部，从图像中提取图像特征量；文本生成部，根据所述图像特征量来生成与所述图像有关的推断文本；及统计量推断部，接收所述推断文本或正解文本的输入，推断与所输入的文本相对应的图像的统计量而生成推断图像统计量；接收将学习用第1图像与作为对所述第1图像的所述正解文本的第1文本组合而成的多个学习数据的输入；将所述第1图像输入到所述特征量提取部来获取第1图像特征量；将所述第1图像特征量输入到所述文本生成部来获取第1推断文本；对于所述第1推断文本计算与所述第1文本的第1误差；将所述第1文本输入到所述统计量推断部来获取第1推断图像统计量；对于所述第1推断图像统计量计算与根据所述第1图像计算的第1图像统计量的第2误差；将所述第1推断文本输入到所述统计量推断部来获取第2推断图像统计量；对于所述第2推断图像统计量计算与所述第1图像统计量的第3误差；根据所述第2误差来更新所述统计量推断部的参数；及根据所述第1误差及所述第3误差来至少更新所述文本生成部的参数。2.根据权利要求1所述的学习方法，其中，所述文本生成部为根据所述图像特征量和与所述图像建立有关联的有关用户的元数据生成所述推断文本的模块，所述学习模型还包括元数据推断部，所述元数据推断部接收所述推断文本或所述第1文本的输入，推断与所输入的文本相对应的用户的元数据而生成推断元数据，所述学习数据还包括与所述第1图像建立有关联的有关第1用户的第1元数据，通过将所述第1图像特征量和所述第1元数据输入到所述文本生成部来获取所述第1推断文本，所述学习方法还包括如下步骤：将所述第1文本输入到所述元数据推断部来获取第1推断元数据；对于所述第1推断元数据计算与所述第1元数据的第4误差；根据所述第4误差来更新所述元数据推断部的参数；将所述第1推断文本输入到所述元数据推断部来获取第2推断元数据；及对于所述第2推断元数据计算与所述第1元数据的第5误差，根据所述第5误差来至少更新所述文本生成部的参数。3.根据权利要求2所述的学习方法，其中，所述第1用户相当于所述图像的摄影者、创建者、发布者、提供者及所有者中的至少1个，所述第1元数据包括表示所述第1用户的属性的信息。4.根据权利要求2或3所述的学习方法，其中，所述第1文本包括由所述第1用户创建的文章。5.根据权利要求2至4中任一项所述的学习方法，其中，
所述第1图像为由所述第1用户发布到社交网络服务的图像，所述第1文本为由所述第1用户发布到所述社交网络服务的文章，所述第1元数据包括在所述社交网络服务中注册的所述第1用户的用户信息的至少一部分。6.根据权利要求2至5中任一项所述的学习方法，其中，所述第1图像为将所述第1用户所接收的邮件转换为图像信息的图像，所述第1文本包括所述第1用户所发送的邮件的文章。7.根据权利要求1至6中任一项所述的学习方法，其中，所述学习...

【专利技术属性】
技术研发人员：大关诚，
申请(专利权)人：富士胶片株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人