学习方法及装置、程序、学习完毕模型以及文本生成装置制造方法及图纸

技术编号:31228851 阅读:18 留言:0更新日期:2021-12-08 09:45
本发明专利技术提供一种根据图像自动生成文本的处理中所使用的模型的学习方法及装置、程序、学习完毕模型以及文本生成装置。本发明专利技术的一方式所涉及的学习方法使用学习模型,并使用第1图像、第1元数据及第1文本的组合作为学习数据,该学习模型具备:特征量提取部,从图像中提取图像特征量;文本生成部,根据图像特征量生成推断文本;及统计量推断部,根据文本生成推断图像统计量。计算根据第1图像的第1图像特征量推断的第1推断文本的第1误差、根据第1文本推断的第1推断图像统计量的第2误差及根据第1推断文本推断的第2推断图像统计量的第3误差,更新学习模型的参数。更新学习模型的参数。更新学习模型的参数。

【技术实现步骤摘要】
【国外来华专利技术】学习方法及装置、程序、学习完毕模型以及文本生成装置


[0001]本专利技术涉及一种学习方法及装置、程序、学习完毕模型以及文本生成装置,尤其涉及一种实现与图像相关的文本的生成的机器学习技术、图像处理技术及自然语言处理技术。

技术介绍

[0002]作为根据图像自动生成图像标题的技术,已知有非专利文献1中所记载的技术。在非专利文献1中提出了一种图像标题生成器,其通过组合从图像中提取图像的特征的卷积神经网络(CNN:Convolutional neural network)和基于所提取的图像特征量来生成基于自然语言的标题的递归型神经网络(RNN:R ecurrent Neural Network)而成。另外,标题包含在文本的概念中。
[0003]在非专利文献2中,对以往的图像标题的自动生成技术概括地进行了总结。
[0004]在非专利文献3中记载了一种研究,其中,使用条件生成对抗网络(Cond itional GAN:Conditional Generative Adversarial Network),在学习时进行除了图像以外的输入,由此从1个模型输出各种文体。
[0005]以往技术文献
[0006]非专利文献
[0007]非专利文献1:Oriol Vinyals,Alexander Toshev,Samy Bengio,Dumitru Erhan“Show and Tell:A Neural Image Caption Generator”,arXiv:1411.4555
[0008]非专利文献2:牛久祥孝“图像标题的自动生成”[2018年12月22日搜索]、互联网<URL:https://www.slideshare.net/YoshitakaUshiku/ss

57148161>
[0009]非专利文献3:Bo Dai,Sanja Fidler,Raquel Urtasun,Dahua Lin“Towar ds Diverse and Natural Image Descriptions via a Conditional GAN”,arXiv:1703.06029

技术实现思路

[0010]专利技术要解决的技术课题
[0011]为了获得用于自动生成与图像相对应的文本的文本生成模型,考虑使用学习用图像和与该图像相对应的正解文本的配对数据进行机器学习。但是,对图像的文本表达的自由度大,在以往的学习方法中存在学习模型的参数的收敛缓慢和/或通过学习获得的文本生成模型的推论的精确度不充分的课题。
[0012]本专利技术是鉴于这种情况而完成的,其目的在于提供一种能够提高根据图像自动生成文本的处理中所使用的模型的推论的精确度的学习方法及装置、程序、学习完毕模型以及文本生成装置。
[0013]用于解决技术课题的手段
[0014]本专利技术的一方式所涉及的学习方法为如下学习方法,其包括如下步骤:使用学习
模型,该学习模型包括:特征量提取部,从图像中提取图像特征量;文本生成部,根据图像特征量来生成与图像有关的推断文本;及统计量推断部,接收推断文本或正解文本的输入,推断与所输入的文本相对应的图像的统计量而生成推断图像统计量;接收将学习用第1图像与作为对第1图像的正解文本的第1文本组合而成的多个学习数据的输入;将第1图像输入到特征量提取部来获取第1图像特征量;将第1图像特征量输入到文本生成部来获取第1推断文本;对于第1推断文本计算与第1文本的第1误差;将第1文本输入到统计量推断部来获取第1推断图像统计量;对于第1推断图像统计量计算与根据第1图像计算的第1图像统计量的第2误差;将第1推断文本输入到统计量推断部来获取第2推断图像统计量;对于第2推断图像统计量计算与第1图像统计量的第3误差;根据第2误差来更新统计量推断部的参数;及根据第1误差及第3误差来至少更新文本生成部的参数。
[0015]本方式的学习方法使用组合文本生成部和统计量推断部而成的学习模型,同时进行文本生成部和统计量推断部的学习。根据本方式,导入了使用基于文本生成部的推断结果通过统计量推断部推断的第1推断图像统计量与正解的第1图像统计量的第3误差更新文本生成部的参数的机制,对于自由度高的文本的生成,进行施加了图像统计量的限制的学习。由此,能够获得能够根据所提供的图像生成精确度高的文本的模型。
[0016]基于第1误差的文本生成部的参数的更新定时与基于第3误差的文本生成部的参数的更新定时可以是不同的定时,也可以是同时的定时。并且,更新文本生成部的参数的定时与更新统计量推断部的参数的定时可以是不同的定时,也可以是同时的定时。
[0017]在本专利技术的另一方式所涉及的学习方法中能够设为如下结构:文本生成部为根据图像特征量和与图像建立有关联的有关用户的元数据生成推断文本的模块,学习模型还包括元数据推断部,该元数据推断部接收推断文本或正解文本的输入,推断与所输入的文本相对应的用户的元数据而生成推断元数据,该学习数据还包括与第1图像建立有关联的有关第1用户的第1元数据,通过将第1图像特征量和第1元数据输入到文本生成部来获取第1推断文本,该学习方法还包括如下步骤:将第1文本输入到元数据推断部来获取第1推断元数据;对于第1推断元数据计算与第1元数据的第4误差;根据第4误差来更新元数据推断部的参数;将第1推断文本输入到元数据推断部来获取第2推断元数据;及对于第2推断元数据计算与第1元数据的第5误差,根据第5误差来至少更新文本生成部的参数。
[0018]根据该方式,能够根据用户的属性来改变所生成的文本的文体,生成接近用户意图的文本。
[0019]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:第1用户相当于图像的摄影者、创建者、发布者、提供者及所有者中的至少1个,第1元数据包括表示第1用户的属性的信息。
[0020]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:第1文本包括由第1用户创建的文章。
[0021]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:第1图像为由第1用户发布到社交网络服务的图像,第1文本为由第1用户发布到社交网络服务的文章,第1元数据包括在社交网络服务中注册的第1用户的用户信息的至少一部分。
[0022]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:第1图像为将第1用户所接收的邮件转换为图像信息的图像,第1文本包括第1用户所发送的邮件的文章。
[0023]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:该学习方法还包括根据第1误差来更新特征量提取部的参数的步骤。
[0024]在本专利技术的又一方式所涉及的学习方法中能够设为如下结构:学习模型使用分层型神经网络来构成。
[0025]本专利技术的又一方式所涉及的程序为用于使计算机执行本专利技术的任一方式所涉及的学习方法的处理的程序。
[0026]本专利技术的又一方式所涉及的学习完毕模型为使用本专利技术的任一方式所涉及的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习方法,其包括如下步骤:使用学习模型,所述学习模型包括:特征量提取部,从图像中提取图像特征量;文本生成部,根据所述图像特征量来生成与所述图像有关的推断文本;及统计量推断部,接收所述推断文本或正解文本的输入,推断与所输入的文本相对应的图像的统计量而生成推断图像统计量;接收将学习用第1图像与作为对所述第1图像的所述正解文本的第1文本组合而成的多个学习数据的输入;将所述第1图像输入到所述特征量提取部来获取第1图像特征量;将所述第1图像特征量输入到所述文本生成部来获取第1推断文本;对于所述第1推断文本计算与所述第1文本的第1误差;将所述第1文本输入到所述统计量推断部来获取第1推断图像统计量;对于所述第1推断图像统计量计算与根据所述第1图像计算的第1图像统计量的第2误差;将所述第1推断文本输入到所述统计量推断部来获取第2推断图像统计量;对于所述第2推断图像统计量计算与所述第1图像统计量的第3误差;根据所述第2误差来更新所述统计量推断部的参数;及根据所述第1误差及所述第3误差来至少更新所述文本生成部的参数。2.根据权利要求1所述的学习方法,其中,所述文本生成部为根据所述图像特征量和与所述图像建立有关联的有关用户的元数据生成所述推断文本的模块,所述学习模型还包括元数据推断部,所述元数据推断部接收所述推断文本或所述第1文本的输入,推断与所输入的文本相对应的用户的元数据而生成推断元数据,所述学习数据还包括与所述第1图像建立有关联的有关第1用户的第1元数据,通过将所述第1图像特征量和所述第1元数据输入到所述文本生成部来获取所述第1推断文本,所述学习方法还包括如下步骤:将所述第1文本输入到所述元数据推断部来获取第1推断元数据;对于所述第1推断元数据计算与所述第1元数据的第4误差;根据所述第4误差来更新所述元数据推断部的参数;将所述第1推断文本输入到所述元数据推断部来获取第2推断元数据;及对于所述第2推断元数据计算与所述第1元数据的第5误差,根据所述第5误差来至少更新所述文本生成部的参数。3.根据权利要求2所述的学习方法,其中,所述第1用户相当于所述图像的摄影者、创建者、发布者、提供者及所有者中的至少1个,所述第1元数据包括表示所述第1用户的属性的信息。4.根据权利要求2或3所述的学习方法,其中,所述第1文本包括由所述第1用户创建的文章。5.根据权利要求2至4中任一项所述的学习方法,其中,
所述第1图像为由所述第1用户发布到社交网络服务的图像,所述第1文本为由所述第1用户发布到所述社交网络服务的文章,所述第1元数据包括在所述社交网络服务中注册的所述第1用户的用户信息的至少一部分。6.根据权利要求2至5中任一项所述的学习方法,其中,所述第1图像为将所述第1用户所接收的邮件转换为图像信息的图像,所述第1文本包括所述第1用户所发送的邮件的文章。7.根据权利要求1至6中任一项所述的学习方法,其中,所述学习...

【专利技术属性】
技术研发人员:大关诚
申请(专利权)人:富士胶片株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1