当前位置: 首页 > 专利查询>吴致远专利>正文

基于深度学习的面向图像的端到端中文古诗词推荐方法技术

技术编号:34961090 阅读:23 留言:0更新日期:2022-09-17 12:40
本发明专利技术公开了一种基于深度学习的面向图像的端到端中文古诗词推荐方法,本发明专利技术首先对图像和中国传统古诗词两类数据进行自动化分析处理,分别得到图像和中文古诗词的特征提取模型,从而针对用户输入的图像,推荐合适的中文古诗词。与现有的古诗词推荐方法相比,本发明专利技术一方面考虑了中文古诗词的多标签假设充分提取了标签之间的相关性;另一方面现有大部分古诗词推荐方法先基于图像特征提取关键词信息然后基于关键词推荐古诗词,而本发明专利技术是基于图像推荐中文古诗词的端到端模型框架,直接根据提取的图像特征推荐中文古诗词,避免将关键词作为中间结果导致的信息缺失。词作为中间结果导致的信息缺失。

【技术实现步骤摘要】
基于深度学习的面向图像的端到端中文古诗词推荐方法


[0001]本专利技术涉及基于深度学习技术的图像处理和自然语言处理技术,尤其涉及一种基于深度学习的面向图像的端到端中文古诗词推荐方法。

技术介绍

[0002]在现有基于图像推荐其他模态数据的问题中,针对输入图片,研究人员最初选择使用中英文文本进行描述。但随着自然语言处理相关技术的发展,研究人员开始基于图像推荐较复杂的古典诗歌。
[0003]为了解决这个问题,有些研究人员提出利用关键词或简单的文本描述作为图像和诗歌之间的桥梁:先对图像进行解析,并利用现有图像捕获(Image Captioning)技术生成描述文本或关键词,然后根据文本或关键词推荐合适的古诗词。虽然这类方法将原问题分解为了两个更容易的子问题,但使用中间描述文本会导致信息缺失,限制了方法的预测性能。例如iPoemRec将古典诗歌的常见情感意象映射到同一空间,并分别根据图像中的景物和诗歌语句中的关键词将图像和诗歌映射到该空间,从而在该空间计算图片与诗歌之间的距离。显然这种只关注局部特征而忽略全局的方法会造成信息的缺失。
[0004]还有些方法尝试不直接推荐现有古典诗歌,而是学习诗歌的风格、语法并基于图像中的景物生成新的诗歌。首先根据图像生成现代文描述语句,然后利用递归神经网络将现代文转化为特定律诗。但由于缺少适用于古典诗歌生成的模型,并且缺乏足量合适的诗词数据集,生成任务的效果难以直接应用于实际问题。
[0005]此外,在学习诗歌的特征提取模型过程中,有些研究人员简单地假设了诗歌的标签(情感或意象)是唯一的。而实际上,诗歌中往往蕴含着复杂的情感和复数的意象,同时不同情感之间存在相关性,而意象和情感之间也不是简单的一一对应关系,即一个样本能够同时关联多个标签且标签之间具有相关性。因此诗歌特征提取模型的训练过程需要利用多标签学习问题的知识。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供一种基于深度学习的面向图像的端到端中文古诗词推荐方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于深度学习的面向图像的端到端中文古诗词推荐方法,其特征在于,包括以下步骤:
[0008]步骤(1):根据中文古诗词数据特点,在开源图像数据的基础上,进行图像的增减和标签空间的调整,并利用调整后的数据集完成图像特征提取模型的训练;
[0009]步骤(2):从互联网收集中文古诗词构建诗词数据库,训练用于古诗词特征提取的Bert模型,提取数据库中诗词的特征向量;
[0010]步骤(3):输入图片,中文古诗词深度推荐模型推荐合适的古诗。
[0011]进一步地,所述步骤(1)包括以下子步骤:
[0012](1.1)在图像的标签空间中增加了诗词的意象和主题,记为Y
item
,得到图像数据训练集表示如下:
[0013][0014]其中,i为图像的索引,n为图像总数量,x
i
为图像像素特征,y
i
为图像的分类标签,并满足y
i
∈Y
e
∪Y
item
,即y
i
属于原有标签集合Y
e
或新增标签集合Y
item

[0015](1.2)利用图像数据训练集训练神经网络,训练损失为均方误差,优化策略为梯度下降,损失函数表示如下:
[0016][0017]其中,x
i
表示从训练集输入的图片,l
i
表示图片对应的标签向量,F1表示用于图像标签预测的神经网络,||
·
||2是向量的L2范数,Ω(F1)表示神经网络的正则项,用于控制模型复杂度;将神经网络F1最后几层线性映射层丢弃,即获得图像特征提取模型,记为F1′

[0018]进一步地,所述步骤(2)包括以下子步骤:
[0019](2.1)收集中文古诗词;
[0020](2.2)利用标签间的低秩假设提取标签和隐层特征间的相关性,矩阵的低秩假设通过最小化矩阵的奇异值之和进行近似;模型Bert的训练损失可以表示如下:
[0021][0022]其中,m表示古诗词总数量,x

j
表示输入的某个古诗词,l

j
表示诗词对应的标签向量,F2表示用于诗词标签预测的Bert模型,Ω(F2)表示Bert的正则项,用于控制模型复杂度,F2(X

)表示所有古诗词的预测标签矩阵,||
·
||
*
是核范数,用于计算矩阵奇异值之和;将Bert模型F2最后几层线性映射层丢弃,即获得中文古诗词特征提取模型,记为F2′

[0023](2.3)确保图像特征提取模型F1′
和中文古诗词特征提取模型F2′
提取到的特征维度相同,将F1′
和F2′
结合相同线性映射模型,最后利用和交替优化图像特征提取模型F1′
和中文古诗词特征提取模型F2′

[0024]进一步地,所述利用和交替优化图像特征提取模型F1′
和中文古诗词特征提取模型F2′
具体为,
[0025](a)固定F1′
和F2′
,根据图像数据和中文古诗词数据,分别用和计算线性映射模型参数的梯度并更新;
[0026](b)固定线性映射层,根据图像数据和中文古诗词数据,分别用和计算特征提取模型F1′
和F2′
的参数的梯度并更新;
[0027](c)利用F2′
提取诗词库中所有诗词的特征,生成对应特征向量,记第j首诗词的特征向量p
j
,所有特征向量组成的矩阵为P。
[0028]进一步地,所述步骤(3)具体为:针对用户输入的图像,利用图像特征提取模型F1′
提取输入图像的特征,记特征向量为F1′
(x),同时计算;已知模型F1′
和F2′
提取的特征在同一特征空间中,即F1′
(x)与P位于同一特征空间,直接用该特征空间内的欧氏距离衡量输入
图像与诗词的距离,并选择最邻近诗词进行推荐,即求解以下最小化问题,
[0029][0030]其中,诗词的索引j满足1≤j≤m,m表示古诗词总数量,表示返回使式子最小化时j的取值,p
j
是第j首诗词的特征向量,||
·
||2是向量的L2范数
[0031]本专利技术具有的有益效果是:本专利技术提出了一种端到端的面向图像的中文古诗词推荐框架,突破了现有图像描述任务中只使用英文或现代中文描述的限制。所提出模型有两个主要优点:1)本专利技术利用多标签学习任务的相关知识对中文古诗词数据进行标签增强,考虑了中文古诗词情感意象之间的复杂关系,提升了中文古诗词特征提取的质量。2)本专利技术提出了图像到古诗词的端到端推荐框架,构建了图像和中文古诗词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的面向图像的端到端中文古诗词推荐方法,其特征在于,包括以下步骤:步骤(1):根据中文古诗词数据特点,在开源图像数据的基础上,进行图像的增减和标签空间的调整,并利用调整后的数据集完成图像特征提取模型的训练;步骤(2):从互联网收集中文古诗词构建诗词数据库,训练用于古诗词特征提取的Bert模型,提取数据库中诗词的特征向量;步骤(3):输入图片,中文古诗词深度推荐模型推荐合适的古诗。2.根据权利要求1所述基于深度学习的面向图像的端到端中文古诗词推荐方法,其特征在于,所述步骤(1)包括以下子步骤:(1.1)在图像的标签空间中增加了诗词的意象和主题,记为Y
item
,得到图像数据训练集表示如下:其中,i为图像的索引,n为图像总数量,x
i
为图像像素特征,y
i
为图像的分类标签,并满足y
i
∈Y
e
∪Y
item
,即y
i
属于原有标签集合Y
e
或新增标签集合Y
item
;(1.2)利用图像数据训练集训练神经网络,训练损失为均方误差,优化策略为梯度下降,损失函数表示如下:其中,x
i
表示从训练集输入的图片,l
i
表示图片对应的标签向量,F1表示用于图像标签预测的神经网络,||
·
||2是向量的L2范数,Ω(F1)表示神经网络的正则项,用于控制模型复杂度;将神经网络F1最后几层线性映射层丢弃,即获得图像特征提取模型,记为F1′
。3.根据权利要求2所述基于深度学习的面向图像的端到端中文古诗词推荐方法,其特征在于,所述步骤(2)包括以下子步骤:(2.1)收集中文古诗词;(2.2)利用标签间的低秩假设提取标签和隐层特征间的相关性,矩阵的低秩假设通过最小化矩阵的奇异值之和进行近似;模型Bert的训练损失可以表示如下:其中,m表示古诗词总数量,x

j
表示输入的某个古诗词,l

j
表示诗词对应的标签向量,F2表示用...

【专利技术属性】
技术研发人员:吴致远
申请(专利权)人:吴致远
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1