当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于图像和文本特征抽取的游记图文匹配方法组成比例

技术编号:36920080 阅读:58 留言:0更新日期:2023-03-22 18:43
一种基于图像和文本特征抽取的游记图文匹配方法,对于图像特征抽取,首先使用深度网络从图像中检测物体,导出图像特征并对每个物体提取物体特征,然后联合物体特征和图像特征进行编码;对于文本特征抽取,首先对文本进行分词,然后使用深度网络分别从词语层面和语句层面导出文本特征,接着联合词语特征和语句特征进行编码;最后对编码后的图像特征和文本特征计算余弦相似度,根据图文的相似度设定阈值,在文本对应位置选择图片插入。本发明专利技术解决游记编辑时图片选择和插入需要花费大量精力的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于图像和文本特征抽取的游记图文匹配方法


[0001]本专利技术属于多媒体计算领域,涉及图像物体识别和自然语言分析,具体为一种基于图像和文本特征抽取的游记图文匹配方法。

技术介绍

[0002]游记一般包括语义上相关的文字和图片,编辑者需要整理大量的图片并挑选和对应语句相关的图片与文字组成完整的游记内容。一篇内容详实,图文并茂的游记需要花费编辑者大量的精力。游记图文自动匹配可以帮助编辑者自动挑选图片插入到文字语义对应位置。
[0003]现有的游记生成方法分为两类,一类利用便携式设备如手机等移动终端,随时调用设备提供的GPS、时间等数据将图片整理汇合为游记。这类方法不能生成对应的描述性文字,仍需人工寻找合适的图片位置添加文字。另一类根据图片拍摄信息从已有游记文本中多个兴趣点数据中查找与图片匹配的兴趣点数据并插入到对应位置。这类游记编辑方法依赖详细的拍摄数据和游记的兴趣点数据,对于游记文字的编辑要求较高。同时,这些游记编辑方法都需要图片内容以外的数据,如拍摄时间、拍摄地点,在这些数据缺失的情况下无法准确生成符合现实情况的游记。

技术实现思路

[0004]本专利技术要解决的问题是根据游记文本和给定图片集将图片匹配语义符合的文本并插入到对应位置,目的是通过自动匹配减少游记编辑过程中挑选和插入图片的时间成本和人力成本。
[0005]本专利技术的技术方案为:一种基于图像和文本特征抽取的游记图文匹配方法,对游记图文的图像和文本分别进行特征抽取和编码,然后计算图像语义特征和文本语义特征相似度,根据相似度对文本选择匹配的图片插入到文本对应位置;其中,对于图像语义特征,首先使用深度网络从图像中检测物体,导出图像特征并对每个物体提取物体特征,然后联合物体特征和图像特征进行编码得到图像语义特征,对于文本语义特征,首先对文本进行分词,然后使用深度网络分别从词语层面和语句层面导出文本特征,接着联合词语特征和语句特征进行编码得到文本语义特征;最后对图像语义特征和文本语义特征计算相似度,结合图文的相似度设定阈值,根据相似度在文本对应位置插入图像。
[0006]进一步的,图像和文本的特征提取和特征编码包括:
[0007]1)使用Faster R

CNN和预训练参数对图像编码,导出图像特征和物体特征并融合编码为图像语义特征;
[0008]2)使用RoBERTa和中文预训练参数对文本进行分词,对分词结果导出词语特征,对整个语句文本导出语句特征,并将词语特征和语句特征融合编码为文本语义特征;
[0009]3)对步骤1)导出的图像语义特征和步骤2)导出的文本语义特征计算余弦相似度;
[0010]4)根据每个文本和给定图片的相似度选择图片插入到文本所在位置。
[0011]本专利技术通过对游记图文的特征抽取融合和比较相似度,提供了一种游记文本和图像自动匹配的解决方案,实现对于给定游记文本和图片集自动将图片插入到语义对应文本位置。本专利技术利用了跨图像和文本两个模态的图像特征抽取技术,图像物体检测技术、图像物体识别技术、文本分词技术、文本词语特征抽取技术和文本语句特征抽取技术对于游记编辑这一领域给出了无需依赖图片拍摄信息和详细兴趣点文本信息,完全利用跨图像和文本模态的语义理解方法。
[0012]本专利技术的有效利益是:提供了一种游记自动编辑技术,对于给定的游记文本和大量候选图片自动选取图片并插入到文本的语义对应位置,降低了游记编辑的时间和人力成本。本专利技术不依赖于图片拍摄信息和详细兴趣点文本信息,具有良好的广泛性与实用性。
附图说明
[0013]图1为本专利技术的图像和文本特征抽取融合及相似性比较方法流程。
[0014]图2为本专利技术的输入示例一。
[0015]图3为本专利技术的输入示例二。
[0016]图4为本专利技术的输入示例三。
[0017]图5为本专利技术的输入示例四。
[0018]图6为本专利技术的输出示意。
具体实施方式
[0019]本专利技术提出一种基于图像和文本特征抽取的游记图文匹配方法,对于输入的如图2给定的游记文本,以及如图3

5所示的候选图片集,自动选取图片并插入到文本的语义对应位置。如图1所示,本专利技术方法的实现框架包括:
[0020]特征导出模块,使用深度网络从图像中检测物体,导出图像特征并对每个物体提取物体特征,使用深度网络对文本分词并分别从词语层面和语句层面导出文本特征;
[0021]视觉编码模块,联合物体特征和图像特征进行编码,导出图像语义特征;
[0022]语义编码模块,联合词语特征和语句特征进行编码,导出文本语义特征。
[0023]最终将视觉编码模块导出的图像语义特征和语义编码模块导出的文本语义特征计算余弦相似度,根据图文的相似度设定阈值,在文本对应位置选择图片插入。
[0024]下面具体说明本专利技术的实施。本专利技术基于图像和文本特征抽取的游记图文匹配方法具体包括以下步骤:
[0025]1)使用Faster R

CNN和预训练参数对图像编码,导出图像整体特征和物体特征并融合编码为图像语义特征,具体为:
[0026]1.1)使用Faster R

CNN和预训练参数对图像编码,得到图像特征;
[0027]1.2)使用Faster R

CNN和预训练参数基于步骤1.1)的图像特征检测并识别物体,得到物体包围框位置和物体类别;
[0028]1.3)提取步骤1.2)预测物体类别和包围框位置前一层网络的物体特征;
[0029]1.4)将步骤1.2)的物体类别编码为和步骤1.3)的物体特征相同维度并和物体特征连接,并编码得到最终图像特征。图像特征融合编码具体为:
[0030]1.4.1)将步骤1.4)连接后的图像特征经过1x1卷积编码;
[0031]1.4.2)将步骤1.4.2)编码后的图像特征经过全连接编码得到图像语义特征。
[0032]2)使用RoBERTa和中文预训练参数对文本进行分词,对分词结果导出词语特征,对整个语句文本导出语句特征,并将词语特征和语句特征融合编码为文字语义特征,具体为:
[0033]2.1)使用RoBERTa和中文预训练参数对文本进行分词;
[0034]2.2)使用RoBERTa和中文预训练参数基于步骤1)分词结果导出词语特征;
[0035]2.3)使用RoBERTa和中文预训练参数对整个语句文本导出语句特征;
[0036]2.4)将步骤2)的词语特征经过RNN网络融合;
[0037]2.5)将步骤3)的语句特征和步骤4)的融合编码词语特征连接得到文本特征。
[0038]3)对步骤1)导出的图像语义特征和步骤2)导出的文本语义特征计算余弦相似度;
[0039]4)根据每个文本和给定图片的相似度选择图片插入到文本所在位置,最终结果示意如图6。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像和文本特征抽取的游记图文匹配方法,其特征是对游记图文的图像和文本分别进行特征抽取和编码,然后计算图像语义特征和文本语义特征相似度,根据相似度对文本选择匹配的图片插入到文本对应位置;其中,对于图像语义特征,首先使用深度网络从图像中检测物体,导出图像特征并对每个物体提取物体特征,然后联合物体特征和图像特征进行编码得到图像语义特征,对于文本语义特征,首先对文本进行分词,然后使用深度网络分别从词语层面和语句层面导出文本特征,接着联合词语特征和语句特征进行编码得到文本语义特征;最后对图像语义特征和文本语义特征计算相似度,结合图文的相似度设定阈值,根据相似度在文本对应位置插入图像。2.根据权利要求1所述的一种基于图像和文本特征抽取的游记图文匹配方法,其特征是图像和文本的特征提取和特征编码包括:1)使用Faster R

CNN和预训练参数对图像编码,导出图像特征和物体特征并融合编码为图像语义特征;2)使用RoBERTa和中文预训练参数对文本进行分词,对分词结果导出词语特征,对整个语句文本导出语句特征,并将词语特征和语句特征融合编码为文本语义特征;3)对步骤1)导出的图像语义特征和步骤2)导出的文本语义特征计算余弦相似度;4)根据每个文本和给定图片的相似度选择图片插入到文本所在位置。3.根据权利要求2所述的一种基于图像和文本特征抽取的游记图文匹配方法,其特...

【专利技术属性】
技术研发人员:任桐炜黄蕾于凡贺云青
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1