一种跨模态视觉与文本信息匹配方法和装置制造方法及图纸

技术编号：31583680 阅读：15 留言：0更新日期：2021-12-25 11:28

本发明专利技术公开了一种跨模态视觉与文本信息匹配方法和装置，其方法包括以下步骤：通过成熟的目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；将这些区块的视觉向量信息输入到视觉编码器中，从而构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息h

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态视觉与文本信息匹配方法和装置

[0001]本专利技术涉及人工智能领域，尤其是涉及一种跨模态视觉与文本信息匹配方法和装置。

技术介绍

[0002]跨模态数据匹配在许多商业应用中扮演者核心角色。例如视频检索技术需要系统对于查询的文字和所有的视频关键帧信息进行匹配，从而找到相关的视频帧。再例如视频自动生成技术中，需要根据文字的脚本，自动在视频库中找到相关的素材，然后再由视频生成软件将这些素材组合为最终产品。再例如，智能办公场景中，当PPT的文字内容被制作完毕后，需要通过跨模态匹配技术，自动从图库中给标题等关键文字进行配图。因此，提高跨模态视觉
‑
文字匹配算法可以从底层提高上述和其他相关应用的性能，产生更大的商业价值。

技术实现思路

[0003]本专利技术主要是提供一种跨模态视觉与文本信息匹配方法和装置，具有较高的匹配准确度。
[0004]本专利技术针对上述技术问题主要是通过下述技术方案得以解决的：一种跨模态视觉与文本信息匹配方法，包括以下步骤：
[0005]S1、通过目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；
[0006]S2、将这些区块的视觉向量信息输入到TRANSFOMER模型中，构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息h
x
，x∈X；
[0007]S3、对于长度为Y文本信息，采用已经预训练的文本TRANSFOMER编码器模型进行编码，获得每个单词的上下文嵌入向量h
y
...

【技术保护点】

【技术特征摘要】
1.一种跨模态视觉与文本信息匹配方法，其特征在于，包括以下步骤：S1、通过目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；S2、将这些区块的视觉向量信息输入到TRANSFOMER模型中，构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息h
x
，x∈X；S3、对于长度为Y文本信息，采用文本TRANSFOMER编码器模型进行编码，获得每个单词的上下文嵌入向量h
y
，y∈Y；S4、用dot product对于所有的h
x
和h
y
进行匹配计算，得到X
×
Y个分数，这些分数构成X
×
Y的矩阵；S5、对于矩阵的x轴和y轴分别取出每一列和每一行的最大分数，一共获得X+Y个分数，这些分数表示为g，通过g
′
＝logReLU(g)对被取出的分数进行非线性变换；S6、计算最终得分s即为匹配度，最终得分s为所有g
′
的平均数。2.根据权利要求1所述的一种跨模态视觉与文本信息匹配方法，其特征在于，还包括训练过程，训练过程如下：训练数据的采集：首先采集配对的图片和文字信息；损失函数和训练：在给定上述模型和数据后，使用mini
‑
batch的方式进行训练，训练损失函数为交叉熵损失函数，人工标注的文字作为正确答案，而同一个mini
‑
batch中其他的文字信息作为错误答案，交叉熵损失函数为：式中，A是一个mini
‑
batch中文本的数量，g是计算得到的分数，e是自然常数。3.一种跨模态视觉与文本信息匹配装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：赵天成，
申请(专利权)人：宏龙科技杭州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人