当前位置: 首页 > 专利查询>清华大学专利>正文

一种从红外图像中解译文字描述的方法及装置制造方法及图纸

技术编号:35186250 阅读:25 留言:0更新日期:2022-10-12 17:57
本发明专利技术提出一种从红外图像中解译文字描述的方法及装置,属于计算机视觉和红外图像处理领域。其中,所述方法包括:获取红外图像,将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述,所述文字描述包含所述红外图像中的目标以及所述目标之间的关系。本发明专利技术通过从红外图像获取目标及其周围的重要热源信息,可使人们可以在任意时间、任意地点对环境信息进行捕获和解译,不再局限于可见光充足的条件下,填补了环境信息解译在暗光或无光环境下使用范围的空白,对所关心目标在弱光或无光下的捕获与描述具有极大的实用意义。义。义。

【技术实现步骤摘要】
一种从红外图像中解译文字描述的方法及装置


[0001]本专利技术属于计算机视觉和红外图像处理领域,具体涉及一种从红外图像中解译文字描述的方法及装置。

技术介绍

[0002]人们实时获取环境信息是在通过接收并处理可见光的条件下进行的,当视力受损或可捕获的可见光信息较少时,就无法通过足够的信息来获取具体的环境情况。随着人工智能的迭代发展,现有技术已经可以解译可见光图像,对其中的物品进行识别并加以简单的描述,如识别家居用品、阅读和扫描文本、描述场景、识别朋友甚至可以描述其他应用程序中的图像,比如电子邮件、社交媒体程序等。而且有的对象和对象之间是存在交互的,现有技术不仅可以识别对象,比如“一个人,一条街道,一个行李箱”,还可以识别对象与对象之间的关系,比如“一个人提着一个行李箱走在街道上”。
[0003]然而,现有的将图像信息映射到文字的描述机制,所有解译均通过可见光图像进行,并且图像中需要有充足的对象和物体信息。但如果在暗光或无光条件下,可见光信息变得极为稀少,现有技术则无法通过可见光图像精准识别对象并描述其中的交互信息,存在以下缺陷:
[0004]①
从图像中解译文字描述局限于可见光较强的环境而且能通过传感器获得较多可见光信息的情况,图像中的目标特征要明显、无遮拦。当光线不足或无光而导致在相应环境下目标特征不明显的情况,现有方法无法精确、合理的得到解译图像的正确结果。
[0005]②
实时处理能力差,现有图像解译模型体量较大,对设备性能要求高,不仅需要高算力而且过于依赖通信环境,无法在完全离线的情况下独立、快速、准确的完成解译功能。
[0006]③
现有解译模型局限于某个特定的场景条件下,当场景物件较多,较繁杂时,即使光线充足,目标特征与环境特征相似时会导致极大的识别偏差进而造成解译错误。

技术实现思路

[0007]本专利技术的目的是为克服已有技术的不足之处,提出一种从红外图像中解译文字描述的方法及装置。本专利技术通过从红外图像获取目标及其周围的重要热源信息,可使人们可以在任意时间、任意地点对环境信息进行捕获和解译,不再局限于可见光充足的条件下,填补了环境信息解译在暗光或无光环境下使用范围的空白,对所关心目标在弱光或无光下的捕获与描述具有极大的实用意义。
[0008]本专利技术第一方面实施例提出一种从红外图像中解译文字描述的方法,包括:
[0009]获取红外图像;
[0010]将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述,所述文字描述包含所述红外图像中的目标以及所述目标之间的关系。
[0011]在本专利技术的一个具体实施例中,在所述将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述之前,还包括:
[0012]训练所述红外图像描述网络;
[0013]所述训练所述红外图像描述网络包括:
[0014]构建红外图像训练集,所述红外图像训练集包含红外图像及对应的文字描述;
[0015]构建红外图像描述网络,所述红外图像描述网络包括依次连接的CNN特征提取子网络、RNN注意力机制子网络和LSTM子网络;其中,所述CNN特征提取子网络用于提取输入图像的特征;所述RNN注意力机制子网络用于根据所述特征,从备选描述语料库中提取所述图像中目标对应的单词;所述LSTM子网络用于根据单词确定描述语句的语序;
[0016]利用所述红外图像训练集训练所述红外图像描述网络,得到训练完毕的红外图像描述网络。
[0017]在本专利技术的一个具体实施例中,所述CNN特征提取子网络采用Resnet预训练模型。
[0018]在本专利技术的一个具体实施例中,所述备选描述语料库是将所述红外图像训练集中每张图像对应的文字描述拆分成单词后组成的单词集合。
[0019]在本专利技术的一个具体实施例中,所述红外图像训练集中红外图像的生成方法为:
[0020]获取可见光图像集,所述可见光图像集包含可见光图像及对应的文字描述;
[0021]将所述可见光图像输入预设的图像转译模型,得到对应的红外图像;
[0022]将所述红外图像及对应的可见光图像的文字描述组成训练样本以构建所述红外图像训练集。
[0023]在本专利技术的一个具体实施例中,在所述将所述可见光图像输入预设的图像转译模型,得到对应的红外图像之前,还包括:
[0024]训练所述图像转译模型;
[0025]所述训练所述图像转译模型,包括:
[0026]获取可见光

红外图像对数据集,所述可见光

红外图像对数据集包含多组可见光

红外图像对,每组可见光

红外图像对通过对同一地点分别采集可见光图像和红外图像获得;
[0027]构建图像转译模型,所述图像转译模型包含两个结构完全相同的对抗性生成器网络,其中第一生成器网络用于将输入的可见光图像转化为对应的红外图像,第二生成器网络用于将输入的红外图像转化为对应的可见光图像;
[0028]利用所述可见光

红外图像对数据集训练所述图像转译模型,得到训练完毕的图像转译模型。
[0029]在本专利技术的一个具体实施例中,在所述将所述红外图像及对应的可见光图像的文字描述组成训练样本之前,还包括:
[0030]删除所述可见光图像的文字描述中与红外图像无关的信息,得到优化后的文字描述。
[0031]本专利技术第二方面实施例提出一种从红外图像中解译文字描述的装置,包括:
[0032]红外图像获取模块,用于获取红外图像;
[0033]文字描述生成模块,用于将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述,所述文字描述包含所述红外图像中的目标以及所述目标之间的关系。
[0034]本专利技术第三方面实施例提出一种电子设备,包括:
[0035]至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0036]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种从红外图像中解译文字描述的方法。
[0037]本专利技术第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种从红外图像中解译文字描述的方法。
[0038]本专利技术的特点及有益效果:
[0039]1.本专利技术弥补了目前解译文字描述局限于可见光较强且需获得较多可见光信息的问题,再加上现在图片解译成文字任务对全方面、多角度、多模态、全天候环境问题感知的急切需求,本专利技术利用红外图像的优势,完全实现了所需功能,即对弱光或无光环境下,对环境信息及目标信息的捕获、处理、感知与实现图片到文字的映射,即有一定的精准度,又有一定的自由度。
[0040]2.本专利技术的红外图像描述网络体量较小,可完全在离线模式下实时运行,也即不需要通信机制和云端平台的支持,节约了信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种从红外图像中解译文字描述的方法,其特征在于,包括:获取红外图像;将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述,所述文字描述包含所述红外图像中的目标以及所述目标之间的关系。2.根据权利要求1所述的方法,其特征在于,在所述将所述红外图像输入预设的红外图像描述网络,得到所述图像对应的文字描述之前,还包括:训练所述红外图像描述网络;所述训练所述红外图像描述网络包括:构建红外图像训练集,所述红外图像训练集包含红外图像及对应的文字描述;构建红外图像描述网络,所述红外图像描述网络包括依次连接的CNN特征提取子网络、RNN注意力机制子网络和LSTM子网络;其中,所述CNN特征提取子网络用于提取输入图像的特征;所述RNN注意力机制子网络用于根据所述特征,从备选描述语料库中提取所述图像中目标对应的单词;所述LSTM子网络用于根据单词确定描述语句的语序;利用所述红外图像训练集训练所述红外图像描述网络,得到训练完毕的红外图像描述网络。3.根据权利要求2所述的方法,其特征在于,所述CNN特征提取子网络采用Resnet预训练模型。4.根据权利要求2所述的方法,其特征在于,所述备选描述语料库是将所述红外图像训练集中每张图像对应的文字描述拆分成单词后组成的单词集合。5.根据权利要求2所述的方法,其特征在于,所述红外图像训练集中红外图像的生成方法为:获取可见光图像集,所述可见光图像集包含可见光图像及对应的文字描述;将所述可见光图像输入预设的图像转译模型,得到对应的红外图像;将所述红外图像及对应的可见光图像的文字描述组成训练样本以构建所述红外图像训练集。6.根据权利要求5所述的方法,其特征在于,在所述将所述可见光图像输入预设的图像转译模型,得到对应的红外图像之前,还包括:训练所...

【专利技术属性】
技术研发人员:刘华平高晨峻袁小虎董言治
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1