一种从视频中自动识别地标的方法技术

技术编号：30165351 阅读：27 留言：0更新日期：2021-09-25 15:21

本发明专利技术公开了一种从视频中自动识别地标的方法，从视频中获取帧信息，对图像帧进行地标二分类，根据初筛结果，对分类为地标的图像进行度量学习与地标库进行比较确定地标种类，若视频包含字幕或语音信息，利用OCR和语音识别提取出文本信息，然后对文本信息进行实体提取利用文本的实体识别结果对地标种类进行二次确定，确定地标后，对未能确定种类的地标进行筛查根据是否为新地标对地标库进行更新，至此完成整套地标识别和更新的全过程。本发明专利技术对于提取不同类型的视频都有很好的效果，不需要进行人工标注，便可以实现地标识别工作，同时具有自动更新地标库的功能，在节约人工成本的同时也实现了地标识别的可持续更新的能力。同时也实现了地标识别的可持续更新的能力。同时也实现了地标识别的可持续更新的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种从视频中自动识别地标的方法

[0001]本专利技术涉及一种视频图像处理方法，具体涉及一种从视频中自动识别地标的方法。

技术介绍

[0002]随着电视新闻类节目、电视剧、电影、综艺节目、短视频的快速发展，视频类信息获取逐渐替代了传统的纸质类信息获取，成为了人们获取信息的第一途径。但是，由于从视频中获取信息具有广泛性和繁杂性，因此，对特定信息的抽取成为人们研究的重点。其中，如何对视频中的地标进行识别，对于信息抽取和信息获取而言具有重要的研究价值。利用传统的人工识别方法或简单的图像处理方法对视频中的地标进行识别往往费时费力，且不能得到好的识别效果。
[0003]有鉴于此，特提出本申请。

技术实现思路

[0004]本专利技术所要解决的技术问题是：现有的人工识别方法或简单的图像处理方法对视频中的地标进行识别往往费时费力，且不能得到好的识别效果，目的在于提供一种从视频中自动识别地标的方法，解决现有从视频中获取地标的方法的不足。
[0005]本专利技术通过下述技术方案实现：
[0006]一种从视...

【技术保护点】

【技术特征摘要】
1.一种从视频中自动识别地标的方法，其特征在于，包括以下步骤：步骤1：获取多张不同类别的地标图片，得到标准地标图片样本；根据所述标准地标图片样本构建地标分类的自建数据集，所述自建数据集中包括地标图片样本和非地标图片样本；步骤2：利用ReXnet网络对所述自建数据集进行分类训练，得到图片分类模型，所述ReXnet网络为针对Mobilenet网络结构进行改进后的ReXnet网络；步骤3：收集待识别视频，对所述待识别视频按照每隔15帧解码一次的方式进行解码，得到多张待识别图片；利用所述图片分类模型对所述多张待识别图片进行分类预测，得到多张地标预测图片和多张非地标预测图片；步骤4：将所述标准地标图片样本存入地标库，利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型对所述标准地标图片样本进行训练，得到特征匹配初始模型，并对所述特征匹配初始模型进行超参数调整，得到特征匹配模型；步骤5：利用所述特征匹配模型对所述多张地标预测图片进行特征提取，得到地标预测特征向量集，利用所述特征匹配模型对所述标准地标图片样本进行特征提取，得到标准地标特征向量集；步骤6：针对每一张地标预测图片，利用地标预测图片对应的地标预测特征向量和所述标准地标特征向量集，获取地标预测图片与所有标准地标图片的相似度阈值，得到相似度阈值数据集；步骤7：根据所述相似度阈值数据集确定每一张地标预测图片中地标的类别，得到地标识别结果。2.根据权利要求1所述的一种从视频中自动识别地标的方法，其特征在于，构建地标分类的自建数据集的方法为：步骤1.1：收集多个不同节目类型的，包含有所述标准地标图片样本中所有类别的地标的样例视频，形成视频样本；步骤1.2：针对所述视频样本中的每一个样例视频，按照每隔15帧解码一次的方式，将样例视频解码成为多张样例图片，形成图片样本；步骤1.3：从所述图片样本中筛选出所有包含地标的图片，得到地标图片样本；步骤1.4：另收集多张不含地标的图片，得到非地标图片样本；步骤1.5：将所述地标图片样本和所述非地标图片样本组合成为地标分类的自建数据集。3.根据权利要求1或2所述的一种从视频中自动识别地标的方法，其特征在于，所述步骤4具体包括：步骤4.1：将所述标准地标图片样本存入地标特征库，并将所述地标特征库分为地标特征合集和验证集，所述地标特征合集中包括多个不同地标特征的类，每一个地标特征的类中包括多张具有同类地标的地标图片，所述验证集用于验证所述地标特征合集中的地标特征是否正确；步骤4.2：利用基于resnet50基础网络的度量学习模型和triplet_loss函数模型，对所述地标特征合集进行训练，得到特征匹配初始模型；步骤4.3：利用所述验证集对训练的超参数进行调整，得到特征匹配模型。
4.根据权利要求3所述的一种从视频中自动识别地标的方法，其特征在于，所述度量学习模型的目标函数表达式为：||f(a
i
)
‑
f(p
i
)||2+α＜||f(a
i
)
‑
f(n
i
)||2，所述triplet_loss函数模型表达式为：其中，a示待训练得样本，p表示与待训练得样本相同种类的正样本，n表示与待训练得样本不同种类的负样本，α为类与类之间的间隔，+表示当括号中的结果为负数时，输出结果为0。5.根据权利要求3所述的一种从视频中自动识别地标的方法，其特征在于，包括步骤4.4：对所述地标图片样本中的所有地标图片进行关键点校正，得到关键点数据集，根据所述关键点数据...

【专利技术属性】
技术研发人员：牟骏杰，王鑫，陈昌金，罗凡程，李锐，汤雪梅，
申请(专利权)人：中国兵器装备集团自动化研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人