基于种子图片识别的输电线路设备关联图片爬取方法技术

技术编号:15639685 阅读:118 留言:0更新日期:2017-06-16 01:07
本发明专利技术涉及一种基于种子图片识别的输电线路设备关联图片爬取方法,包括步骤:S1:获取种子图片;S2:基于种子图片利用搜索引擎的图片搜索服务器搜索得到关联图片;S3:下载关联图片。与现有技术相比,本发明专利技术利用种子图片在互联网中获得更多的关联图片,基于图片的内容来表达自己的搜索意图,不受文字偏差的影响,得到的关联图片更准确,利于智能巡检系统的训练。

【技术实现步骤摘要】
基于种子图片识别的输电线路设备关联图片爬取方法
本专利技术涉及一种图片爬取方法,尤其是涉及一种基于种子图片识别的输电线路设备关联图片爬取方法。
技术介绍
电力是现代工业发展的根本,也是我国的重要资源。为确保电力网络的安全运行,如何对电力网络进行安全巡检,是我们目前研究关注的重点。电线路巡检目前主要可分为人工巡检、机器人巡检、载人直升机巡检和无人机巡检4种方式。传统的人工巡检不仅要求巡检人员具有相关的专业知识,而且还极大的依赖于巡检员的工作态度,并且恶劣的环境也对人工巡检提出了极大的挑战。相比于人工巡检,其他3种巡检方式不仅提高了检修效率,而且人力成本低、风险小。在这类现代的电路巡检方法过程中,会拍摄大量的电路巡检图片,而利用这些巡检图片作为资源,可以开发出一个通过电力图像来分析电力器件安全性的智能系统。在开发一个具有智能检测的系统时,系统的图像资源集的大小对系统的智能识别准备率具有决定性的影响。目前,仅仅依靠巡检过程中现场采集的图片非常有限,而且单一电力企业没有足够的训练数据,计算机的训练集太小,学习训练不够充分,所以导致识别率不高。因此需要在互联网中搜索图片,然而基于文本关键词的搜索方式在目前已经非常成熟,但是这种基于文本的搜索方式不仅仅依赖对信息的标签分类和搜索引擎供应商的信息存储量,用户输入关键字的细微差别也会对搜索结果的准确度产生重要影响。并且,这种搜索方式只能对万维网上的网页文本内容进行搜索,已经无法满足用户对万维网上多媒体信息的搜索诉求。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于种子图片识别的输电线路设备关联图片爬取方法。本专利技术的目的可以通过以下技术方案来实现:一种基于种子图片识别的输电线路设备关联图片爬取方法,包括步骤:S1:获取种子图片;S2:基于种子图片利用搜索引擎的图片搜索服务器搜索得到关联图片;S3:下载关联图片。所述步骤S2具体包括步骤。S21:将种子图片发送至搜索引擎的图片搜索服务器并一同发送搜索请求;S22:图片搜索服务器基于种子图片所搜得到关联图片;S23:接收并获取由搜索服务器返回的关联图片的下载链接;S23:保存获取的关联图片的下载链接。所述步骤S23包括步骤:S231:接收由搜索服务器返回的每一张关联图片的下载链接属性;S232:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。所述步骤S3中,下载关联图片时更新并保存下载状态和源搜索引擎。所述步骤S4中,采用异步多线程方式下载关联图片。所述步骤S2中,利用搜索引擎的图片搜索服务器搜索得到关联图片。与现有技术相比,本专利技术具有以下优点:1)利用种子图片在互联网中获得更多的关联图片,基于图片的内容来表达自己的搜索意图,不受文字偏差的影响,得到的关联图片更准确,利于得到充足的智能巡检系统的训练数据。2)将获取的关联图片的下载链接进行本地保存,从而实现断点续传。3)从服务器返回的下载链接属性筛选出下载链接,避免了搜索引擎的反爬机制影响。附图说明图1为本专利技术的结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。一种基于种子图片识别的输电线路设备关联图片爬取方法,如图1所示,包括步骤:S1:获取种子图片;S2:基于种子图片利用多个搜索引擎的图片搜索服务器搜索得到关联图片,具体包括步骤:S21:将种子图片发送至搜索引擎的图片搜索服务器并一同发送搜索请求;S22:图片搜索服务器基于种子图片所搜得到关联图片;S23:接收并获取由搜索服务器返回的关联图片的下载链接;S23:保存获取的关联图片的下载链接,具体包括步骤:S231:接收由搜索服务器返回的每一张关联图片的下载链接属性;S232:从反馈的每一张关联图片的下载链接属性中获取该关联图片的下载链接。S3:采用异步多线程方式下载关联图片,同时更新并保存下载状态和源搜索引擎。基于得到的关联图片,为后续的图像识别系统研发提供结构化的训练集数据,进一步提升电力图像识别算法的有效性和准确率,提高系统的鲁棒性。在本申请方法中,基于电力图片内容的搜索方法尝试直接分析电力相关图片文件,将电力图片根据特征分类。用户可以通过提交一幅图片来表达自己的搜索意图:比如用户能够上传种子图片,对用户提交的种子图片进行分析、比对,通过种子图片的内容在互联网上爬取相似图片:1)种子图片的图片识别。用户在客户端上传种子图片到服务器,服务器提取种子图像的特征(颜色,纹理,形状,sift)等,存库,然后根据图片特征预测种子图片表达信息;2)根据种子图片推荐相关内容。服务器端得到用户上传的种子图片后,提取种子图片特征,利用种子图片特征在服务器内部查找相似特征,并返回相似容易与相似图片到客户端3)搜索引擎的反爬虫机制。各大搜索引擎具有反爬虫机制,在搜索引擎的图片服务器接收到查询信息后返回到图片下载链接是不能直接被程序下载的。在本文中,根据搜索引擎返回的html代码,利用html解析器与正则表达式等相关技术,将html代码中图片的原始网站地址提取出来,图片的原始网站地址是能够被程序下载器下载的。以百度图片为例:下载百度图片中的图片,百度返回给用户的图片信息中包含thumbURL、middleURL、objURL、fromURL这四个图片下载链接属性,其中只有通过objURL属性得到的图片原始下载链接可以被程序自动下载。通过其他3个属性得到图片下载链接利用程序自动下载时,都会被百度图片网站的反爬虫机制限制。4)断点续传;从服务器得到的待下载图片URL存入数据库,将待下载图片URL存入数据库中的目的是为了便于实现对图片下载任务的断点续传。同时这也能够在数据库中保存图片的其他相关信息,例如图片下载状态、源搜索引擎等。本文档来自技高网...
基于种子图片识别的输电线路设备关联图片爬取方法

【技术保护点】
一种基于种子图片识别的输电线路设备关联图片爬取方法,其特征在于,包括步骤:S1:获取种子图片;S2:基于种子图片利用搜索引擎的图片搜索服务器搜索得到关联图片;S3:下载关联图片。

【技术特征摘要】
1.一种基于种子图片识别的输电线路设备关联图片爬取方法,其特征在于,包括步骤:S1:获取种子图片;S2:基于种子图片利用搜索引擎的图片搜索服务器搜索得到关联图片;S3:下载关联图片。2.根据权利要求1所述的一种基于种子图片识别的输电线路设备关联图片爬取方法,其特征在于,所述步骤S2具体包括步骤:S21:将种子图片发送至搜索引擎的图片搜索服务器并一同发送搜索请求;S22:图片搜索服务器基于种子图片所搜得到关联图片;S23:接收并获取由搜索服务器返回的关联图片的下载链接;S23:保存获取的关联图片的下载链接。3.根据权利要求2所述的一种基于种子图片识别的输电线路设备关联图片爬取方法,其特征在于,...

【专利技术属性】
技术研发人员:何冰蓝耕谢小松印明骋王欣庭赖志超柴忠良纪航
申请(专利权)人:国网上海市电力公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1