一种车辆保险数据采集系统技术方案

技术编号:19857549 阅读:42 留言:0更新日期:2018-12-22 11:42
本发明专利技术公开了一种车辆保险数据采集系统,包括网络数据获取单元,用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;数据管理单元,用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;业务管理单元,用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。本发明专利技术通过HTML数据采集模块、API数据采集模块和OCR图像识别模块多种方式获取各个保险公司的车险信息,并通过异步通讯模块传输到数据清洗模块对数据进行清洗,除去不需要的脏数据,再将其存储到数据库,最后通过业务管理单元对其展示及管理。

【技术实现步骤摘要】
一种车辆保险数据采集系统
本专利技术涉及一种车辆保险数据采集系统,属于车险数据采集

技术介绍
随着社会经济的快速发展,汽车越来越多。车主买车后的第一件的是就是购买车险。每家保险公司都有自己的车险,从而使车险品种众多。大多数车主在购买时都有货比三家的习惯,但是每家保险公司车险只有自己的公司的平台才有,车主需要对比时只有自己一个一个找到对比,浪费了大量的时间和精力,最后的购买的也不一定是自己最心仪的车险,因此需要一种可以将大多数保险公司车险信息显示在一起的平台,便于直观观看及对比,解决这一问题的关键是每家保险公司的车险信息采集。
技术实现思路
本专利技术的目的在于提供一种可获取多家保险公司的车险信息的车辆保险数据采集系统。本专利技术的目的是通过以下技术方案实现的:一种车辆保险数据采集系统,包括网络数据获取单元、数据管理单元和业务管理单元;所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。进一步地,所述网络数据获取单元包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;所述HTML数据采集模块用于获取HTML页面的车险信息,它采用BeautifulSoup解析工具解析文档获取车险信息;所述API数据采集模块用于通过API数据接口获取车险信息;所述OCR图像识别模块用于解析图片信息获取车险信息,包括Pillow图像处理库的图片操作模块和pytesseractOCR库的OCR识别模块;所述异步通讯模块用于获取各个保险公司的车险信息。进一步地,所述HTML数据采集模块包括Ztxt_parser解析插件。进一步地,所述数据清洗模块用于去除获取的车险信息中不需要的信息,它包括脚本清洗子模块和OpenRefine清洗子模块。进一步地,所述业务管理单元包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块;所述Restful服务模块用于对前端展示提供Restful服务接口,并可通过所述Restful服务接口进行车险信息的查询和提取;所述日志管理模块用于记录操作数据;所述运维后台模块用于对网络数据获取单元获取的车险信息过程进行监控并保存结果。本专利技术通过HTML数据采集模块、API数据采集模块和OCR图像识别模块多种方式获取各个保险公司的车险信息,并通过异步通讯模块传输到数据清洗模块对数据进行清洗,除去不需要的脏数据,再将其存储到数据库,最后通过业务管理单元对其展示及管理;实现了将多家保险公司的采集、存储、显示,便于车主查询购买,节约了车主的时间和精力。具体实施方式本实施例提供的车辆保险数据采集系统包括网络数据获取单元、数据管理单元和业务管理单元。所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块。所述HTML数据采集模块用于获取HTML页面的车险信息,它采用BeautifulSoup解析工具解析文档获取车险信息;该解析工具提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能,通过解析文档提供需要抓取的车险数据。因为保险公司的数据页面设计标准各不相同,所以需要一个兼容能力强的解析工具对所有可能出现的情况进行完整正确的分析。以文本编码为例,平安和太平洋保险使用的是标准的utf-8编码,而阳光使用latin-1编码,人寿使用gbk编码,如果使用普通的解析工具就会在统一编码上造成不必要的麻烦,而BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编。本专利技术还在BeautifulSoup解析工具中设置Ztxt_parser插件,具有速度快,文档容错能力强,存储方便,内置车险专业名词解析等特点,为系统提供更高效的HTML语法解析。所述API数据采集模块用于通过API数据接口获取车险信息;因有些保险公司还提供的专门的API接口,所述本专利技术设置API数据接口。API数据接口需要与浏览器结合实现对数据的采集,本专利技术采用PhantomJS工具代替传统的浏览器,具有数据采集效果高的优点。所述PhantomJS工具是一个无头浏览器,它会网页加载到内存并执行页面上的JavaScript,但是它不会向用户展示网页的图形界面。需要说明的是:PhantomJS工具需要和Selenium网络采集工具结合使用,实现对API数据接口的数据采集。所述OCR图像识别模块用于解析图片信息获取车险信息,它包括Pillow图像处理库的图片操作模块和pytesseractOCR库的OCR识别模块;Pillow图像处理库的图片操作模块是可导入代码,并通过大量的过滤、修饰甚至像素级的变换操作处理图片。PytesseractOCR库的OCR识别模块是将图片中的信息识别为文本信息,具体包括检测出字符区域的轮廓,再识别去区域内的字符得出文本。所述异步通讯模块用于获取各个保险公司的车险信息,包括多种格式的,如文本、图片、PDF等,异步通讯模块使用Twisted作为基础了框架,并在事件驱动和IO阻塞方面加以改良,具有高效稳定的完成大量的分布式多网站抓取的任务。所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库。所述数据清洗模块用于去除获取的车险信息中不需要的信息,它包括脚本清洗子模块和OpenRefine清洗子模块。脚本清洗子模块是根据清洗规则对采集的车险信息进行清洗,可除去不要求的信息,并且具有处理数据量大且效率高等优点。OpenRefine清洗子模块主要是便于API数据接口获取的数据星期,可将清洗结果图像化。所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。所述Restful服务模块用于对前端展示提供Restful服务接口,并可通过所述Restful服务接口进行车险信息的查询和提取;所述日志管理模块用于记录操作数据;所述运维后台模块用于对网络数据获取单元获取的车险信息过程进行监控并保存结果。以上所述仅是本专利技术优选的实施方式,但本专利技术的保护范围并不局限于此,任何基于本专利技术所提供的技术方案和专利技术构思进行的改造和替换都应涵盖在本专利技术的保护范围内。本文档来自技高网...

【技术保护点】
1.一种车辆保险数据采集系统,其特征在于:包括网络数据获取单元、数据管理单元和业务管理单元;所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。

【技术特征摘要】
1.一种车辆保险数据采集系统,其特征在于:包括网络数据获取单元、数据管理单元和业务管理单元;所述网络数据获取单元用于获取各个保险公司的车险信息,它包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;所述数据管理单元用于对获取的车险信息进行清洗及存储,它包括数据清洗模块和数据库;所述业务管理单元用于将清洗后的数据进行展示及管理,它包括Restful服务模块、日志管理模块、运维后台模块和策略管理模块。2.根据权利要求1所述的车辆保险数据采集系统,其特征在于:所述网络数据获取单元包括异步通讯模块、HTML数据采集模块、API数据采集模块和OCR图像识别模块;所述HTML数据采集模块用于获取HTML页面的车险信息,它采用BeautifulSoup解析工具解析文档获取车险信息;所述API数据采集模块用于通过API数据接口获取车险信息;所述OCR图像识别模块用于解析图片信息获取车险...

【专利技术属性】
技术研发人员:韦波
申请(专利权)人:成都中通信通科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1