一种基于PDF格式的保险产品关键信息解析方法、装置及系统制造方法及图纸

技术编号：20866627 阅读：35 留言：0更新日期：2019-04-17 09:22

本发明专利技术涉及信息抽取领域，具体为一种基于PDF格式的保险产品关键信息解析方法、装置及系统。本发明专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法，利用网络爬虫捉取指定网站的PDF格式的保险产品，对所述PDF格式的保险产品进行自动解析后再进行校对，最后的将校对结果存入数据库，需要时直接从数据库中调取。采用该方法对所述PDF格式的保险产品进行解析，可以定时或定量从指定网站上捉取相应的PDF格式的保险产品，根据保险产品的更新或者变更及时更新数据库，并且极大地节约了人力成本，提高了效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PDF格式的保险产品关键信息解析方法、装置及系统
本专利技术涉及信息抽取领域，具体为一种基于PDF格式的保险产品关键信息解析方法、装置及系统。
技术介绍
信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起，这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，则由系统设计时定下的领域范围而定。近年来，保险行业的发展十分迅速，各类保险产品层出不穷，作为保险产业开发人员或者要对该领域作出系统调查时，需要对现有的保险产品进行整理分析。有相关数据统计，市面上每天新生成的保险产品在5万份左右，如果完全采用人工解析，耗费的人力成本将是巨大的。针对保险产品的信息抽取对于整个保险行业的发展规划来说是非常有用的，能够让产品设计人员、行业调查者乃至普通消费者对于保险行业的现状及其发展趋势有一个比较全面的了解。网络上的保险产品主要分布于保监会及各大保险公司门户网站，以PDF格式保存，如果能对这些保险产品进行信息抽取，无疑是有益的。
技术实现思路
基于此，有必要针对上述问题，提供一种基于PDF格式的保险产品关键信息解析方法。本专利技术实施例是这样实现的，一种基于PDF格式的保险产品关键信息解析方法，包括以下步骤：利用网络爬虫捉取指定网站的保险产品pdf文件；自动解析所述pdf文件；将解析结果发送给人工工作台以进行人工校对，...

【技术保护点】
1.一种基于PDF格式的保险产品关键信息解析方法，其特征在于，所述方法包括以下步骤：利用网络爬虫捉取指定网站的保险产品pdf文件；自动解析所述pdf文件；将解析结果发送给人工工作台以进行人工校对，接收人工工作台的校对结果；将校对结果入库保存。

【技术特征摘要】
1.一种基于PDF格式的保险产品关键信息解析方法，其特征在于，所述方法包括以下步骤：利用网络爬虫捉取指定网站的保险产品pdf文件；自动解析所述pdf文件；将解析结果发送给人工工作台以进行人工校对，接收人工工作台的校对结果；将校对结果入库保存。2.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法，其特征在于，所述指定网站包括保监会官网、各保险公司官网。3.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法，其特征在于，所述自动解析包括提取时间、金额、保险范围、免责条款信息。4.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法，其特征在于，所述网络爬虫包括制授权爬虫和非授权爬虫。5.一种基于PDF格式的保险产品关键信息解析装置，其特征在于，所述装置包括：保险产品捉取...

【专利技术属性】
技术研发人员：白青香，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人