一种基于PDF格式的保险产品关键信息解析方法、装置及系统制造方法及图纸

技术编号:20866627 阅读:35 留言:0更新日期:2019-04-17 09:22
本发明专利技术涉及信息抽取领域,具体为一种基于PDF格式的保险产品关键信息解析方法、装置及系统。本发明专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的PDF格式的保险产品,对所述PDF格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述PDF格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的PDF格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

【技术实现步骤摘要】
一种基于PDF格式的保险产品关键信息解析方法、装置及系统
本专利技术涉及信息抽取领域,具体为一种基于PDF格式的保险产品关键信息解析方法、装置及系统。
技术介绍
信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,则由系统设计时定下的领域范围而定。近年来,保险行业的发展十分迅速,各类保险产品层出不穷,作为保险产业开发人员或者要对该领域作出系统调查时,需要对现有的保险产品进行整理分析。有相关数据统计,市面上每天新生成的保险产品在5万份左右,如果完全采用人工解析,耗费的人力成本将是巨大的。针对保险产品的信息抽取对于整个保险行业的发展规划来说是非常有用的,能够让产品设计人员、行业调查者乃至普通消费者对于保险行业的现状及其发展趋势有一个比较全面的了解。网络上的保险产品主要分布于保监会及各大保险公司门户网站,以PDF格式保存,如果能对这些保险产品进行信息抽取,无疑是有益的。
技术实现思路
基于此,有必要针对上述问题,提供一种基于PDF格式的保险产品关键信息解析方法。本专利技术实施例是这样实现的,一种基于PDF格式的保险产品关键信息解析方法,包括以下步骤:利用网络爬虫捉取指定网站的保险产品pdf文件;自动解析所述pdf文件;将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;将校对结果入库保存。此外,本专利技术实施例还提供了一种基于PDF格式的保险产品关键信息解析装置,包括:保险产品捉取模块,用于利用网络爬虫捉取指定网站的最新的保险产品pdf文件;NLP解析服务器,用于自动解析所述pdf文件;人工校对模块,用于将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;数据库模块,用于将校对结果入库保存。同时,本专利技术实施例还提供了一种基于PDF格式的保险产品关键信息解析系统,包括:如上任一实施例所述的装置以及人工工作台。本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的PDF格式的保险产品,对所述PDF格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述PDF格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的PDF格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。附图说明图1为本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法应用环境示意图;图2为本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法流程示意图;图3为本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析装置结构示意图;图4为本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析系统结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图1-3及实施例,对本专利技术进行进一步详细说明。应当理解,此处所述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供的一种基于PDF格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的PDF格式的保险产品,对所述PDF格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述PDF格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的PDF格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。如图1所示,本专利技术的一个实施例给出了本专利技术一种基于PDF格式的保险产品关键信息解析方法的应用环境,包括信息解析和存储部分101,保险公司官网服务器102以及Intenetr网络103。在本专利技术实施例中,所述信息解析和存储部分101通过Internet网络103进入到所述保险公司官网服务器102,全量或者定时、定时提取所述保险公司官网服务器102上存储的PDF格式的保险产品并对其进行解析校对,将解析校对后的文件入库保存,需要时从数据库中提取即可。该方法基于现有网络架构,不需要额外开发新硬件设备,组成简单,易于实现。如图2所示,本专利技术一个实施例中,一种基于PDF格式的保险产品关键信息解析方法,包括:步骤S201,利用网络爬虫捉取指定网站的保险产品pdf文件;步骤S202,自动解析所述pdf文件;步骤S203,将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;步骤S204,将校对结果入库保存。在本专利技术一个实施例中,所述指定网站包括保监会官网、各保险公司官网。中国保险监督管理委员会、中国保险行业协会以及各大保险公司官方网站上存有大量的保险产品的信息,利用网络爬虫,采取定期或者定量的方式捉取网站上的保险产品pdf文件,可以快速而全面地获取相关保险产品信息,为保险产品的设计及保险行业的发展规划提供重要数据来源。在本专利技术一个实施例中,所述网络爬虫包括授权爬虫和非授权爬虫。授权爬虫和非授权爬虫其区别在于其权限的不同,根据需要选择授权爬虫或者非授权爬虫,可以更全面地收集所需信息,扩大初始信息来源,丰富了数据库,使调查收集更为全面合理。在本专利技术一个实施例中,所述自动解析采用的是汉语言处理工具HanLP。HanLP(HanLanguageProccessing)是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能,HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。HanLP完全开源,包括词典,不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,也可以使用内置的工具训练自己的模型。利用HanLP对所述保险产品pdf文件进行自动解析,可以极大地提高工作效率。在本专利技术一个实施中,人工校对占全部解析工作量的10%以内。依靠HanLP的强大功能完成了解析工作的绝大部分内容,但是自动解析仍然难免存在错漏,因此需要对解析后的结果进行校对,更正其中的错漏信息,使经过整个解析流程后得到的解析数据是真实准确的;特别地,针对于保险产品,其中涉及的时间、金额、人员等信息显得优为重要,校对过程保证了信息的准确可靠,是必要的环节。采用该方法对所述保险产品pdf文件进行解析,能将校对的工作量控制在10%以内,极大地提高了工作效率,节约了人力成本。在本专利技术一个实施例中,自动解析所述pdf文件可以是全文解析也可以特定信息抽取。例如收集整理的目的在于比较不同保险产品时,可能更关注保险条款中与时间、金额、保险范围、免责条款等相关的信息,在自动解析程序中准确定位此类信息可以进一步提高解析的效率,获取真正需要的信息,同时也是系统本身智能化发展的方向;而对于如保险公司本文档来自技高网...

【技术保护点】
1.一种基于PDF格式的保险产品关键信息解析方法,其特征在于,所述方法包括以下步骤:利用网络爬虫捉取指定网站的保险产品pdf文件;自动解析所述pdf文件;将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;将校对结果入库保存。

【技术特征摘要】
1.一种基于PDF格式的保险产品关键信息解析方法,其特征在于,所述方法包括以下步骤:利用网络爬虫捉取指定网站的保险产品pdf文件;自动解析所述pdf文件;将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;将校对结果入库保存。2.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法,其特征在于,所述指定网站包括保监会官网、各保险公司官网。3.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法,其特征在于,所述自动解析包括提取时间、金额、保险范围、免责条款信息。4.如权利要求1所述的一种基于PDF格式的保险产品关键信息解析方法,其特征在于,所述网络爬虫包括制授权爬虫和非授权爬虫。5.一种基于PDF格式的保险产品关键信息解析装置,其特征在于,所述装置包括:保险产品捉取...

【专利技术属性】
技术研发人员:白青香
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1