【技术实现步骤摘要】
一种面向保险条款的实体识别信息抽取、存储、展示方法
[0001]本专利技术属于自然语言处理领域,涉及一种面向保险条款的实体识别信息抽取、存储、展示方法。
技术介绍
[0002]保险条款是保险合同上规定的有关保险人与被保险人的权利、义务及其他保险事项的条文。近年,随着互联网技术的发展,保险行业也发展迅速,据相关数据统计,每天面市的保险产品上万,利用人工解析保险条款,成本巨大。保险条款非常重要,消费者在购买保险产品时,由于保险条款较长,文字描述复杂,很少有消费者花费较长时间仔细阅读保险条款。
[0003]目前保险代理平台往往只是将保险条款中的较少字段以表格的形式给消费者,完整版的保险条款文档多达几十页,通常只会通过URL跳转让消费者下载PDF文档自行查看,保险代理人也不方便给消费者讲透彻。消费者选购保险时,碍于对保险知识的缺失,很少有人理解保险条款中的某些字段含义,或因保险条款中文字数量较多,对保险条款中内容理解不透彻,一旦发生保险事故,容易产生纠纷,减少消费者对保险中介的信任,造成客户流失。因此,保险中介平台需要提供一 ...
【技术保护点】
【技术特征摘要】
1.一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,包括如下步骤:(1)上传保险条款文件;(2)对上传文件进行分类、清洗、识别;(3)对识别结果进行文本重组、实体识别;(4)实体属性的提取;(5)数据存储、展示。2.如权利要求1所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(1)包括:用户通过网页上传保险条款,后台系统接收上传文件,并通过文件后缀名对上传文件做分类,丢弃不属于PDF格式的文件,接受PDF格式文件。3.如权利要求2所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(2)包括:(2.1)分类:使用PDFPlumber解析上传文件,根据解析结果,利用统计学判断该文件是否具有可编辑性,将文件分为可编辑和影印两种类型;(2.2)识别:对可编辑类型文件,使用PDFPlumber解析得到的结果,转换为带有文字及文字坐标的Json文件;对于影印类型,使用OCR识别技术,对保险条款中的文字识别,经Pandas转换同样可以得到带有文字及文字坐标的Json数据;(2.3)清洗:由于PDF文件的封面、页眉、页尾、图例、图表名这些位置的额信息冗余,对保险条款提取的信息没有意义,故根据解析结果中的文字坐标,删除这些位置的文本信息,保留有效的Json数据。4.如权利要求3所述的一种面向保险条款的实体识别信息抽取、存储、展示方法,其特征在于,所述步骤(3)包括:(3.1)文本重组:经过步骤(2)解析得到数据...
【专利技术属性】
技术研发人员:王晶,
申请(专利权)人:青岛全掌柜科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。