保险行业文档智能化解析方法和装置制造方法及图纸

技术编号:27222279 阅读:25 留言:0更新日期:2021-02-04 11:42
本发明专利技术提供一种保险行业文档智能化解析方法和装置。该方法包括:将PDF格式的原数据转化为CSV格式的数据,CSV格式的数据包含预定的文档文本识别特征维度;对转化后的CSV格式的数据进行数据清洗处理;基于文本位置对文本特征进行上下文语义信息的捕捉,进行特征维度扩充;对要作为训练样本利用多个类别进行标注获得训练样本集,多个类别包括正文内容和多个不同级别的标题类别;从训练样本集中选取训练集,利用训练集对随机森林算法进行训练,利用训练后的随机森林算法对测试样本进行类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对文档内容进行重组,生成结构化文件输出,并对文档中重要的属性进行抽取。并对文档中重要的属性进行抽取。并对文档中重要的属性进行抽取。

【技术实现步骤摘要】
保险行业文档智能化解析方法和装置


[0001]本专利技术涉及文档解析
,特别涉及一种保险行业文档智能化解析方法和装置。

技术介绍

[0002]上个世纪90年代,人工智能技术飞速发展,国外众多情报工作者将机器学习的理念应用到了文本自动分类领域。随着机器学习算法的不断成熟,越来越多的电子文档可以进行智能化解析,分类等。然而,当今社会在文本数据领域,绝大多数的文本以非结构化形式存在。而结构化数据才能更好地进行机器学习的训练及预测。所以,将文本数据结构化解析是当今自然语言处理领域的一大难题。
[0003]现有的文档保存形式基本是PDF格式,因此一般需要将文本数据转换成特定格式才能进行后续的结构化及属性抽取工作。目前,OCR是PDF文档中文本提取的重要手段之一,是一种针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。对于OCR系统,如何除错或利用辅助信息提高识别正确率,是最重要的课题。而在实际应用中,由于不同行业的文档具有不同的特征,尤其在保险行业,OCR技术在保险文档的文本识别中无法满足需求。
[0004]另外,Quan等人提出了计算机领域论文分类及信息抽取系统,该系统使用朴素贝叶斯算法对大量论文进行自动分类及相关信息的抽取。并且在算法方面,开发了新的权重贝叶斯模型,用来更好地拟合数据模型。该系统虽然对文档进行了一定的处理,但处理的精度较低;且数据集文档大多数是论文摘要,而且原始文档是较为易处理的数据结构,非PDF格式。其对于保存形式基本是PDF格式的文档,无法做到精细的结构化解析。因此,针对保险行业的保存形式为PDF格式的文档,在解析过程中如何提高准确率和效率是亟待解决的技术问题。

技术实现思路

[0005]鉴于现有技术中存在的问题,本专利技术实施例提供了一种保险行业文档智能化解析方法和装置,以在产品文档的结构化解析过程中,提高准确率及效率。
[0006]根据本专利技术的一个方面,提供了一种保险行业文档智能化解析方法,所述方法包括:将PDF格式的保险行业文档原数据转化为文本可识别的CSV格式的数据,其中所述CSV格式的数据包含保险行业文档文本识别特征维度,所述保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度;对转化后的CSV格式的数据进行数据预处理,所述预处理包括进行分词处理和数据清洗处理;对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕
捉,获得所述文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据;对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别;从训练样本集中选取预定个数的训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。
[0007]在本专利技术一实施例中,所述保险行业文档文本识别特征维度还包括以下特征维度中的至少一种:页码、字号大小、文本计数、文本内容和字体;所述文本位置特征维度包括:上或下、左或右、宽度以及高度特征维度;所述多个类别还包括:无用内容类别。
[0008]在本专利技术一实施例中,所述保险行业特征维度包括保险公司识别特征维度。
[0009]在本专利技术一实施例中,将PDF格式的原数据转化为CSV格式的数据包括:利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据,所述pdfplumber框架基于保险行业的文档内容与语义习惯确定断句规则,并进行断句。
[0010]在本专利技术一实施例中,所述对转化后的CSV格式的数据进行数据清洗处理,包括:对转化后的CSV格式的数据进行以下处理中的至少一种:去除停用词、去除标点、去除水印、去除语气助词。
[0011]在本专利技术一实施例中,所述利用训练集对随机森林算法进行训练,包括:引入包括保险公司类别和保单类别在内的样本重要性特征,在决策树分类时使所述样本重要性特征具有指示重要的权重。
[0012]在本专利技术一实施例中,所述基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取,包括:将分类得到的不同类别的数据保存为“字典”数据类型,所述字典数据类型中包括“key”与“value”属性;将数据写入json格式的文件中,通过字典数据类型中的“key”与“value”属性对文本中的各级标题与正文内容进行嵌套式保存;对于已经通过字典数据类型保存好的文本内容中对重要属性进行属性抽取。
[0013]在本专利技术一实施例中,对于已经通过字典数据类型保存好的文本内容进行属性抽取,包括:通过正则表达式算法来进行文本内容的匹配和抽取,并将抽取的数据保存为字典数据类型。
[0014]本专利技术的另一方面,还提供一种保险行业文档智能化解析装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
[0015]本专利技术的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述方法的步骤。
[0016]本专利技术实施例中的保险行业文档智能化解析方法和装置,在文本转换阶段,通过在CSV格式的数据中设置保险行业特征维度及文本位置特征维度;且基于数据样本中的文本位置对文本特征进行上下文语义信息的捕捉,获得文本特征的上下文内容,从而对CSV格
式样本进行了样本数据维度的增广;使得后续的算法可以更好的进行文本特征的识别,分类和抽取;提高了结构化解析的准确率及效率。
[0017]本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
[0018]本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。
附图说明
[0019]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。
[0020]图1为本专利技术一实施例的保险行业文档智能化解析方法的流程示意图。
[0021]图2为本专利技术一实施例的保险行业文档智能化解析方法的流程示意图。
[0022]图3为PDF格式的保险行业文档示例的截图。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种保险行业文档智能化解析方法,其特征在于,所述方法包括以下步骤:将PDF格式的保险行业文档原数据转化为CSV格式的数据,其中所述CSV格式的数据包含保险行业文档文本识别特征维度,所述保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度;对转化后的CSV格式的数据进行数据预处理,所述预处理包括数据清洗处理;对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕捉,获得所述文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据;对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别;从训练样本集中选取预定个数的样本作为训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果;基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。2.根据权利要求1所述的方法,其特征在于,所述保险行业文档文本识别特征维度还包括以下特征维度中的至少一种:页码、字号大小、文本计数、文本内容和字体;所述文本位置特征维度包括:上或下、左或右、宽度以及高度特征维度;所述多个类别还包括:无用内容类别。3.根据权利要求1所述的方法,其特征在于,所述保险行业特征维度包括保险公司识别特征维度。4.根据权利要求3所述的方法,其特征在于,将PDF格式的原数据转化为CSV格式的数据包括:利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据,所述pdfplumber框架基于保险行业的文档内容...

【专利技术属性】
技术研发人员:岳潭胡宗海
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1