文档解析方法与装置制造方法及图纸

技术编号：19098731 阅读：29 留言：0更新日期：2018-10-03 02:44

本公开提供一种文档解析方法与装置。在根据本公开的文档解析方法（100）中，包括如下步骤：针对文档进行内容解析，以检测出文字行（S110）；基于机器学习模型，对文字行进行文本整理（S120）；基于机器学习模型，对整理后的文本进行文本分类（S130）；基于文本分类的结果，对文档内容进行结构化处理（S140）。根据本公开的文档解析技术利用机器学习模型和自然语言处理技术，对初步的解析结果进行纠正，然后通过机器学习技术将解析出来的内容进行分类，提高最终的结构化的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文档解析方法与装置
本专利技术涉及基于机器学习的文档处理，更具体涉及文档解析方法与装置。
技术介绍
诸如保险、法律等行业，有大量业务文档留存。对这些非结构化或者半结构化的文档进行分析，从中得到结构化数据，是一个常见的需求，但在实际执行时会有许多问题。现有的文档知识抽取方法，通常要求文档的内容格式比较简单，如只处理例如微软Office软件的DOC或DOCX格式的文档，这样在解析文档上就避开了很多问题。或者，只从文档中抽取简单的内容，如特定的关键词，或者符合规则的某些句子。但实际上，大量的便携式文档格式（PDF）文档会有复杂的文档布局，简单地解析往往会导致大量的内容错乱。而且，行业文档中往往蕴含了业务相关的多层次结构的知识，只提取关键词或句子很难构建出完整的知识结构。
技术实现思路
本专利技术提出一种文档解析方法与装置，希望通过利用机器学习模型和自然语言处理技术，对初步的解析结果进行纠正，然后通过机器学习技术将解析出来的内容进行分类，提高最终的结构化的效率和准确率。根据本专利技术的第一方面，提供一种文档解析方法。该方法可以包括：针对文档进行内容解析，以检测出文字行；基于机...

【技术保护点】
1.一种文档解析方法，包括：针对文档进行内容解析，以检测出文字行；基于机器学习模型，对文字行进行文本整理；基于机器学习模型，对整理后的文本进行文本分类；基于文本分类的结果，对文档内容进行结构化处理。

【技术特征摘要】
1.一种文档解析方法，包括：针对文档进行内容解析，以检测出文字行；基于机器学习模型，对文字行进行文本整理；基于机器学习模型，对整理后的文本进行文本分类；基于文本分类的结果，对文档内容进行结构化处理。2.如权利要求1所述的方法，其中，所述文档是便携式文档格式（PDF）文档。3.如权利要求1所述的方法，其中，所述的针对文档进行内容解析，以检测出文字行的步骤进一步包括：针对图像模式文本进行文本识别，以提取用于进行内容解析的文本；针对提取出的文本进行内容解析，以检测出文字行。4.如权利要求1所述的方法，其中，所述的基于机器学习模型，对文字行进行文本整理的步骤进一步包括：文字行分割：用于分割处于同一行但内容上并不连续的文字；文字行合并：用于将不在同一行但内容连续的多个文字行中的文字合并起来；文本重排：用于将经过文字行分割与合并后的各个文字行、文字块进行文字内容上的前后衔接。5.如权利要求1所述的方法，其中，所述的针对文档进行内容解析，以检测出文字行的步骤进一步包括：针对文档进行内容解析，以检测出文字行和直线。6.如权利要求5所述的方法，进一步包括：利用内容解析步骤中检测出的直线划分出表格的外框以及表格中的单元格的边框；根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来，从而解析得到完整的表格内容。7.如权利要求6所述的方法，其中，所述的基于文本分类的结果，对文档内容进行结构化处理的步骤进一步包括：基于文本分类的结果以及解析得到的完整的表格内容，对文档内容进行结构化处理。8.如权利要求6所述的方法，其中，所述的根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与...

【专利技术属性】
技术研发人员：钟翰廷，韩警，吴金龙，王守崑，
申请(专利权)人：爱因互动科技发展北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人