获取文档信息的方法及装置制造方法及图纸

技术编号:20993278 阅读:22 留言:0更新日期:2019-04-29 23:03
本申请涉及一种基于序列标注以及学习模型的文档信息抽取方法及装置。该方法包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率,将待处理的文档转换成文本文档;从所述待处理的文档中获取文档结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。本申请通过使用序列标注技术,可以对文档进行关键信息抽取。并且通过使用多模型融合技术,可以对文档中不同关键信息使用最优模型进行抽取。此外,本申请对字面抽取结果进行业务规则推理及计算,适用面更广。

Method and Device for Obtaining Document Information

This application relates to a document information extraction method and device based on sequence annotation and learning model. \u8be5\u65b9\u6cd5\u5305\u62ec\uff1a\u5bf9\u81f3\u5c11\u4e00\u79cd\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\u8fdb\u884c\u8bad\u7ec3\uff0c\u4ee5\u83b7\u53d6\u81f3\u5c11\u4e00\u79cd\u79bb\u7ebf\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\uff1b\u786e\u5b9a\u79bb\u7ebf\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\u4e2d\u7684\u6bcf\u4e00\u79cd\u4e2d\u7684\u6807\u6ce8\u4fe1\u606f\u7684\u51c6\u786e\u7387\uff0c\u5c06\u5f85\u5904\u7406\u7684\u6587\u6863\u8f6c\u6362\u6210\u6587\u672c\u6587\u6863\uff1b\u4ece\u6240\u8ff0\u5f85\u5904\u7406\u7684\u6587\u6863\u4e2d\u83b7\u53d6\u6587\u6863\u7ed3\u6784\u683c\u5f0f\u6027\u8d28\u4fe1\u606f\uff1b\u5c06\u6240\u8ff0\u6587\u672c\u6587\u6863\u548c The structure format property information is input into the offline sequence annotation algorithm model to obtain the annotation information corresponding to the document information in the document. This application can extract key information from documents by using sequence annotation technology. By using multi-model fusion technology, the optimal model can be used to extract different key information in documents. In addition, the application for business rule reasoning and calculation of literal extraction results is more applicable.

【技术实现步骤摘要】
获取文档信息的方法及装置
本申请涉及数据处理领域,具体的,涉及一种获取文档信息的方法及装置。
技术介绍
自然语言处理(NaturalLanguageProcessing)简单来讲,就是让计算机能够理解人类语言的一种技术。自然语言处理的应用方向很多,包括文本分类、文本聚类、摘要抽取、情感分析、文本审核等应用,机器能够在一定程度上辅助甚至代替人来做某些文字相关工作。在日常工作中,文档的编写、审核、评阅、修改比较常见,例如合同文书的订制编写修改,招投标书的编写审核,保险条款的抽取,证券公告的信息提取分析等。目前,在文字撰写工作上,NLP技术还有所欠缺,很多场景效果不是很好,例如,在一份文档中的不同位置包含很多关键信息,很多业务场景的第一步就是找到这些关键信息。有些文档较短、关键信息较为集中、文档格式内容比较单一时,关键信息相对容易查找。而对于文本内容较长、格式内容多样的文本,查找关键信息较为费时费力。例如债券募集书,通常都有几百页,内容多文档结构复杂,关键信息往往散落在文中不同位置,查找这些关键信息比较费时费力。已有的一些方法能够进行一定程度的信息抽取,但已有的方法大多基于关键字查找、文本匹配、正则表达式等传统技术,效果不能够保证,往往由于实际业务预测样本文本表述丰富等原因,导致信息抽取功能效果较差,直接影响后续各个环节。公开于本申请
技术介绍
部分的信息仅仅旨在加深对本申请的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
本申请的主要目的在于提供一种基于序列标注以及学习模型的文档信息抽取方法及装置。为了解决上述问题,本申请涉及一种获取文档信息的方法,包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,所述方法还包括:将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。进一步的,在获取该文档中的文档信息所对应的标注信息之后,所述方法还可以包括:针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。进一步的,所述对至少一种序列标注算法模型进行训练,可以包括:将待训练的文档转换成文本文档,其中所述待训练的文档包括:word格式文档、PDF格式文档和/或图像格式文档;从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息;将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中,以获取经过训练的至少一种离线序列标注算法模型。进一步的,所述序列标注算法模型可以包括:HMM模型、CRF模型和DeepLearning模型。进一步的,所述结构格式性质信息可以包括:位置信息、段落信息和表格信息。进一步的,所述依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息,包括,选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。进一步的,如果所述待处理的文档为图像格式的文档,则将该文档进行OCR识别,以将识别后的文档转换成文本文档。本申请还涉及一种获取文档信息的装置,包括:离线训练模块,用于对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率;文档转换模块,用于将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;文档信息获取模块,用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。进一步的,所述文档信息获取模块还可以用于,针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。此外,本申请还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。本申请的有益效果是:本申请通过使用序列标注技术,可以对文档进行关键信息抽取。并且通过使用多模型融合技术,可以对文档中不同关键信息使用最优模型进行抽取。此外,本申请对字面抽取结果进行业务规则推理及计算,适用面更广。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的获取文档信息的方法的流程图;图2是根据本申请实施例的文档转换过程的流程图;以及图3是根据本申请实施例的获取文档信息的装置的方框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。此外,术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。其中,图1是根据本申请实施例的获取文档信息的方法的流程图,图2是根据本申请实施例的文档转换过程的流程图,图3是根据本申请实施例的获取文档信息的装置的方框图。如图1所示,本申请涉及一种获取文档信息的方法,该方法包括以下步骤S1至步骤S8:首先,在步骤S1,本申请对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型,使用机器学习序列标注模型及专家知识系统,将文档中的关键信息进行抽取。本申请所涉及的序列标注模型算法包括但不限于:HMM(隐马尔可夫模型)、CRF(条件随机场)、DeepLearning(深度学习)模型等,此外,本申请可以集成上述的一种或多种算法模型。具体的模型训练步骤图2所示,在步骤S11,首先,本申请将待训练的文档转换成文本文档,其中所述待训练的文档包括但不限于:word格式文档、PDF格式文档和/或图像格式文档。在步骤S12,本申请从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息。最后在步骤S13,本申请将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息也就是说,本申请根据文档标注模块提供的标注信息数据,以及文档处理系统提供的文档信息,将两者结合生成机器学习算法所需要的训练数据。不同机器学习算法进行模型训练所需要的格式不同,抽取系统离线处理模块提供统一的处理框架和流程,不同的算法基于此框架和流程,在算法本文档来自技高网
...

【技术保护点】
1.一种获取文档信息的方法,其特征在于,包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,所述方法还包括:将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。

【技术特征摘要】
1.一种获取文档信息的方法,其特征在于,包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,所述方法还包括:将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。2.根据权利要求1所述的获取文档信息的方法,其特征在于,在获取该文档中的文档信息所对应的标注信息之后,所述方法还包括:针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。3.根据权利要求1所述的获取文档信息的方法,其特征在于,所述对至少一种序列标注算法模型进行训练,包括:将待训练的文档转换成文本文档,其中所述待训练的文档包括:word格式文档、PDF格式文档和/或图像格式文档;从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息;将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中,以获取经过训练的至少一种离线序列标注算法模型。4.根据权利要求2所述的获取文档信息的方法,其特征在于,所述序列标注算法模型包括:HMM模型、CRF模型和DeepLearning模型。5.根据权利要求1所述的获取文档信...

【专利技术属性】
技术研发人员:高翔王江安怡李瀚清曾彦能赵业辉杨慧宇陈运文纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1