This application relates to a document information extraction method and device based on sequence annotation and learning model. \u8be5\u65b9\u6cd5\u5305\u62ec\uff1a\u5bf9\u81f3\u5c11\u4e00\u79cd\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\u8fdb\u884c\u8bad\u7ec3\uff0c\u4ee5\u83b7\u53d6\u81f3\u5c11\u4e00\u79cd\u79bb\u7ebf\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\uff1b\u786e\u5b9a\u79bb\u7ebf\u5e8f\u5217\u6807\u6ce8\u7b97\u6cd5\u6a21\u578b\u4e2d\u7684\u6bcf\u4e00\u79cd\u4e2d\u7684\u6807\u6ce8\u4fe1\u606f\u7684\u51c6\u786e\u7387\uff0c\u5c06\u5f85\u5904\u7406\u7684\u6587\u6863\u8f6c\u6362\u6210\u6587\u672c\u6587\u6863\uff1b\u4ece\u6240\u8ff0\u5f85\u5904\u7406\u7684\u6587\u6863\u4e2d\u83b7\u53d6\u6587\u6863\u7ed3\u6784\u683c\u5f0f\u6027\u8d28\u4fe1\u606f\uff1b\u5c06\u6240\u8ff0\u6587\u672c\u6587\u6863\u548c The structure format property information is input into the offline sequence annotation algorithm model to obtain the annotation information corresponding to the document information in the document. This application can extract key information from documents by using sequence annotation technology. By using multi-model fusion technology, the optimal model can be used to extract different key information in documents. In addition, the application for business rule reasoning and calculation of literal extraction results is more applicable.
【技术实现步骤摘要】
获取文档信息的方法及装置
本申请涉及数据处理领域,具体的,涉及一种获取文档信息的方法及装置。
技术介绍
自然语言处理(NaturalLanguageProcessing)简单来讲,就是让计算机能够理解人类语言的一种技术。自然语言处理的应用方向很多,包括文本分类、文本聚类、摘要抽取、情感分析、文本审核等应用,机器能够在一定程度上辅助甚至代替人来做某些文字相关工作。在日常工作中,文档的编写、审核、评阅、修改比较常见,例如合同文书的订制编写修改,招投标书的编写审核,保险条款的抽取,证券公告的信息提取分析等。目前,在文字撰写工作上,NLP技术还有所欠缺,很多场景效果不是很好,例如,在一份文档中的不同位置包含很多关键信息,很多业务场景的第一步就是找到这些关键信息。有些文档较短、关键信息较为集中、文档格式内容比较单一时,关键信息相对容易查找。而对于文本内容较长、格式内容多样的文本,查找关键信息较为费时费力。例如债券募集书,通常都有几百页,内容多文档结构复杂,关键信息往往散落在文中不同位置,查找这些关键信息比较费时费力。已有的一些方法能够进行一定程度的信息抽取,但已有的方法大多基于关键字查找、文本匹配、正则表达式等传统技术,效果不能够保证,往往由于实际业务预测样本文本表述丰富等原因,导致信息抽取功能效果较差,直接影响后续各个环节。公开于本申请
技术介绍
部分的信息仅仅旨在加深对本申请的一般
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
本申请的主要目的在于提供一种基于序列标注以及学习模型的文档信息抽取方法及装置。为 ...
【技术保护点】
1.一种获取文档信息的方法,其特征在于,包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,所述方法还包括:将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
【技术特征摘要】
1.一种获取文档信息的方法,其特征在于,包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,所述方法还包括:将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。2.根据权利要求1所述的获取文档信息的方法,其特征在于,在获取该文档中的文档信息所对应的标注信息之后,所述方法还包括:针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。3.根据权利要求1所述的获取文档信息的方法,其特征在于,所述对至少一种序列标注算法模型进行训练,包括:将待训练的文档转换成文本文档,其中所述待训练的文档包括:word格式文档、PDF格式文档和/或图像格式文档;从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息;将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中,以获取经过训练的至少一种离线序列标注算法模型。4.根据权利要求2所述的获取文档信息的方法,其特征在于,所述序列标注算法模型包括:HMM模型、CRF模型和DeepLearning模型。5.根据权利要求1所述的获取文档信...
【专利技术属性】
技术研发人员:高翔,王江,安怡,李瀚清,曾彦能,赵业辉,杨慧宇,陈运文,纪达麒,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。