本发明专利技术实施例公开了一种文本信息抽取方法、装置、电子设备及存储介质,文本信息抽取方法,包括:获取待抽取文本文档;通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据;通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。本发明专利技术实施例技术方案提高了文本信息抽取的准确率。本信息抽取的准确率。本信息抽取的准确率。
【技术实现步骤摘要】
文本信息抽取方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及信息处理
,尤其涉及一种文本信息抽取方法、装置、设备及存储介质。
技术介绍
[0002]随着科技的发展,信息抽取技术层出不穷,信息抽取技术能够通过算法模型的形式将文档转换为可统计分析的结构化数据再进行分类,使得从业人员能够快速准确地从中获得有意义有价值的文本信息。
[0003]目前,技术人员在进行信息抽取时,通常采用传统机器学习方法或是端到端训练的深度学习方法。传统机器学习方法主要是特征工程以及分类器,特征工程主要技术有各种分词方法,分类器常用有朴素贝叶斯、KNN(k
‑
Nearest Neighbors,k邻近)以及决策树等。深度学习方法主要有文本分类算法以及目标检测算法等。
[0004]专利技术人在实现本专利技术的过程中,发现现有信息抽取方式存在信息抽取模型训练耗时耗力并且迭代优化困难等问题。
技术实现思路
[0005]本专利技术实施例提供一种文本信息抽取方法、装置、设备及存储介质,能够提高文本信息抽取的准确率。
[0006]根据本专利技术的一方面,提供了一种文本信息抽取方法,包括:
[0007]获取待抽取文本文档;
[0008]通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据;
[0009]通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。
[0010]根据本专利技术的另一方面,提供了一种文本信息抽取装置,包括:
[0011]待抽取文本文档获取模块,用于获取待抽取文本文档;
[0012]第一文本解析模块,用于对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据;
[0013]第一富文本分类模块,用于对所述文档富文本解析数据抽取文本信息。
[0014]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本信息抽取方法。
[0018]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述
的文本信息抽取方法。
[0019]本专利技术实施例的技术方案,首先获取待抽取文本文档,再通过第一文本解析模块对待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据,最后通过第一富文本分类模块对文档富文本解析数据抽取文本信息。通过引入富文本信息,解决了在文本信息分类过程中无法在短期内实现迭代优化的问题,提高了文本信息抽取的准确率。
[0020]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术实施例一提供的一种文本信息抽取方法的流程图;
[0023]图2是本专利技术实施例二提供的另一种文本信息抽取方法的流程图;
[0024]图3是本专利技术实施例二提供的一种信息抽取的流程图;
[0025]图4是本专利技术实施例三提供的一种文本信息抽取装置的结构示意图;
[0026]图5为本专利技术实施例四提供的一种电子设备的结构示意图。
具体实施方式
[0027]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0028]需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0029]实施例一
[0030]图1是本专利技术实施例一提供的一种文本信息抽取方法的流程图,本实施例可适用于利用包括富文本信息的样本数据进行文本信息抽取的情况,该方法可以由文本信息抽取装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中,该电子设备可以是终端设备,也可以是服务器设备,本专利技术实施例并不对电子设备的具体设备类型进行限定。相应的,如图1所示,该方法包括如下操作:
[0031]S110、获取待抽取文本文档。
[0032]其中,待抽取文本文档可以是需要进行抽取信息的数据。
[0033]在本专利技术实施例中,用户上传的某某版式合同的word文档、身份证或火车票据的图片文档以及某某版式流水的pdf文档都可以作为待抽取文本文档。只要具备文本信息抽
取需求即可,本专利技术实施例并不对待抽取文本文档的文档类型进行限定。
[0034]S120、通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据。
[0035]其中,第一文本解析模块可以是文本分类模型用于对待抽取文本文档进行文本解析以及富文本解析的功能模块。文档富文本解析数据可以是包括文档的富文本信息的数据。
[0036]在本专利技术实施例中,将待抽取文本文档作为文本分类模型中第一文本解析模块的输入数据,送至第一文本解析模块中,进行文本解析和富文本解析。具体的,待抽取文本文档可以选择利用OCR(Optical Character Recognition,光学字符识别)方法对待抽取文本文档进行文本解析;可以选择利用yolov5(You Only Look Once,单阶段目标检测算法)方法对待抽取文本文档进行文本解析,最终得到文档富文本解析数据。
[0037]S130、通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。
[0038]其中,第一富文本分类模块可以是文本分类模型用于抽取文档富文本解析数据中的文本信息的功能模块。文本信息可以是利用第一富文本分类模块抽取得到的文本数据。
[0039]在本专利技术实施例中,利用第一富文本分类模块对文档富文本解析数据进行抽取,得到文本信息。
[0040]在一个具体的例子中,假设待抽取文本文档可以是某某版式的合同。将待抽取文本文本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本信息抽取方法,其特征在于,应用于文本分类模型,包括:获取待抽取文本文档;通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据;通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。2.根据权利要求1所述的方法,其特征在于,所述文档富文本解析数据包括文本解析数据和富文本解析数据;所述通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析,得到文档富文本解析数据,包括:通过所述第一文本解析模块采用文字识别方法对所述待抽取文本文档进行文本解析,得到所述文本解析数据;通过所述第一文本解析模块采用物体检测方法对所述待抽取文本文档进行文本解析,得到所述富文本解析数据;其中,所述富文本解析数据包括所述待抽取文本文档的版面信息,所述待抽取文本文档的版面信息包括页眉、页脚、标题、段落和表格中的至少一项。3.根据权利要求1所述的方法,其特征在于,在所述获取待抽取文本文档之前,还包括:确定所述待抽取文本文档的文本类型;根据所述待抽取文本文档的文本类型从各备选富文本分类模块中确定所述第一富文本分类模块。4.根据权利要求1所述的方法,其特征在于,所述通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息,包括:通过所述第一富文本分类模块确定富文本分类规则;其中,所述富文本分类规则由目标匹配文本和/或逻辑运算符按照文本匹配原理组成;基于所述富文本分类规则对所述文档富文本解析数据进行分类匹配;根据所述文档富文本解析数据的分类匹配结果得到所述文本信息。5.根据权利要求4所述的方法,其特征在于,所述富文本分类规则包括版本信息匹配规则;所述基于所述富文本分类规则对所述文档富文本解析数据进行分类匹配,包括:根据所述版本信息匹配规则确定待匹配版本信息;根据所述待匹配版本信息确定所述文档富文本解析数...
【专利技术属性】
技术研发人员:杨彬彬,陈运文,纪达麒,李巍豪,高翔,黄登,潘新星,魏舒,许诺,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。