文本信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37308030 阅读：24 留言：0更新日期：2023-04-21 22:52

本发明专利技术实施例公开了一种文本信息抽取方法、装置、电子设备及存储介质，文本信息抽取方法，包括：获取待抽取文本文档；通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析，得到文档富文本解析数据；通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。本发明专利技术实施例技术方案提高了文本信息抽取的准确率。本信息抽取的准确率。本信息抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本信息抽取方法、装置、电子设备及存储介质

[0001]本专利技术实施例涉及信息处理
，尤其涉及一种文本信息抽取方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的发展，信息抽取技术层出不穷，信息抽取技术能够通过算法模型的形式将文档转换为可统计分析的结构化数据再进行分类，使得从业人员能够快速准确地从中获得有意义有价值的文本信息。
[0003]目前，技术人员在进行信息抽取时，通常采用传统机器学习方法或是端到端训练的深度学习方法。传统机器学习方法主要是特征工程以及分类器，特征工程主要技术有各种分词方法，分类器常用有朴素贝叶斯、KNN(k
‑
Nearest Neighbors，k邻近)以及决策树等。深度学习方法主要有文本分类算法以及目标检测算法等。
[0004]专利技术人在实现本专利技术的过程中，发现现有信息抽取方式存在信息抽取模型训练耗时耗力并且迭代优化困难等问题。

技术实现思路

[0005]本专利技术实施例提供一种文本信息抽取方法、装置、设备及存储介质，能够提高...

【技术保护点】

【技术特征摘要】
1.一种文本信息抽取方法，其特征在于，应用于文本分类模型，包括：获取待抽取文本文档；通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析，得到文档富文本解析数据；通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息。2.根据权利要求1所述的方法，其特征在于，所述文档富文本解析数据包括文本解析数据和富文本解析数据；所述通过第一文本解析模块对所述待抽取文本文档进行文本解析和富文本解析，得到文档富文本解析数据，包括：通过所述第一文本解析模块采用文字识别方法对所述待抽取文本文档进行文本解析，得到所述文本解析数据；通过所述第一文本解析模块采用物体检测方法对所述待抽取文本文档进行文本解析，得到所述富文本解析数据；其中，所述富文本解析数据包括所述待抽取文本文档的版面信息，所述待抽取文本文档的版面信息包括页眉、页脚、标题、段落和表格中的至少一项。3.根据权利要求1所述的方法，其特征在于，在所述获取待抽取文本文档之前，还包括：确定所述待抽取文本文档的文本类型；根据所述待抽取文本文档的文本类型从各备选富文本分类模块中确定所述第一富文本分类模块。4.根据权利要求1所述的方法，其特征在于，所述通过第一富文本分类模块对所述文档富文本解析数据抽取文本信息，包括：通过所述第一富文本分类模块确定富文本分类规则；其中，所述富文本分类规则由目标匹配文本和/或逻辑运算符按照文本匹配原理组成；基于所述富文本分类规则对所述文档富文本解析数据进行分类匹配；根据所述文档富文本解析数据的分类匹配结果得到所述文本信息。5.根据权利要求4所述的方法，其特征在于，所述富文本分类规则包括版本信息匹配规则；所述基于所述富文本分类规则对所述文档富文本解析数据进行分类匹配，包括：根据所述版本信息匹配规则确定待匹配版本信息；根据所述待匹配版本信息确定所述文档富文本解析数...

【专利技术属性】
技术研发人员：杨彬彬，陈运文，纪达麒，李巍豪，高翔，黄登，潘新星，魏舒，许诺，
申请(专利权)人：达而观信息科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人