文本元素阅读顺序确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32831107 阅读：14 留言：0更新日期：2022-03-26 20:43

本申请实施例提供了文本元素阅读顺序确定方法、装置、电子设备及存储介质，获取待分析文本数据，其中，待分析文本数据中包括多个文本元素；对待分析文本数据中的文本元素进行解析或特征提取，得到待分析文本数据中各文本元素的位置特征及语义特征；对待分析文本数据进行图像特征的提取，得到待分析文本数据中各文本元素的图像特征；针对每一个文本元素，对该文本元素的语义特征及图像特征进行融合，得到该文本元素的融合特征；基于各文本元素的位置特征及融合特征，建立待分析文本数据的元素图网络；按照元素图网络，确定各文本元素的阅读顺序。可见，通过本申请可以确定文本元素的阅读顺序。读顺序。读顺序。

全部详细技术资料下载

【技术实现步骤摘要】
文本元素阅读顺序确定方法、装置、电子设备及存储介质

[0001]本申请涉及数据处理
，特别是涉及文本元素阅读顺序确定方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，基于人工智能的文本识别技术、信息抽取技术的应用越来越广泛。在文本识别
，规整文本的识别技术已经较为成熟，但是对于从右到左的文本存在阅读顺序的问题；在信息抽取领域，各个板块之间的顺序拼接常常通过从上到下从左到右的方式，但是针对于各类杂志、简历等复杂版式，这样的阅读顺序往往会打乱整个文档的语义信息，造成信息抽取中的实体截断等问题。因此，如何确定文本元素的阅读顺序，成为亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种文本元素阅读顺序确定方法、装置、电子设备及存储介质，以实现确定文本元素的阅读顺序。具体技术方案如下：
[0004]第一方面，本申请实施例提供了一种文本元素阅读顺序确定方法，包括：
[0005]获取待分析文本数据，其中，所述待分析文本数据中包括多个文本元素；
[0006]对所述待分析文本数据中的文本元素进行解析或特征提取，得到所述待分析文本数据中各文本元素的位置特征及语义特征；
[0007]对所述待分析文本数据进行图像特征的提取，得到所述待分析文本数据中各文本元素的图像特征；
[0008]针对每一个文本元素，对该文本元素的语义特征及图像特征进行融合，得到该文本元素的融合特征；
[0009]基于各所述文本元素的位置...

【技术保护点】

【技术特征摘要】
1.一种文本元素阅读顺序确定方法，其特征在于，包括：获取待分析文本数据，其中，所述待分析文本数据中包括多个文本元素；对所述待分析文本数据中的文本元素进行解析或特征提取，得到所述待分析文本数据中各文本元素的位置特征及语义特征；对所述待分析文本数据进行图像特征的提取，得到所述待分析文本数据中各文本元素的图像特征；针对每一个文本元素，对该文本元素的语义特征及图像特征进行融合，得到该文本元素的融合特征；基于各所述文本元素的位置特征及融合特征，建立所述待分析文本数据的元素图网络；按照所述元素图网络，确定各所述文本元素的阅读顺序。2.根据权利要求1所述的方法，其特征在于，所述对所述待分析文本数据中的文本元素进行解析或特征提取，得到所述待分析文本数据中各文本元素的位置特征及语义特征，包括：对所述待分析文本数据进行文本元素的获取，得到所述待分析文本数据中各文本元素的内容及位置；针对每一个文本元素，基于该文本元素的内容，确定该文本元素的语义特征，基于该文本元素的位置，得到该文本元素的位置特征。3.根据权利要求2所述的方法，其特征在于，所述待分析文本数据为便携式文档格式PDF；所述对所述待分析文本数据进行文本元素的获取，得到所述待分析文本数据中各文本元素的内容及位置，包括：利用预设PDF解析器对所述待分析文本数据进行文本元素的解析，得到所述待分析文本数据中各文本元素的内容及位置；在所述对所述待分析文本数据进行图像特征的提取，得到所述待分析文本数据中各文本元素的图像特征之前，所述方法还包括：将所述待分析文本数据由PDF转换为图片格式。4.根据权利要求2所述的方法，其特征在于，所述待分析文本数据为图片格式；所述对所述待分析文本数据进行文本元素的获取，得到所述待分析文本数据中各文本元素的内容及位置，包括：利用预设光学字符识别OCR算法对所述待分析文本数据进行文本元素的识别，得到所述待分析文本数据中各文本元素的内容及位置。5.根据权利要求1所述的方法，其特征在于，所述对所述待分析文本数据进行图像特征的提取，得到所述待分析文本数据中各文本元素的图像特征，包括：将所述待分析文本数据输入到预先训练的深度学习模型中，从所述深度学习模型的特征输出层提取出所述待分析文本数据中各文本元素的图像特征。6.根据权利要求1所述的方法，其特征在于，所述基于各所述文本元素的位置特征及融合特征，建立所述待分析文本...

【专利技术属性】
技术研发人员：李灿，程战战，钮毅，
申请(专利权)人：上海高德威智能交通系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人