文本元素阅读顺序确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32831107 阅读:14 留言:0更新日期:2022-03-26 20:43
本申请实施例提供了文本元素阅读顺序确定方法、装置、电子设备及存储介质,获取待分析文本数据,其中,待分析文本数据中包括多个文本元素;对待分析文本数据中的文本元素进行解析或特征提取,得到待分析文本数据中各文本元素的位置特征及语义特征;对待分析文本数据进行图像特征的提取,得到待分析文本数据中各文本元素的图像特征;针对每一个文本元素,对该文本元素的语义特征及图像特征进行融合,得到该文本元素的融合特征;基于各文本元素的位置特征及融合特征,建立待分析文本数据的元素图网络;按照元素图网络,确定各文本元素的阅读顺序。可见,通过本申请可以确定文本元素的阅读顺序。读顺序。读顺序。

【技术实现步骤摘要】
文本元素阅读顺序确定方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,特别是涉及文本元素阅读顺序确定方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,基于人工智能的文本识别技术、信息抽取技术的应用越来越广泛。在文本识别
,规整文本的识别技术已经较为成熟,但是对于从右到左的文本存在阅读顺序的问题;在信息抽取领域,各个板块之间的顺序拼接常常通过从上到下从左到右的方式,但是针对于各类杂志、简历等复杂版式,这样的阅读顺序往往会打乱整个文档的语义信息,造成信息抽取中的实体截断等问题。因此,如何确定文本元素的阅读顺序,成为亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种文本元素阅读顺序确定方法、装置、电子设备及存储介质,以实现确定文本元素的阅读顺序。具体技术方案如下:
[0004]第一方面,本申请实施例提供了一种文本元素阅读顺序确定方法,包括:
[0005]获取待分析文本数据,其中,所述待分析文本数据中包括多个文本元素;
[0006]对所述待分析文本数据中的文本元素进行解析或特征提取,得到所述待分析文本数据中各文本元素的位置特征及语义特征;
[0007]对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征;
[0008]针对每一个文本元素,对该文本元素的语义特征及图像特征进行融合,得到该文本元素的融合特征;
[0009]基于各所述文本元素的位置特征及融合特征,建立所述待分析文本数据的元素图网络;
[0010]按照所述元素图网络,确定各所述文本元素的阅读顺序。
[0011]在一种可能的实施方式中,所述对所述待分析文本数据中的文本元素进行解析或特征提取,得到所述待分析文本数据中各文本元素的位置特征及语义特征,包括:
[0012]对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置;
[0013]针对每一个文本元素,基于该文本元素的内容,确定该文本元素的语义特征,基于该文本元素的位置,得到该文本元素的位置特征。
[0014]在一种可能的实施方式中,所述待分析文本数据为便携式文档格式PDF;
[0015]所述对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置,包括:
[0016]利用预设PDF解析器对所述待分析文本数据进行文本元素的解析,得到所述待分
析文本数据中各文本元素的内容及位置;
[0017]在所述对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征之前,所述方法还包括:
[0018]将所述待分析文本数据由PDF转换为图片格式。
[0019]在一种可能的实施方式中,所述待分析文本数据为图片格式;
[0020]所述对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置,包括:
[0021]利用预设光学字符识别OCR算法对所述待分析文本数据进行文本元素的识别,得到所述待分析文本数据中各文本元素的内容及位置。
[0022]在一种可能的实施方式中,所述对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征,包括:
[0023]将所述待分析文本数据输入到预先训练的深度学习模型中,从所述深度学习模型的特征输出层提取出所述待分析文本数据中各文本元素的图像特征。
[0024]在一种可能的实施方式中,所述基于各所述文本元素的位置特征及融合特征,建立所述待分析文本数据的元素图网络,包括:
[0025]根据各所述文本元素的融合特征,建立元素图网络中各节点的节点特征,其中,每个所述文本元素对应所述元素图网络中的一个节点;
[0026]根据各所述文本元素的位置特征,建立所述元素图网络中各节点的边特征。
[0027]在一种可能的实施方式中,所述按照所述元素图网络,确定各所述文本元素的阅读顺序,包括:
[0028]利用预先训练的解码器网络对所述元素图网络进行解码,得到各所述文本元素的阅读顺序。
[0029]在一种可能的实施方式中,所述针对每一个文本元素,对该文本元素的语义特征及图像特征进行融合,得到该文本元素的融合特征,包括:
[0030]将所述待分析文本数据的目标应用场景特征输入到预先训练的特征融合网络中,针对每一个文本元素,通过所述特征融合网络对该文本元素的语义特征与图像特征进行加权融合,得到该文本元素的融合特征,其中,所述目标应用场景特征包括所述待分析文本数据中文本元素的位置特征、语义特征及图像特征,其中,所述特征融合网络加权融合过程中使用的权重通过不同应用场景下的样本文本数据的样本应用场景特征训练得到。
[0031]第二方面,本申请实施例提供了一种文本元素阅读顺序确定装置,包括:
[0032]文本数据获取模块,用于获取待分析文本数据,其中,所述待分析文本数据中包括多个文本元素;
[0033]语义及位置提取模块,用于对所述待分析文本数据中的文本元素进行解析或特征提取,得到所述待分析文本数据中各文本元素的位置特征及语义特征;
[0034]图像特征提取模块,用于对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征;
[0035]特征融合模块,用于针对每一个文本元素,对该文本元素的语义特征及图像特征进行融合,得到该文本元素的融合特征;
[0036]元素图网络构建模块,用于基于各所述文本元素的位置特征及融合特征,建立所
述待分析文本数据的元素图网络;
[0037]解码器模块,用于按照所述元素图网络,确定各所述文本元素的阅读顺序。
[0038]在一种可能的实施方式中,所述语义及位置提取模块,包括:
[0039]文本元素识别子模块,用于对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置;
[0040]语义特征提取子模块,用于针对每一个文本元素,基于该文本元素的内容,确定该文本元素的语义特征;
[0041]位置特征提取子模块,用于针对每一个文本元素,基于该文本元素的位置,得到该文本元素的位置特征。
[0042]在一种可能的实施方式中,所述待分析文本数据为便携式文档格式PDF;
[0043]所述文本元素识别子模块,具体用于:利用预设PDF解析器对所述待分析文本数据进行文本元素的解析,得到所述待分析文本数据中各文本元素的内容及位置;
[0044]所述装置还包括:格式转换模块,用于将所述待分析文本数据由PDF转换为图片格式。
[0045]在一种可能的实施方式中,所述待分析文本数据为图片格式;
[0046]所述文本元素识别子模块,具体用于:利用预设光学字符识别OCR算法对所述待分析文本数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本元素阅读顺序确定方法,其特征在于,包括:获取待分析文本数据,其中,所述待分析文本数据中包括多个文本元素;对所述待分析文本数据中的文本元素进行解析或特征提取,得到所述待分析文本数据中各文本元素的位置特征及语义特征;对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征;针对每一个文本元素,对该文本元素的语义特征及图像特征进行融合,得到该文本元素的融合特征;基于各所述文本元素的位置特征及融合特征,建立所述待分析文本数据的元素图网络;按照所述元素图网络,确定各所述文本元素的阅读顺序。2.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本数据中的文本元素进行解析或特征提取,得到所述待分析文本数据中各文本元素的位置特征及语义特征,包括:对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置;针对每一个文本元素,基于该文本元素的内容,确定该文本元素的语义特征,基于该文本元素的位置,得到该文本元素的位置特征。3.根据权利要求2所述的方法,其特征在于,所述待分析文本数据为便携式文档格式PDF;所述对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置,包括:利用预设PDF解析器对所述待分析文本数据进行文本元素的解析,得到所述待分析文本数据中各文本元素的内容及位置;在所述对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征之前,所述方法还包括:将所述待分析文本数据由PDF转换为图片格式。4.根据权利要求2所述的方法,其特征在于,所述待分析文本数据为图片格式;所述对所述待分析文本数据进行文本元素的获取,得到所述待分析文本数据中各文本元素的内容及位置,包括:利用预设光学字符识别OCR算法对所述待分析文本数据进行文本元素的识别,得到所述待分析文本数据中各文本元素的内容及位置。5.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本数据进行图像特征的提取,得到所述待分析文本数据中各文本元素的图像特征,包括:将所述待分析文本数据输入到预先训练的深度学习模型中,从所述深度学习模型的特征输出层提取出所述待分析文本数据中各文本元素的图像特征。6.根据权利要求1所述的方法,其特征在于,所述基于各所述文本元素的位置特征及融合特征,建立所述待分析文本...

【专利技术属性】
技术研发人员:李灿程战战钮毅
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1