文本版面分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36985603 阅读:24 留言:0更新日期:2023-03-25 18:04
本发明专利技术提供了一种文本版面分析方法、装置、电子设备及存储介质,其中方法包括:基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。本方案,能够提高文本版面中分析结果的准确性。面中分析结果的准确性。面中分析结果的准确性。

【技术实现步骤摘要】
文本版面分析方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及计算机视觉
,特别涉及一种文本版面分析方法、装置、电子设备及存储介质。

技术介绍

[0002]在文本版面分析场景中,通常使用OCR算法针对文本图片进行内容检测和识别,并在OCR算法检测完成之后,针对检测内容进行关键信息的提取。现有技术中,针对识别出的检测内容,通过坐标定位方式获取所需的关键信息。但是该方式在针对文本格式发生变化的文本版面进行处理时,准确性较差。

技术实现思路

[0003]本专利技术实施例提供了一种文本版面分析方法、装置、电子设备及存储介质,能够提高文本版面中分析结果的准确性。
[0004]第一方面,本专利技术实施例提供了一种文本版面分析方法,包括:
[0005]基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
[0006]将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
[0007]将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
[0008]将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
[0009]将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
[0010]将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
[0011]在一种可能的实现方式中,所述seq2seq模型的训练方式包括:
[0012]获取多个样本文本版面,针对每一个样本文本版面均执行:
[0013]基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;
[0014]基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;
[0015]将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;
[0016]将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;
[0017]将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;
[0018]将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;
[0019]将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;
[0020]基于多个样本对对seq2seq模型进行训练。
[0021]在一种可能的实现方式中,所述多个样本文本版面的版面类型不完全相同。
[0022]在一种可能的实现方式中,采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。
[0023]在一种可能的实现方式中,还包括:预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用于将该版面类型的文本版面中的文本内容转换为基于相应文本版面的句向量;
[0024]在进行句向量转换时,利用相应版面类型的doc2vec模型实现。
[0025]在一种可能的实现方式中,所述坐标拼接,包括:
[0026]将每一个文本框的四个顶点的坐标值作为相应文本框的八维坐标值;
[0027]将各文本框的八维坐标值进行首尾拼接,得到拼接后的坐标信息。
[0028]在一种可能的实现方式中,所述待分析文本版面中除文本内容之外的字符包括:数字、符号、英文和其他字符中的至少一种;
[0029]所述生成字符特征信息,包括:基于所述待分析文本版面中数字、符号、英文和其他字符中的至少一种字符所占比例,生成相应维度的字符特征信息。
[0030]第二方面,本专利技术实施例还提供了一种文本版面分析装置,包括:
[0031]获取单元,用于基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;
[0032]转换单元,用于将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;
[0033]坐标拼接单元,用于将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;
[0034]生成单元,用于将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;
[0035]信息拼接单元,用于将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;
[0036]识别单元,用于将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。
[0037]第三方面,本专利技术实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
[0038]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
[0039]本专利技术实施例提供了一种文本版面分析方法、装置、电子设备及存储介质,通过将获取到的文本内容转换为基于该待分析文本版面的句向量,将文本框进行坐标拼接,将待分析文本版面中除文字内容之外的字符生成字符特征信息,然后将句向量、拼接后的坐标信息和字符特征信息进行信息拼接,得到的拼接序列中充分包含了待分析文本版面的内容,将拼接序列输入到预先训练seq2seq模型中,使得seq2seq模型输出每一个文本内容的内容标识。可见,本方案中,seq2seq模型在训练过程中能够充分学习到文本版面的特征,因此在进行识别时,能够使得识别结果更加准确。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本专利技术一实施例提供的一种文本版面分析方法流程图;
[0042]图2是本专利技术一实施例提供的一种电子设备的硬件架构图;
[0043]图3是本专利技术一实施例提供的一种文本版面分析装置结构图;
[0044]图4是本专利技术一实施例提供的另一种文本版面分析装置结构图。
具体实施方式
[0045]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0046]请参考图1,本专利技术实施例提供了一种文本版面分析方法,该方法包括:
[0047]步骤100,基于OCR算法对待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本版面分析方法,其特征在于,包括:基于OCR算法对待分析文本版面的识别结果,获取所述待分析文本版面中的文本内容和对应文本框的坐标;将所述待分析文本版面中的文本内容转换为基于所述待分析文本版面的句向量;将所述待分析文本版面中的文本框进行坐标拼接,得到拼接后的坐标信息;将所述待分析文本版面中除文本内容之外的字符生成字符特征信息;将所述句向量、所述坐标信息和所述字符特征信息进行信息拼接,得到拼接序列;将所述拼接序列输入至预先训练好的seq2seq模型中,以输出每一个文本内容的内容标识。2.根据权利要求1所述的方法,其特征在于,所述seq2seq模型的训练方式包括:获取多个样本文本版面,针对每一个样本文本版面均执行:基于OCR算法对该样本文本版面的识别结果,获取该样本文本版面中的样本文本内容和对应文本框的坐标;基于人工标识方式获取该样本文本版面中样本文本内容的标识ID;将该样本文本版面中的样本文本内容转换为基于该样本文本版面的样本句向量;将该样本文本版面中的文本框进行坐标拼接,得到拼接后的样本坐标信息;将该样本文本版面中除文本内容之外的字符生成样本字符特征信息;将所述样本句向量、所述样本坐标信息和所述样本字符特征信息进行信息拼接,得到样本拼接序列;将该样本拼接序列作为输入,将该样本文本版面中样本文本内容的标识ID作为输出,得到对seq2seq模型进行训练的样本对;基于多个样本对对seq2seq模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述多个样本文本版面的版面类型不完全相同。4.根据权利要求2所述的方法,其特征在于,采用onehot编码方式将该样本文本版面中样本文本内容的标识ID作为输出。5.根据权利要求2所述的方法,其特征在于,还包括:预先利用相同版面类型的多个样本文本版面,训练得到该版面类型对应的doc2vec模型;所述doc2vec模型用...

【专利技术属性】
技术研发人员:杨沛灵闫印强姚兴仁姜海昆范宇
申请(专利权)人:长扬科技北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1