版面分析方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33537714 阅读:77 留言:0更新日期:2022-05-19 02:22
本发明专利技术提供一种版面分析方法、装置、电子设备和存储介质,其中方法包括:从待分析图像的句子集合中,确定各个句子的候选下句;基于各个句子及其候选下句的语义信息,从各个句子的候选下句中确定各个句子的下一句子;基于各个句子的下一句子,对句子集合进行版面排序。本发明专利技术提供的方法、装置、电子设备和存储介质,基于各个句子及其候选下句的语义信息进行上下句判断,从而从候选下句中确定句子的下一句子,实现待分析图像中句子的版面排序,全程无需应用人为制定的版面排序规则,避免了人为指定规则对于人力和时间的浪费,并且针对结构变化或者排版复杂的图像同样适用,实现了自动化且适应性更强的版面分析,有助于拓宽版面分析的应用。的应用。的应用。

【技术实现步骤摘要】
版面分析方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种版面分析方法、装置、电子设备和存储介质。

技术介绍

[0002]OCR(optical character recognition,光学字符识别)是指通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
[0003]随着基于深度学习的图像识别技术的发展,单纯的文本识别性能已经接近达到95%以上。但是,由于文本的版面信息千变万化,即使文字识别正确,却未必能够准确地复现原始文本序列结构,而文本序列结构极大程度上会影响甚至改变原始文本的语义,直接限制了文字识别技术的应用。
[0004]目前,文本版面信息的获取和文本序列的恢复主要依据人工制定的规则实现,但是此类方法多针对于结构固定、排版简单的图像,对于报刊之类复杂版面的图像,上述方法难以实现版面复现,且人工制定的规则需要技术人员进行定制,浪费人力、时间,给用户带来了极大困扰。

技术实现思路

[0005]本专利技术提供一种版面分析方法、装置、电子设备和存储介质,用以解决现有技术中文字识别无法实现版面复现的问题。
[0006]本专利技术提供一种版面分析方法,包括:
[0007]从待分析图像的句子集合中,确定各个句子的候选下句;
[0008]基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子;
[0009]基于所述各个句子的下一句子,对所述句子集合进行版面排序。
[0010]根据本专利技术提供的一种版面分析方法,所述基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子,包括:
[0011]基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,所述图像特征用于表征所述待分析图像中所述各个句子的版面分布信息;
[0012]基于所述各个句子的候选下句的置信度,从所述各个句子的候选下句中确定所述各个句子的下一句子。
[0013]根据本专利技术提供的一种版面分析方法,所述基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,包括:
[0014]拼接所述各个句子及其候选下句,得到所述各个句子的候选文本;
[0015]对所述各个句子的候选文本进行语义提取,得到所述各个句子的候选文本的语义
特征,所述语义特征用于表征对应句子及其候选下句的语义信息;
[0016]基于所述各个句子的候选文本的语义特征,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度。
[0017]根据本专利技术提供的一种版面分析方法,所述待分析图像的图像特征基于如下步骤确定:
[0018]基于文字识别模型,对所述待分析图像进行特征提取,得到所述图像特征,所述文字识别模型用于提取所述图像特征,并基于所述图像特征进行文字识别。
[0019]根据本专利技术提供的一种版面分析方法,所述从待分析图像的句子集合中,确定各个句子的候选下句,包括:
[0020]基于当前句子在所述待分析图像中的尾字位置,以及其他句子在所述待分析图像中的首字位置,确定所述当前句子和所述其他句子之间的距离,所述当前句子为所述句子集合中的一个句子,所述其他句子为所述句子集合中除所述当前句子以外的句子;
[0021]基于所述当前句子和所述其他句子之间的距离,从所述其他句子中确定当前句子的候选下句。
[0022]根据本专利技术提供的一种版面分析方法,所述句子集合基于如下步骤确定:
[0023]基于所述待分析图像中的当前文字与所述当前文字的下一文字的文字位置,确定所述当前文字及其下一文字的连续状态;
[0024]若所述连续状态为连续,则将所述下一文字置入所述当前文字所在的句子中,否则将所述下一文字置入新创建的空白句子中;
[0025]将所述下一文字作为新的当前文字,直至完成组句,得到所述句子集合。
[0026]根据本专利技术提供的一种版面分析方法,所述基于所述待分析图像中的当前文字与所述当前文字的下一文字的文字位置,确定所述当前文字及其下一文字的连续状态,包括:
[0027]基于所述当前文字的文字位置中的临近下文的两个顶点的顶点位置,以及所述下一文字的文字位置中临近上文的两个顶点的顶点位置,确定所述当前文字及其下一文字的连续状态。
[0028]本专利技术还提供一种版面分析装置,包括:
[0029]候选确定单元,用于从待分析图像的句子集合中,确定各个句子的候选下句;
[0030]下句确定单元,用于基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子;
[0031]排序单元,用于基于所述各个句子的下一句子,对所述句子集合进行版面排序。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述版面分析方法的步骤。
[0033]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述版面分析方法的步骤。
[0034]本专利技术提供的版面分析方法、装置、电子设备和存储介质,基于各个句子及其候选下句的语义信息进行上下句判断,从而从候选下句中确定句子的下一句子,实现待分析图像中句子的版面排序,全程无需应用人为制定的版面排序规则,避免了人为指定规则对于人力和时间的浪费,并且针对结构变化或者排版复杂的图像同样适用,实现了自动化且适
应性更强的版面分析,有助于拓宽版面分析的应用。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术提供的版面分析方法的流程示意图之一;
[0037]图2是本专利技术提供的下句选取方法的流程示意图之一;
[0038]图3是本专利技术提供的下句选取方法的流程示意图之二;
[0039]图4是本专利技术提供的句子集合确定方法的流程示意图;
[0040]图5是本专利技术提供的版面分析方法的流程示意图之二;
[0041]图6是本专利技术提供的版面分析装置的结构示意图;
[0042]图7是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0043]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种版面分析方法,其特征在于,包括:从待分析图像的句子集合中,确定各个句子的候选下句;基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子;基于所述各个句子的下一句子,对所述句子集合进行版面排序。2.根据权利要求1所述的版面分析方法,其特征在于,所述基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子,包括:基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,所述图像特征用于表征所述待分析图像中所述各个句子的版面分布信息;基于所述各个句子的候选下句的置信度,从所述各个句子的候选下句中确定所述各个句子的下一句子。3.根据权利要求2所述的版面分析方法,其特征在于,所述基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,包括:拼接所述各个句子及其候选下句,得到所述各个句子的候选文本;对所述各个句子的候选文本进行语义提取,得到所述各个句子的候选文本的语义特征,所述语义特征用于表征对应句子及其候选下句的语义信息;基于所述各个句子的候选文本的语义特征,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度。4.根据权利要求2或3所述的版面分析方法,其特征在于,所述待分析图像的图像特征基于如下步骤确定:基于文字识别模型,对所述待分析图像进行特征提取,得到所述图像特征,所述文字识别模型用于提取所述图像特征,并基于所述图像特征进行文字识别。5.根据权利要求1至3中任一项所述的版面分析方法,其特征在于,所述从待分析图像的句子集合中,确定各个句子的候选下句,包括:基于当前句子在所述待分析图像中的尾字位置,以及其他句子在所述待分析图像中的首字位置,确定...

【专利技术属性】
技术研发人员:王玉杰吴飞方四安张勃涛洪帅柳林徐承
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1