版面分析方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33537714 阅读:92 留言:0更新日期:2022-05-19 02:22
本发明专利技术提供一种版面分析方法、装置、电子设备和存储介质,其中方法包括:从待分析图像的句子集合中,确定各个句子的候选下句;基于各个句子及其候选下句的语义信息,从各个句子的候选下句中确定各个句子的下一句子;基于各个句子的下一句子,对句子集合进行版面排序。本发明专利技术提供的方法、装置、电子设备和存储介质,基于各个句子及其候选下句的语义信息进行上下句判断,从而从候选下句中确定句子的下一句子,实现待分析图像中句子的版面排序,全程无需应用人为制定的版面排序规则,避免了人为指定规则对于人力和时间的浪费,并且针对结构变化或者排版复杂的图像同样适用,实现了自动化且适应性更强的版面分析,有助于拓宽版面分析的应用。的应用。的应用。

【技术实现步骤摘要】
版面分析方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种版面分析方法、装置、电子设备和存储介质。

技术介绍

[0002]OCR(optical character recognition,光学字符识别)是指通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
[0003]随着基于深度学习的图像识别技术的发展,单纯的文本识别性能已经接近达到95%以上。但是,由于文本的版面信息千变万化,即使文字识别正确,却未必能够准确地复现原始文本序列结构,而文本序列结构极大程度上会影响甚至改变原始文本的语义,直接限制了文字识别技术的应用。
[0004]目前,文本版面信息的获取和文本序列的恢复主要依据人工制定的规则实现,但是此类方法多针对于结构固定、排版简单的图像,对于报刊之类复杂版面的图像,上述方法难以实现版面复现,且人工制定的规则需要技术人员进行定制,浪费人力、时间,给用户带来了极大困扰。

技术实现思路

[0005]本专利技术提供一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种版面分析方法,其特征在于,包括:从待分析图像的句子集合中,确定各个句子的候选下句;基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子;基于所述各个句子的下一句子,对所述句子集合进行版面排序。2.根据权利要求1所述的版面分析方法,其特征在于,所述基于所述各个句子及其候选下句的语义信息,从所述各个句子的候选下句中确定所述各个句子的下一句子,包括:基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,所述图像特征用于表征所述待分析图像中所述各个句子的版面分布信息;基于所述各个句子的候选下句的置信度,从所述各个句子的候选下句中确定所述各个句子的下一句子。3.根据权利要求2所述的版面分析方法,其特征在于,所述基于所述各个句子及其候选下句的语义信息,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度,包括:拼接所述各个句子及其候选下句,得到所述各个句子的候选文本;对所述各个句子的候选文本进行语义提取,得到所述各个句子的候选文本的语义特征,所述语义特征用于表征对应句子及其候选下句的语义信息;基于所述各个句子的候选文本的语义特征,以及所述待分析图像的图像特征,确定所述各个句子的候选下句的置信度。4.根据权利要求2或3所述的版面分析方法,其特征在于,所述待分析图像的图像特征基于如下步骤确定:基于文字识别模型,对所述待分析图像进行特征提取,得到所述图像特征,所述文字识别模型用于提取所述图像特征,并基于所述图像特征进行文字识别。5.根据权利要求1至3中任一项所述的版面分析方法,其特征在于,所述从待分析图像的句子集合中,确定各个句子的候选下句,包括:基于当前句子在所述待分析图像中的尾字位置,以及其他句子在所述待分析图像中的首字位置,确定...

【专利技术属性】
技术研发人员:王玉杰吴飞方四安张勃涛洪帅柳林徐承
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1