用于提取版面信息的方法、系统和计算机可读介质技术方案

技术编号:37237232 阅读:29 留言:0更新日期:2023-04-20 23:19
本申请涉及用于提取版面信息的方法、系统和计算机可读介质。该方法包括使用经训练的Mask

【技术实现步骤摘要】
用于提取版面信息的方法、系统和计算机可读介质


[0001]本申请涉及文本分析技术,更具体而言,涉及用于提取版面信息的方法、系统和计算机可读介质。

技术介绍

[0002]一些企业(例如,媒体行业)通常保存有大量非结构化的电子文稿数据(例如,书籍、报纸、杂志期刊等)。当撰写新文稿时,作者可能期望参考一些历史文稿。这就要求事先对上述这些数据进行结构化处理。例如,针对不同文稿上的版面提取出版面信息。传统的手工提取方法将花费巨大的人力和财力。而且,对于包含复杂版面(版面数量多、位置随机等)的文稿(例如,报纸)而言更是重大挑战。在本领域中缺少自动、高效提取版面信息的技术方案。

技术实现思路

[0003]本专利技术提供了一种用于提取版面信息的方法。该方法包括使用经训练的Mask

RCNN模型对文稿的一个或多个版面进行划分;和从文稿的划分出的一个或多个版面提取相应的版面信息。
[0004]在一个实施方案中,经训练的Mask

RCNN模型的主干网络为ResNeXt

101

FPN。
[0005]在一个实施方案中,该方法还包括在提取版面信息之前,对文稿的格式进行识别,并且根据格式对版面信息进行提取。
[0006]在一个实施方案中,经训练的Mask

RCNN模型是使用一个或多个版面已经被标记出的文稿训练得到的。
[0007]在一个实施方案中,训练包括将Mask

RCNN模型预测出的候选版面与已经被标记出的一个或多个版面进行比对,从而得到经校正的候选版面。
[0008]在一个实施方案中,文稿是报纸。
[0009]本专利技术还提供了一种用于提取版面信息的系统。该系统包括经训练的Mask

RCNN模型,其用于对文稿的一个或多个版面进行划分;和用于从文稿的划分出的一个或多个版面提取相应的版面信息的装置。
[0010]本专利技术还提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上面叙述的方法。
[0011]本专利技术的技术方案通过机器学习模型对版面信息进行自动提取,该技术方案实现简单、操作便捷并且准确率高,特别是对包含复杂版面的文稿同样适用。
附图说明
[0012]图1是根据本专利技术的实施例的方法的流程图。
[0013]图2示出了根据本专利技术的实施例的经标记的报纸版面区域的示例。
[0014]图3示出了根据本专利技术的实施例的代表图2中的一个版面区域的矩形框的json数
据的示例。
[0015]图4示出了根据本专利技术的实施例的训练机器学习模型的流程图。
[0016]图5示出了从图2的报纸中提取出的各个版面的版面信息。
具体实施方式
[0017]现在将参照若干示例性实施例来说明本专利技术的内容。应当理解,说明这些实施例仅是为了使得本领域普通技术人员能够更好地理解并且因此实现本专利技术的内容,而不是暗示对本专利技术的范围进行任何限制。
[0018]如本文中所使用的,术语“包括”及其变体应当解读为意味着“包括但不限于”的开放式术语。术语“基于”应当解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”应当解读为“至少一个实施例”。术语“另一个实施例”应当解读为“至少一个其他实施例”。
[0019]在本申请的实施例中,“版面”指的是书报杂志等的每一页上文字图画的单独编排形式。例如,图2的报纸中示出了11个不同的版面。在本专利技术的实施例中,“版面信息”指的是该版面上承载的文字图画信息,包括但不限于标题、副标题、作者、正文、插图等。下面参考图1详细说明本专利技术的用于提取版面信息的方法。本专利技术的技术方案适用于各种文稿,特别是报纸等包含复杂版面的文稿。在本专利技术的实施例中,可以省略下述步骤中的一个或多个并且该方法不一定按如下顺序执行。
[0020]对文稿的版面区域进行标记
[0021]在本申请的实施例中,可以使用各种标注工具进行标记。在本申请的优选实施例中,使用标注工具Labelme进行标记。在本申请的实施例中,可以以适当的格式(例如,json)保存标记结果。在本专利技术的实施例中,标记结果包含每个版面矩形框的左上角坐标、左下角坐标、右上角坐标以及右下角坐标。如上所述,图2示出了一页报纸的经标记的11个版面区域,其中不同的版面区域由不同颜色的矩形框表示。图3示出了代表图2中的一个版面区域的矩形框的json数据,其中label字段代表版面区域的编号,points字段代表矩形框的四个坐标位置。在本专利技术的实施例中,可以在后续训练过程中的ROI校正操作中使用该数据。
[0022]训练用于划分版面的机器学习模型
[0023]在本专利技术的实施例中,可以使用适当的机器学习模型用于版面划分。然而,专利技术人认识到不同机器学习模型的选择将对最终的划分结果产生关键影响,大多数机器学习模型在训练后仍难以达到符合要求的性能。在本专利技术的优选实施例中,使用Mask

RCNN模型进行版面划分。本申请的专利技术人在对大量机器学习模型进行试验后出人意料地发现,Mask

RCNN模型在版面划分方面的性能显著地优于其他模型。在本专利技术的更优选实施例中,使用主干网络为ResNeXt

101

FPN的Mask

RCNN模型进行版面划分。下面的表格示出了Mask

RCNN模型和比较模型(仅示出部分示例性模型)在AP性能方面的对比。AP(Average precision,平均精准度)是本领域中用于评价模型性能的指标,AP的百分比值越大则表示模型的性能越好。
[0024]模型主干网络APAP50AP75FCIS+OHEMResNet

101

C5

dilated30.12%51.45%

FCIS++++OHEMResNet

101

C5

dilated32.26%56.32%

MaskRCNNResNet

101

C436.35%59.89%38.12%
MaskRCNNResNet

101

FPN38.59%62.31%39.67%MaskRCNNResNeXt

101

FPN40.23%66.7%42.5%
[0025]从上面的实验结果可以明显看出相对于其他比较模型,Mask

RCNN模型的AP百分比值与其他比较模型的值之间的差异是显著的、实质性的,而主干网络为ResNeXt

101

FPN的MaskRCNN模型获得了最好的性能。在本领域中,可以认为不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于提取版面信息的方法,包括:使用经训练的Mask

RCNN模型对文稿的一个或多个版面进行划分;和从所述文稿的划分出的一个或多个版面提取相应的版面信息。2.根据权利要求1所述的方法,其中所述经训练的Mask

RCNN模型的主干网络为ResNeXt

101

FPN。3.根据权利要求1所述的方法,还包括:在提取版面信息之前,对所述文稿的格式进行识别,并且根据所述格式对版面信息进行提取。4.根据权利要求1所述的方法,其中所述经训练的Mask

RCNN模型是使用所述一个或多个版面已经被...

【专利技术属性】
技术研发人员:张开放甘云锋江敏高雁冰
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1