用于提取版面信息的方法、系统和计算机可读介质技术方案

技术编号:37237232 阅读:30 留言:0更新日期:2023-04-20 23:19
本申请涉及用于提取版面信息的方法、系统和计算机可读介质。该方法包括使用经训练的Mask

【技术实现步骤摘要】
用于提取版面信息的方法、系统和计算机可读介质


[0001]本申请涉及文本分析技术,更具体而言,涉及用于提取版面信息的方法、系统和计算机可读介质。

技术介绍

[0002]一些企业(例如,媒体行业)通常保存有大量非结构化的电子文稿数据(例如,书籍、报纸、杂志期刊等)。当撰写新文稿时,作者可能期望参考一些历史文稿。这就要求事先对上述这些数据进行结构化处理。例如,针对不同文稿上的版面提取出版面信息。传统的手工提取方法将花费巨大的人力和财力。而且,对于包含复杂版面(版面数量多、位置随机等)的文稿(例如,报纸)而言更是重大挑战。在本领域中缺少自动、高效提取版面信息的技术方案。

技术实现思路

[0003]本专利技术提供了一种用于提取版面信息的方法。该方法包括使用经训练的Mask

RCNN模型对文稿的一个或多个版面进行划分;和从文稿的划分出的一个或多个版面提取相应的版面信息。
[0004]在一个实施方案中,经训练的Mask

RCNN模型的主干网络为ResNeXt
r/>101
...

【技术保护点】

【技术特征摘要】
1.一种用于提取版面信息的方法,包括:使用经训练的Mask

RCNN模型对文稿的一个或多个版面进行划分;和从所述文稿的划分出的一个或多个版面提取相应的版面信息。2.根据权利要求1所述的方法,其中所述经训练的Mask

RCNN模型的主干网络为ResNeXt

101

FPN。3.根据权利要求1所述的方法,还包括:在提取版面信息之前,对所述文稿的格式进行识别,并且根据所述格式对版面信息进行提取。4.根据权利要求1所述的方法,其中所述经训练的Mask

RCNN模型是使用所述一个或多个版面已经被...

【专利技术属性】
技术研发人员:张开放甘云锋江敏高雁冰
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1