【技术实现步骤摘要】
用于提取版面信息的方法、系统和计算机可读介质
[0001]本申请涉及文本分析技术,更具体而言,涉及用于提取版面信息的方法、系统和计算机可读介质。
技术介绍
[0002]一些企业(例如,媒体行业)通常保存有大量非结构化的电子文稿数据(例如,书籍、报纸、杂志期刊等)。当撰写新文稿时,作者可能期望参考一些历史文稿。这就要求事先对上述这些数据进行结构化处理。例如,针对不同文稿上的版面提取出版面信息。传统的手工提取方法将花费巨大的人力和财力。而且,对于包含复杂版面(版面数量多、位置随机等)的文稿(例如,报纸)而言更是重大挑战。在本领域中缺少自动、高效提取版面信息的技术方案。
技术实现思路
[0003]本专利技术提供了一种用于提取版面信息的方法。该方法包括使用经训练的Mask
‑
RCNN模型对文稿的一个或多个版面进行划分;和从文稿的划分出的一个或多个版面提取相应的版面信息。
[0004]在一个实施方案中,经训练的Mask
‑
RCNN模型的主干网络为ResNeXt
‑r/>101
...
【技术保护点】
【技术特征摘要】
1.一种用于提取版面信息的方法,包括:使用经训练的Mask
‑
RCNN模型对文稿的一个或多个版面进行划分;和从所述文稿的划分出的一个或多个版面提取相应的版面信息。2.根据权利要求1所述的方法,其中所述经训练的Mask
‑
RCNN模型的主干网络为ResNeXt
‑
101
‑
FPN。3.根据权利要求1所述的方法,还包括:在提取版面信息之前,对所述文稿的格式进行识别,并且根据所述格式对版面信息进行提取。4.根据权利要求1所述的方法,其中所述经训练的Mask
‑
RCNN模型是使用所述一个或多个版面已经被...
【专利技术属性】
技术研发人员:张开放,甘云锋,江敏,高雁冰,
申请(专利权)人:杭州数澜科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。