一种识别文档段落的方法、装置及电子设备制造方法及图纸

技术编号:24354773 阅读:23 留言:0更新日期:2020-06-03 02:19
本发明专利技术实施例提供了一种识别文档段落的方法、装置及电子设备,通过获取待处理文档,生成待处理文档图像,将待处理文档图像输入基于卷积神经网络的段落识别模型,获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的,因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型,提高了文档段落识别的准确性,使识别结果与人工识别的结果更加接近,便于进行后续的文档编辑和排版。

A method, device and electronic equipment for identifying document paragraphs

【技术实现步骤摘要】
一种识别文档段落的方法、装置及电子设备
本专利技术涉及计算机
,特别是涉及一种识别文档段落的方法、装置及电子设备。
技术介绍
目前,在对可移植文档格式PDF进行编辑的过程中,常常需要识别出文档中的段落,以便更加快捷地对段落中的文字进行排版。识别PDF文档中段落的通常做法是:通过PDF文软件获得文档的页面参数信息,如页眉页脚的位置、左右页边距、文本对象的字体、字号等,然后结合文字行的缩进及标点符号解析出文字位置,从而确定出段落所在区域。但是,这种利用页面参数及格式分析出的段落所在区域可能出现位置偏差,容易将多个段落识别为一个段落或者将一个段落识别为多个段落,使得识别的结果准确性不够高,可能出现与人工识别结果不符的情况,
技术实现思路
本专利技术实施例的目的在于提供一种识别文档段落的方法、装置及电子设备,以提高段落识别的准确性,获得与人工识别段落更接近的结果。具体技术方案如下:第一方面,本专利技术实施例提供了一种识别文档段落的方法,所述方法包括:获取待处理文档;所述文档中包含至少一个段落;生成待处理文档图像;将所述待处理文档图像输入至段落识别模型;所述段落识别模型为:预先用包含段落所在矩形区域的真实坐标的训练样本进行训练,获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型;获得所述待处理文档图像的段落识别结果。可选的,所述段落识别模型,采用如下方法训练获得:获取多个训练样本;其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标;将预设数量个文档图像输入待训练段落识别模型;所述待训练识别模型为预设的初始卷积神经网络模型;利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标;使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数,计算损失值;根据损失值判断待训练段落识别模型是否收敛;如果收敛,则待训练段落识别模型为训练完成的段落识别模型;如果未收敛,则调整待训练段落识别模型的网络参数,返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。可选的,在所述获得所述待处理文档图像的段落识别结果的步骤后,所述方法还包括:判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件,如果是,则在所述待处理文档中标注出段落所在的矩形区域。可选的,所述获取多个训练样本的步骤,包括:获取用于训练的文档;将所述用于训练的文档转换为文档图像;其中,所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像;以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点,建立坐标系;标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。可选的,所述方法还包括:获得所述待处理文档图像的段落识别结果后,检测PDF文档编辑界面中的编辑按钮是否被按下;当检测到PDF文档编辑界面中的编辑按钮被按下时,生成工具栏,用于对识别出的段落进行编辑;其中,所述对识别出的段落进行编辑,包括:对所述识别出的段落中的文字字体、字号、颜色等进行修改。第二方面,本专利技术实施例提供了一种识别文档段落的装置,所述装置包括:获取单元,用于获取待处理文档;所述文档中包含至少一个段落;生成单元,用于生成待处理文档图像;识别单元,用于将所述待处理文档图像输入至段落识别模型;所述段落识别模型为:预先用包含段落所在矩形区域的真实坐标的训练样本进行训练,获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型;结果获得单元,用于获得所述待处理文档图像的段落识别结果。可选的,所述段落识别模型,采用如下训练单元训练得到;所述训练单元,包括:样本获取模块,用于获取多个训练样本;其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标;输入模块,用于将预设数量个文档图像输入待训练段落识别模型;所述待训练识别模型为预设的初始卷积神经网络模型;计算模块,用于利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标;损失值计算模块,用于使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数,计算损失值;收敛判断模块,用于根据损失值判断待训练段落识别模型是否收敛;如果收敛,则待训练段落识别模型为训练完成的段落识别模型;参数调整模块,用于如果未收敛,则调整待训练段落识别模型的网络参数,返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。可选的,在所述结果获得单元获得所述待处理文档图像的段落识别结果后,所述装置还包括:判断单元,用于判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件,如果是,则在所述待处理文档中标注出段落所在的矩形区域。可选的,所述样本获取模块,包括:文档获取子模块,用于获取用于训练的文档;文档转换子模块,用于将所述用于训练的文档转换为文档图像;其中,所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像;坐标系建立子模块,用于以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点,建立坐标系;标注子模块,用于标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。可选的,所述装置还包括:检测单元,用于获得所述待处理文档图像的段落识别结果后,检测PDF文档编辑界面中的编辑按钮是否被按下;文档编辑单元,用于当检测到PDF文档编辑界面中的编辑按钮被按下时,生成工具栏,用于对识别出的段落进行编辑;其中,所述对识别出的段落进行编辑,包括:对所述识别出的段落中的文字字体、字号、颜色等进行修改。第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的识别文档段落方法的步骤。本专利技术实施例提供的一种识别文档段落的方法、装置及电子设备,通过获取待处理文档,生成待处理文档图像,将该待处理文档图像输入基于卷积神经网络的段落识别模型,获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的,因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型,提高了文档段落识别的准确性,使识别结果与人工识别的结果更加接近,便于进行后续的文档编辑和排版。当然,实施本专利技术的任一产品或方法并不一定需要同时达到以本文档来自技高网...

【技术保护点】
1.一种识别文档段落的方法,其特征在于,所述方法包括:/n获取待处理文档;所述文档中包含至少一个段落;/n生成待处理文档图像;/n将所述待处理文档图像输入至段落识别模型;所述段落识别模型为:预先用包含段落所在矩形区域的真实坐标的训练样本进行训练,获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型;/n获得所述待处理文档图像的段落识别结果。/n

【技术特征摘要】
1.一种识别文档段落的方法,其特征在于,所述方法包括:
获取待处理文档;所述文档中包含至少一个段落;
生成待处理文档图像;
将所述待处理文档图像输入至段落识别模型;所述段落识别模型为:预先用包含段落所在矩形区域的真实坐标的训练样本进行训练,获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型;
获得所述待处理文档图像的段落识别结果。


2.根据权利要求1所述的方法,其特征在于,所述段落识别模型,采用如下方法训练获得:
获取多个训练样本;其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标;
将预设数量个文档图像输入待训练段落识别模型;所述待训练识别模型为预设的初始卷积神经网络模型;
利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标;
使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数,计算损失值;
根据损失值判断待训练段落识别模型是否收敛;如果收敛,则待训练段落识别模型为训练完成的段落识别模型;
如果未收敛,则调整待训练段落识别模型的网络参数,返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。


3.根据权利要求1所述的方法,其特征在于,在所述获得所述待处理文档图像的段落识别结果的步骤后,所述方法还包括:
判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件,如果是,则在所述待处理文档中标注出段落所在的矩形区域。


4.根据权利要求2所述的方法,其特征在于,所述获取多个训练样本的步骤,包括:
获取用于训练的文档;
将所述用于训练的文档转换为文档图像;其中,所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像;
以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点,建立坐标系;
标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述待处理文档图像的段落识别结果后,检测PDF文档编辑界面中的编辑按钮是否被按下;
当检测到PDF文档编辑界面中的编辑按钮被按下时,生成工具栏,用于对识别出的段落进行编辑;其中,所述对识别出的段落进行编辑,包括:对所述识别出的段落中的文字字体、字号、颜色等进行修改。


6.一种识别文档段落的装置,其特征在于,所述装置包括:
获取单元,用于获取待处理文档;所述文档中包含至少一个段落;
生成单元,用于生成待处理文档图像;
识别单元,用于将所述待处理文档图像输入至段落识别模型;所述段落识别模型为:预先用包含段落所在矩形区域的真实坐标的训练样本进行训练,获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型;
结果获得单元,用于获得所述待处...

【专利技术属性】
技术研发人员:邓斌
申请(专利权)人:北京金山办公软件股份有限公司珠海金山办公软件有限公司广州金山移动科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1