【技术实现步骤摘要】
一种文档正文识别方法及装置
本申请涉及文档处理
,更具体地说,涉及一种文档正文识别方法及装置。
技术介绍
一份文档一般都是分页的,每页除了正文还可以存在页眉区域、页脚区域,以及左右两侧存在文档注解区域。文档在不同分辨率的设备上进行显示时,需要根据设备的分辨率对文档进行排版的转换,即将文档按照目标显示设备的分辨率,转换成对应分辨率下的文档。现有文档转换的方式是获取原文档的内容,然后按照目标分辨率重新排版,生成新的文档。现有方法并未考虑文档内容类型的不同,因此重新排版后会出现正文内容与其它内容排版混乱的问题。由此可见,准确识别文档正文区域,对文档排版转换的准确度至关重要,现有技术亟需一种文档正文识别方案。
技术实现思路
有鉴于此,本专利技术提供一种文档正文识别方法及装置,以实现准确识别文档正文区域,为文档排版转换提供基础。为实现上述目的,本专利技术提供如下技术方案:一种文档正文识别方法,包括:确定待识别页中的所有元素;遍历所述待识别页中的所有元素,并尝试一一抛弃;确定实际抛弃元素;将所述实际抛弃元素抛弃;计算剩余元素的平均密度;判断所述剩余元素的平均密度是否大于或等 ...
【技术保护点】
一种文档正文识别方法,其特征在于,包括:确定待识别页中的所有元素;遍历所述待识别页中的所有元素,并尝试一一抛弃;确定实际抛弃元素;将所述实际抛弃元素抛弃;计算剩余元素的平均密度;判断所述剩余元素的平均密度是否大于或等于预设平均密度阈值;若是,则将所述剩余元素作为正文区元素;若否,则返回所述遍历所述待识别页中的所有元素,并尝试一一抛弃的步骤。
【技术特征摘要】
1.一种文档正文识别方法,其特征在于,包括:确定待识别页中的所有元素;遍历所述待识别页中的所有元素,并尝试一一抛弃;确定实际抛弃元素;将所述实际抛弃元素抛弃;计算剩余元素的平均密度;判断所述剩余元素的平均密度是否大于或等于预设平均密度阈值;若是,则将所述剩余元素作为正文区元素;若否,则返回所述遍历所述待识别页中的所有元素,并尝试一一抛弃的步骤。2.根据权利要求1所述的文档正文识别方法,其特征在于,所述确定实际抛弃元素,具体包括:计算每一个元素被抛弃后的密度增益;比较所有所述密度增益的大小;将所述密度增益最大值对应的元素作为实际抛弃元素。3.根据权利要求2所述的文档正文识别方法,其特征在于,所述计算每一个元素被抛弃后的密度增益,具体包括:当抛弃一个元素后,计算剩余所有元素的平均密度;将所述剩余所有元素的平均密度,减去抛弃所述一个元素前的平均密度,得到一个元素被抛弃后的密度增益。4.根据权利要求1所述的文档正文识别方法,其特征在于,在所述将所述实际抛弃元素抛弃之前还包括:计算所述待识别页中所有元素的平均密度,作为初始平均密度。5.根据权利要求1所述的文档正文识别方法,其特征在于,所述确定待识别页中的...
【专利技术属性】
技术研发人员:徐佳宏,朱吕亮,
申请(专利权)人:深圳市茁壮网络股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。