用于对网页图片进行字符切分的方法及装置制造方法及图纸

技术编号:5170492 阅读:216 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种对网页图片进行字符切分的方法,包括:对网页图片进行逐行扫描,以行为单位划分为多个相互间隔的第一空白区域和第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域进行逐列扫描,以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域;以及根据各个第二空白区域的像素坐标,将各个第二内容区域与各个第二空白区域切分开,作为被判断为是小说图片的各个第一内容区域中的各个单个字符。利用上述方法,可以将网页图片切分为单个字符,然后根据移动终端的屏幕尺寸对切分出的单个字符进行重新排版,以适于在移动终端上显示。

【技术实现步骤摘要】

本专利技术涉及网页浏览领域,并且更为具体地,涉及一种用于对网页图片进行字符 切分的方法及装置。
技术介绍
随着通信技术的不断发展,利用移动终端登录小说网站来浏览小说内容逐渐成为 一种趋势。为了对小说网站上发表的小说进行版权保护,许多小说网站通常采用图片格式 显示小说内容,尤其是小说的一些VIP章节,从而防止这些内容被阅读者复制。由于小说网站的内容通常是在个人计算机(PC)上显示的,所以这些小说网站上 显示的图片格式基本上都是针对PC的显示屏幕来设计的。当利用移动终端登录小说网站 进行网页浏览时,由于这种图片格式通常都比较大,难以在移动终端的小屏幕上如PC —样 进行网页展示。在这种情况下,如果将小说图片缩小到移动终端的屏幕大小,则会导致文字 缩小到很小,从而导致无法阅读。如果按照原来的图片格式进行展示,则用户在阅读过程中 需要反复地左右移动窗口,从而造成阅读非常不方便。基于上述问题,在利用移动终端浏览小说网站上的小说内容时,需要针对移动终 端显示屏幕的尺寸,对网页图片内容进行适配处理,例如对网页图片内容进行重新排版。由于对小说内容进行排版处理是以字符为基本单位,所以在对网页图片内容进行 重新排版之前,需要对网页图片的字符进行切分。
技术实现思路
鉴于上述,本专利技术提供了一种用于对网页图片进行字符切分的方法和装置,利用 上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切分出的单个字 符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终端的屏幕上显7J\ ο根据本专利技术的一个方面,提供了一种对网页图片进行字符切分的方法,包括对所 获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行 组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切 分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描, 以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内 容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域 与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个 单个字符。此外,在一个或多个实施例中,从所获取的网页图片中切分出所划分的第一内容 区域的步骤还可以包括根据所划分出的各个第一内容区域的高度和和小说图片文字行的 高度特征,判断该第一内容区域是否是小说图片;以及在该第一内容区域是小说图片时,以 与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还包括 计算该第一内容区域的高度平均值;以及在所计算出的第一内容区域的高度平均值落在第 一阈值范围时,判断该第一内容区域是小说图片。此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还可以 包括计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一 阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,才判 断该第一内容区域是小说图片。 此外,根据各个第二空白区域的像素坐标,将所述第二内容区域与所述第二空白 区域分割开的步骤还可以包括根据所划分出的各个第二空白区域的像素坐标,确定第二 内容区域的最大宽度;利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端 坐标,确定第二内容区域的字符切分点;以及利用所确定出的第二内容区域的各个字符切 分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域 作为被判断为小说图片的各个第一内容区域中的各个单个字符。此外,在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时,还可以根据 所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。根据本专利技术的另一方面,提供了一种对网页图片进行字符切分的装置,包括第一 划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分 为由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域; 第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;第二划分单 元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内 容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内 容区域;以及第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第 二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个 字符。此外,在一个或多个实施例中,所述第一切分单元还可以包括第一判断单元,用 于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内 容区域是否是小说图片;以及第一分割单元,用于在该第一内容区域是小说图片时,以与该 第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断 为是小说图片的第一内容区域。此外,在一个示例中,所述第一判断单元还可以包括计算单元,用于计算该第一内 容区域的高度平均值,在所计算出的第一内容区域的高度平均值落在第一阈值范围内时, 所述第一判断单元判断该第一内容区域是小说图片。此外,在另一示例中,所述计算单元还可以计算该第一内容区域的高度标准差,只 有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差 与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域是小说 图片。此外,在一个或多个实施例中,所述第二切分单元还可以包括第一确定单元,用 于根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;第二确定单元,用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确 定第二内容区域的字符切分点;及第二分割单元,用于利用所确定出的第二内容区域的各 个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二 内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。此外,所述装置还可以包括防水印处理单元,用于在对网页图片的像素进行逐行 扫描或逐列扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水 印处理。根据本专利技术的另一方面,提供了一种包括如上所述的装置的移动终端。根据本专利技术的另一方面,提供了一种包括如上所述的装置的服务器。利用上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切 分出的单个字符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终 端的屏幕上显示。此外,通过对网页图片进行防水印处理,可以提高划分空白区域和内容区域的准 确性,从而提高字符切分的准确性。为了实现上述以及相关目的,本专利技术的一个或多个方面包括后面将详细说明并在 权利要求中特别指出的特征。下面的说明以及附图详细说明了本专利技术的某些示例性方面。 然而,这些方面指示的仅仅是可使用本专利技术的原理的各种方式中的一些方式。此外,本专利技术 旨在包括所有这些方面以及它们的等同物。附图说明通过参考以下结合附图的说明及权利要求书的内容,并且随着对本本文档来自技高网...

【技术保护点】
一种对网页图片进行字符切分的方法,包括:对所获取的网页图片中的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。

【技术特征摘要】
一种对网页图片进行字符切分的方法,包括对所获取的网页图片中的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。2.如权利要求1所述的方法,其中,从所获取的网页图片中切分出所划分出的第一内 容区域的步骤还包括根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一 内容区域是否是小说图片;以及在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为 界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。3.如权利要求2所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括计算该第一内容区域的高度平均值;以及在所计算出的第一内容区域的高度平均值落在第一阈值范围时,判断该第一内容区域 是小说图片。4.如权利要求3所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度 标准差与高度平均值的比值不超过第二阈值时,才判断该第一内容区域是小说图片。5.如权利要求1所述的方法,其中,根据各个第二空白区域的像素坐标,将所述第二内 容区域与所述第二空白区域分割开的步骤还包括根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确定第二内 容区域的字符切分点;以及利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空 白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区 域中的各个单个字符。6.如权利要求1所述的方法,其中,在对所获取的网页图片中的像素进行逐行扫描或 逐列扫描时,所述方法还包括根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。7.如权利要求1-6中任何一个所述的方法,其中,所述方法是利用移动终端的浏览器 来实现的。8. —种对网页图片进行字符切分的装置,包括第一划分单元...

【专利技术属性】
技术研发人员:梁捷周志明
申请(专利权)人:优视科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1