当前位置: 首页 > 专利查询>董名垂专利>正文

页面即时翻译系统及页面即时翻译方法技术方案

技术编号:7786417 阅读:183 留言:0更新日期:2012-09-21 07:29
本发明专利技术提供一种页面即时翻译系统及页面即时翻译方法,该翻译系统包括图像截取模块、字符获取模块、字符识别模块、翻译模块以及显示模块,其中,字符获取模块具有图像识别模块,通过对从图像的中心作出的至少一条射线上的像素灰度值进行统计,判别图像的布局;以及字符区域确定模块,根据图像的顶点的像素颜色确定图像的背景颜色,并对图像的所有像素进行逐行扫描,标记包含有非背景颜色像素的行,对被标记的行进行逐列扫描,标记非背景颜色的像素,将被标记的像素中灰度值大于或等于背景颜色灰度值的像素识别为字符区域。该方法是应用上述方法对截取的图像内的文字进行反应的方法。本发明专利技术能快速的对截图的图像内的文字进行精确的翻译。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,尤其是ー种包含有图像处理技术的页面即时翻译系统以及页面即时翻译方法。
技术介绍
随着互联网技术应用的普及,人们从互联网上获得的信息量越来越大,由于不同网页上显示的文字往往是多种不同的语言,这样给网页的浏览带来极大的不便,因此需要对页面上不同的语言进行即时翻译,以便浏览者及时了解页面所公告的信息,但现有不少对页面即时翻译的方法都存在不足。现有HTML网页主要由文本加上HTML格式标签构成,格式标签是嵌入在文本内的,如果翻译时直接将源文件根据格式标签分成几个部分,很可能会将完整的内容切割成不完 整的几部分,从而导致无法准确翻译原文。因此,在翻译时需要将整个页面当作ー个整体而不是分成単独的几个部分。现有的页面即时翻译方法是首先分别标记HTML格式标签和文本,分别翻译文本和格式标签,然后翻译系统比较翻译如后的文本以及格式标签,如果格式标签在翻译如后的文本中的位置一致,那么将对应的格式标签设置在翻译前的文本对应的位置,如果不一致,翻译系统需要找出格式标签在翻译后的文本中对应的位置,并添加上必要的格式标签。并且,由于不同的HTML网页由不同的语言编写而成,相同的格式标签通常有不同的表示方法,因此翻译系统需要识别这些不同语言编写的格式标签,并将这些格式标签转换成翻译系统能够输出的格式标签表不方式。由于现在网页开发技术日新月异,每时每刻都有新的格式标签出现在网页源代码之中。并且,已有的格式标签所构成网页的版面也会无时不刻地变化,这就要求网页即时翻译系统能不断地更新网页版面识别模块,这不仅降低了翻译的效率还增加了翻译系统后期维护的难度。因此,随着网页技术的快速发展,很容易导致翻译系统因不能识别网页版面格式而出现翻译出错的情況。公开号为CN101576878A的中国专利技术专利申请公开了ー种名为“用户勾圈网页即时翻译系统及方法”的专利技术创造,该翻译系统具有勾圈截屏模块、字符识别模块、双语翻译模块、翻译结果显示模块等。勾圈截屏模块根据使用者的操作截取图像,并由字符识别模块是否所截取图像内的字符,由双语翻译模块对字符进行翻译,最后由翻译结果显示模块将翻译的结果显示出来。该方法通过截取图像的方法来避免对HTML网页源代码中的标签格式进行识别,提高了即时翻译的效率也降低翻译系统后期的维护难度。但是,如何识别所截取图像中包含的字符是翻译系统的难题,对字符识别的精确度往往决定了后续翻译的准确性,因此有需要提供一种能够对图像中的字符有效准确识别的装置和方法
技术实现思路
本专利技术的主要目的是提供一种能对图像中的字符进行精确识别的页面即时翻译系统。本专利技术的另一目的是提供一种翻译准确率较高的页面即时翻译方法。为了实现上述的主要目的,本专利技术提供的页面即时翻译系统包括用于截取页面中指定区域的图像的图像截取模块、用于获取图像内的字符的字符获取模块、用于对所获取的字符进行识别的字符识别模块、用于将被识别的字符翻译成指定的语言的翻译模块以及用于显示翻译模块输出的翻译结果的显示模块,其中,字符获取模块具有图像识别模块,通过对从图像的中心作出的至少一条射线上的像素灰度值进行统计,判别图像的布局;以及字符区域确定模块,根据图像的顶点的像素顔色确定图像的背景顔色,并对图像的所有像素进行逐行扫描,标记包含有非背景顔色像素的行,对被标记的行进行逐列扫描,标记非背景颜色的像素,将被标记的像素中灰度值大于或等于背景顔色灰度值的像素识别为字符区域。由上述方案可见,字符获取模块获取图像内的字符,通过对图像内的行与列进行·扫描,获取非背景顔色的像素,通过这些像素的集合来获取字符区域以及字符的形状,再由字符识别模块使用诸如光学字符识别技术对获取的字符进行识别,进而完成对字符的识另IJ。这样,翻译系统对字符快速且精确地识别,能够提高翻译系统翻译的准确性。一个优选的方案是,字符获取模块还具有图像分割模块,根据图像识别模块判别的图像的布局将图像分割为ニ个以上的第一子图像。由此可见,对图像划分为多个子图像,并对每一子图像内的字符进行识别,这样有利于翻译系统准确地对字符进行识别。进ー步的方案是,字符获取模块还具有图像区域确定模块,在判断图像多个顶点的像素顔色不一致情况下,以每ー顶点为起始点,将未被合并的与顶点具有连续性的且与相邻像素的灰度值的差值小于阈值的像素合并形成顔色区域,将颜色区域扩充至矩形区域形成第二子图像。可见,通过图像区域确定模块,能够对多个顶点像素顔色不一致的图像划分为多个子图像,这样确保每ー个子图像的背景顔色易于被确定,方便对字符的获取。为实现上述的另一目的,本专利技术提供的页面即时翻译方法包括图像截取步骤,截取页面中指定区域的图像;字符获取步骤,获取图像内的字符;字符识别步骤,对所获取的字符进行识别;翻译步骤,将被识别的字符翻译成指定的语言;显示步骤,显示翻译模块输出的翻译结果,其中,字符获取步骤包括图像识别步骤,通过对从图像的中心作出的至少ー条射线上的像素灰度值进行统计,判别图像的布局;字符区域确定步骤,根据图像的顶点的像素顔色确定图像的背景顔色,并对图像的所有像素进行逐行扫描,标记包含有非背景颜色像素的行,对被标记的行进行逐列扫描,标记非背景颜色的像素,将被标记的像素中灰度值大于或等于背景顔色灰度值的像素识别为字符区域。由上述方案可见,在字符获取步骤中,通过对图像的布局进行识别并对图像中非背景顔色的像素进行标记,能够方便地获取字符的形状,有利于在字符识别步骤中正确对字符进行识别,从而提高翻译的准确率。一个优选的方案是,执行图像识别步骤后,还执行图像分割步骤,根据图像的布局将图像分割为ニ个以上的第一子图像,字符区域确定步骤中的图像为第一子图像。由此可见,对于布局不单ー的图像,将其分割形成多个子图像,能够方便对每一子图像进行简单的处理从而获取每一子图像内的字符,有利于字符的快速获取。附图说明图I是本专利技术页面即时翻译系统实施例的结构框图。图2是本专利技术页面即时翻译方法实施例的流程图。图3是本专利技术页面即时翻译方法实施例处理的六种不同情况图像的图示。图4是本专利技术页面即时翻译方法实施例字符区域确定步骤中确定字符区域的示意图。图5本本专利技术页面即时翻译方法实施例图像区域确定步骤中确定颜色区域的示 意图。以下结合附图及实施例对本专利技术作进ー步说明。具体实施例方式本专利技术的页面即时翻译系统用于对网页上的文字进行即时翻译,该翻译系统的结构示意图如图I所示。页面即时翻译系统具有图像截取模块11、字符获取模块12、字符识别模块13、翻译模块14以及显示模块15,其中字符获取模块12内设有图像识别模块21、图像分割模块22、图像区域确定模块23以及字符区域确定模块24。当然,翻译系统还包括诸如信息输入模块、设置模块等,用于接收使用者输入的信息以及对页面即时翻译系统的设置信息,并对这些输入的信息以及设置信息进行相应,如执行设置操作等。图像截取模块11根据使用者的操作从页面上截取指定区域的图像,例如,使用者通过鼠标指针选取了页面上ー个矩形区域内的图像,图像截取模块11将该区域的图像截取下来,以图片的形式进行保存。字符获取模块12将获取的图像中的字符,包括各种语言的文字、字母及符号等,例如获取图像中字符的区域,并对字符的形状进行识别等。字符获取模块12的工作原理以及其内部各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.页面即时翻译系统,包括 图像截取模块,用于截取页面中指定区域的图像; 字符获取模块,用于获取所述图像内的字符; 字符识别模块,用于对所获取的字符进行识别; 翻译模块,用于将被识别的字符翻译成指定的语言; 显示模块,用于显示所述翻译模块输出的翻译结果; 其特征在于 所述字符获取模块具有 图像识别模块,通过对从所述图像的中心作出的至少一条射线上的像素灰度值进行统计,判别所述图像的布局; 字符区域确定模块,根据所述图像的顶点的像素颜色确定所述图像的背景颜色,并对所述图像的所有像素进行逐行扫描,标记包含有非背景颜色像素的行,对被标记的行进行逐列扫描,标记非背景颜色的像素,将被标记的像素中灰度值大于或等于背景颜色灰度值的像素识别为字符区域。2.根据权利要求I所述的页面即时翻译系统,其特征在于 所述字符获取模块还具有图像分割模块,用于根据所述图像识别模块判别的所述图像的布局将所述图像分割为二个以上的第一子图像。3.根据权利要求I或2所述的页面即时翻译系统,其特征在于 所述字符获取模块还具有图像区域确定模块,用于在判断所述图像多个顶点的像素颜色不一致情况下,以每一所述顶点为起始点,将未被合并的与所述顶点具有连续性的且与相邻像素的灰度值的差值小于阈值的像素合并形成颜色区域,将所述颜色区域扩充至矩形区域形成第二子图像。4.根据权利要求3所述的页面即时翻译系统,其特征在于 所述阈值是以像素为中心的特定区域内灰度值大于所述图像的像素灰度均值的灰度值数量与灰度值小于所述图像的像素灰度均值的灰度值数量的均方值。5.根据权利要求I或2所述的页面即时翻译系统,其特征在于 所述图像识别模块对所述射线的像素灰度值的统计是统计所述像素的灰度值是否满足正态分布。6.页面即使翻译方法,包括 图像截取步骤,截取页面中指定区域的图像...

【专利技术属性】
技术研发人员:董名垂费晓磊
申请(专利权)人:董名垂费晓磊
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1