网页翻译方法和系统技术方案

技术编号:11979313 阅读:63 留言:0更新日期:2015-09-02 09:45
本发明专利技术公开了网页翻译方法和系统,其中方法包括:获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;获取每一标签的文字显示区域的大小;按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。本发明专利技术的网页翻译方法和系统保证了翻译后网页同待翻译网页的布局的高契合度,提高了翻译的准确性和一致性,重复利用历史数据提高了翻译效率,减少人工参与的工作量,从而降低了人工成本。

【技术实现步骤摘要】

本专利技术涉及互联网信息
,特别涉及一种网页翻译方法和系统
技术介绍
现有技术中,在线站点页面的翻译采用的是将页面数据下载并打包成文本文件,然后将文本文件发送给翻译人员,翻译人员仅在文本信息的基础上翻译,翻译完成后将翻译结果发送给网页建设人员,由网页建设人员再根据翻译结果重新生成目标语言的网页,完成网页的翻译工作。由于翻译人员见到的是单纯的文本信息,无法结合翻译语境,所以翻译准确性有限。另外不同的网页处理的翻译人员不同,每个翻译人员都是在待翻译文本基础上逐条翻译,无法重复利用历史翻译数据,造成很多重复性劳动,翻译效率低下,人工成本高。此外,还存在一词多义的问题,不同的翻译人员对同一个待翻译词翻译后的翻译文字也是不一样的,由此导致同一词翻译后在网站上显示的结果不一致。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中网页翻译准确性和一致性差、翻译效率低、人工成本高的缺陷,提供一种翻译准确、一致性好且翻译效率高的网页翻译方法和系统。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供一种网页翻译方法,其特点是,包括以下步骤:S1、获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;S2、获取每一标签的文字显示区域的大小;S3、按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;S4、生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。本方案S1中,待翻译网页的内容包括若干文字显示区域,每个文字显示区域对应一个标签,以标签为单位分别提取网页中每个标签中的待处理文字,该待处理文字为接下去需要进一步翻译的文字。&中,获取每一标签的文字显示区域的大小是指获取待翻译网页中每一标签的文字显示区域可以容纳不同大小和类型的字体的字符个数等相关信息。&中,以标签为单位,翻译每个标签的待处理文字,生成每组标签对应的目标语言的翻译文字,要求生成的翻译文字在目标语言网页中对应标签的文字显示区域中以某种要求类型字体和字号显示时所占网页空间小于或者等于所在的文字显示区域的大小。&中,所述目标语言网页的标签的布局同所述待翻译网页一致,此处是指每一标签的位置和标签在网页中所占的空间大小一致。本方案中,由于生成的目标语言网页的标签布局同待翻译网页一致,且每一标签的文字内容不超过对应文字显示区域的大小,因此保证了翻译后生成的目标语言网页同待翻译网页页面布局的高契合度。较佳地,S3包括以下步骤:S31、按每一标签翻译所述待处理文字,生成若干组字符长度不同的待选翻译文字;S32、从所述若干组待选翻译文字中选取一组所占的空间小于或等于该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。本方案中,每一标签对应的待处理文字都需要翻译出多组文字,这些多组文字称为待选翻译文字,而翻译出的每组待选翻译文字的长度有多种,有的长,有的短,也有的一样长。根据该组标签对应的文字显示区域的大小,在前述不同字符长度的待选翻译文字中选择一组不超过该标签的文字显示区域的大小的待选翻译文字作为所述翻译文字。较佳地,S32包括以下步骤:S321、逐一调整所述待选翻译文字的字体大小,以生成比对应标签的待处理文字的字体大一号、相同和小一号的待选翻译字体文字;S322、从S321中生成的字号不同的所述待选翻译字体文字中选取一组占的空间小于或等于该标签的文字显示区域的大小且最接近该标签的文字显示区域的大小的所述待选翻译字体文字作为所述翻译文字。本方案中,对S31中生成的若干组字符长度不同的待选翻译文字进行字体和字号的调整,字体根据所述目标语言网页的需求而定,可以有多种选择,字号有三种选择,以对应标签的待处理文字的字号为参考,比其大一号、一样大和小一号三种,若干组字符长度不同的待选翻译文字经字体类型和字号大小调整后生成的文字称为待选翻译字体文字。本方案中,多种类型字体和三种字号大小的调整,提高了所述翻译文字同其对应标签的文字显示区域的大小匹配率,更好的提高目标语言网页同待翻译网页页面布局的契AFthI=I /又 ο较佳地,S3包括以下步骤:S31,、采用分词算法分解所述待处理文字,以生成若干个待翻译元素词;S32,、在翻译历史词库中查找每个待翻译元素词匹配的目标元素词,若找不到,则调用第三方翻译引擎进行翻译,以得到目标元素词,并将翻译结果增加到所述翻译历史词库中,所述翻译历史词库用于存放所有的历史翻译结果;S33,、以S32.中的目标元素词将所述待处理文字翻译生成所述翻译文字。本方案中,首先对待处理文字进行分词处理,从而生成若干个待翻译元素词,此待翻译元素词为分词后的短语、词组或者一个字,现有技术中分词方法有多种,可根据需要选择。然后,对每个待翻译元素词做翻译处理,此处的翻译处理也分为两个步骤,首先在以往积累的翻译历史词库中查找目标元素词对应的翻译结果,如果有,则查找命中;如果没有,再调用现有的第三方翻译引擎进行翻译,获得翻译结果。此处的翻译历史词库包括翻译累积的历史翻译结果,该翻译历史词库对于同一领域的网页的待翻译元素词的命中的概率相对第三方翻译引擎所采用的词库更高,速度更快,而且保证了同一领域网页中同一词翻译结果的相对一致性。较佳地,S31.包括以下步骤:S31,P以历史分词词库为基础对所述待处理文字进行分词;S31,2、以常用传统分词词库为基础对S3ri中未分解成功的所述待处理文字的剩余部分进行分词,并将分词结果增加到所述历史分词词库中,所述历史分词词库用于存放所有的历史待翻译元素词;S31,3、以Sf1的分词结果和S31,2的分词结果共同生成待翻译元素词。本方案中,历史分词词库包括以往积累的分解的所有结果。分词分为两步骤,首先采用分词算法在历史分词词库中进行分词,也就是在历史分词词库查找历史分词,所述历史分词就是以往分解过的短语、词组或者字。首先以历史分词词库为基础进行分词,是因为同一领域使用相同的技术术语等短语的概率相对其他领域要高,从而提高分词命中率,提高分词效率。较佳地,S31.中所述分词算法为正向最大匹配算法、歧义消除规则算法或双向最大匹配算法。本专利技术还提供一种网页翻译系统,其特点是,包括:文字提取模块,用于获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;区域大小获取模块,用于获取每一标签的文字显示区域的大小;文字翻译模块,用于按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;网页生成模块,用于生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标当前第1页1 2 3 本文档来自技高网...
网页翻译方法和系统

【技术保护点】
一种网页翻译方法,其特征在于,包括以下步骤:S1、获取待翻译网页的每一标签的文字显示区域,提取标签中的待处理文字;S2、获取每一标签的文字显示区域的大小;S3、按每一标签翻译所述待处理文字,以生成目标语言的翻译文字,每一标签的翻译文字所占的空间小于或等于该标签的文字显示区域的大小;S4、生成目标语言网页,所述目标语言网页的标签的布局同所述待翻译网页一致,所述目标语言网页中每一标签的文字均采用对应的所述翻译文字。

【技术特征摘要】

【专利技术属性】
技术研发人员:李锡铭韩子成祁劢刘帅
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1