【技术实现步骤摘要】
网页翻译方法、装置、计算机设备以及存储介质
本专利技术涉及网页处理领域,特别是涉及一种网页翻译方法、装置、计算机设备以及存储介质。
技术介绍
在移动通信技术及大数据背景下,人们对高质量资讯内容的需求空前强烈,各类资讯或媒体服务供应商大都利用大数据技术搜集全球高质量的资讯内容,并利用推荐算法提供个性推送服务。其中,从全球网站采集相关网页,并将外文网页翻译为本地语言网页,是搜集高质量资讯内容的重要技术手段。但专利技术人在实现过程中发现传统技术至少存在以下缺点:将外文网页翻译成本地语言网页时,需要人工重新排版、布局网页内容,耗时耗力,极大增加了人工成本。
技术实现思路
基于此,有必要针对上述技术问题,提供一种网页翻译方法、装置、计算机设备和存储介质。第一方面,本申请实施例提供一种网页翻译方法,包括以下步骤:获取待翻译的第一网页;解析第一网页中的网页格式内容与文本内容,并确定网页格式内容与文本内容的对应关系;将网页格式内容对应的文本内容发送至机器翻译装置,并接收机器翻译装置根据文本内容反馈的翻译结果;确定翻译结果对应的网页格式内容,并对第一网页中各文本内容所对应的翻译结果以及各翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。在一个实施例中,确定网页格式内容与文本内容的对应关系的步骤,包括:对网页格式内容进行压缩编码以生成定位码;确定定位码与文本内容的对应关系;确定翻译结果对应的网页格式内容的步骤,包括:确定翻译结果 ...
【技术保护点】
1.一种网页翻译方法,其特征在于,包括以下步骤:/n获取待翻译的第一网页;/n解析所述第一网页中的网页格式内容与文本内容,并确定所述网页格式内容与所述文本内容的对应关系;/n将所述网页格式内容对应的所述文本内容发送至机器翻译装置,并接收所述机器翻译装置根据所述文本内容反馈的翻译结果;/n确定所述翻译结果对应的网页格式内容,并对所述第一网页中各文本内容所对应的翻译结果以及各所述翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。/n
【技术特征摘要】
1.一种网页翻译方法,其特征在于,包括以下步骤:
获取待翻译的第一网页;
解析所述第一网页中的网页格式内容与文本内容,并确定所述网页格式内容与所述文本内容的对应关系;
将所述网页格式内容对应的所述文本内容发送至机器翻译装置,并接收所述机器翻译装置根据所述文本内容反馈的翻译结果;
确定所述翻译结果对应的网页格式内容,并对所述第一网页中各文本内容所对应的翻译结果以及各所述翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。
2.根据权利要求1所述的网页翻译方法,其特征在于,所述确定所述网页格式内容与所述文本内容的对应关系的步骤,包括:
对所述网页格式内容进行压缩编码以生成定位码;
确定所述定位码与所述文本内容的对应关系;
所述确定所述翻译结果对应的网页格式内容的步骤,包括:
确定所述翻译结果对应的定位码,并依据所述翻译结果对应的定位码进行逆编码处理,还原成所述网页格式内容。
3.根据权利要求2所述的网页翻译方法,其特征在于,所述网页格式内容包括HTML标签,对所述网页格式内容进行压缩编码以生成定位码的过程包括:
遍历所述第一网页中的HTML标签,依次对各个所述HTML标签进行压缩编码处理,生成各个HTML标签对应的所述定位码。
4.根据权利要求2所述的网页翻译方法,其特征在于,所述翻译结果包括所述定位码以及依据所述文本内容生成的翻译文本;
在将所述网页格式内容对应的所述文本内容发送至机器翻译装置时,还将所述定位码发送至机器翻译装置。
5.根据权利要求1至4中任意一项所述的网页翻译方法,其特征在于,获取待翻译的第一网页的步骤包括:
从待翻译网页数据库中读取所述第一网页。
6.根据权利要求5所述的网页翻译方法,其特征在于,还包括如下步骤:
从预先配置的网站采集网页;
对所述网页进行校验;
将校验通过的网页存储至所述待翻译网页数据库。
7.根据权利要求6所述的网页翻译方法,其特征在于,还包括:
对所述网页的文本语言进行判断;
若所述网页的文本语言为非目标语言,且所述网页校验通过,则将所述网页存储至所述待翻译网页数据库。
8.根据权利要求1至4中任意一项所述的网页翻译方法,其特征在于,
在接收所述机器翻译装置根据所述文本内容反馈的翻译结果后,对所述翻译结果进行校验;
若校验通过,则确定所述翻译结果对应的网页格式内容,并对所述翻译结果和所述翻译翻译结果对应的网页格式内容进行处理。
9.一种网页翻译装置,其特征在于,包括以下步骤:
获取模块,用于获取待翻译的第一网页;
解析模块,用于解析所述第一网页中的网页格式内容与文本内容,...
【专利技术属性】
技术研发人员:任述亮,
申请(专利权)人:京信通信系统中国有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。