网页翻译方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:24331654 阅读:32 留言:0更新日期:2020-05-29 19:53
本申请涉及一种网页翻译方法、系统、计算机设备和存储介质。所述方法包括:获取待翻译的第一网页;解析第一网页中的网页格式内容与文本内容,并确定网页格式内容与文本内容的对应关系;将网页格式内容对应的文本内容发送至机器翻译装置,并接收机器翻译装置根据文本内容反馈的翻译结果;确定翻译结果对应的网页格式内容,并对第一网页中各文本内容所对应的翻译结果以及各所述翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。本申请可以有效减少大数据场景下批量网页翻译的人工布局、排版工作,提升外文网页翻译、发布的效率和质量。

Web page translation methods, devices, computer equipment and storage media

【技术实现步骤摘要】
网页翻译方法、装置、计算机设备以及存储介质
本专利技术涉及网页处理领域,特别是涉及一种网页翻译方法、装置、计算机设备以及存储介质。
技术介绍
在移动通信技术及大数据背景下,人们对高质量资讯内容的需求空前强烈,各类资讯或媒体服务供应商大都利用大数据技术搜集全球高质量的资讯内容,并利用推荐算法提供个性推送服务。其中,从全球网站采集相关网页,并将外文网页翻译为本地语言网页,是搜集高质量资讯内容的重要技术手段。但专利技术人在实现过程中发现传统技术至少存在以下缺点:将外文网页翻译成本地语言网页时,需要人工重新排版、布局网页内容,耗时耗力,极大增加了人工成本。
技术实现思路
基于此,有必要针对上述技术问题,提供一种网页翻译方法、装置、计算机设备和存储介质。第一方面,本申请实施例提供一种网页翻译方法,包括以下步骤:获取待翻译的第一网页;解析第一网页中的网页格式内容与文本内容,并确定网页格式内容与文本内容的对应关系;将网页格式内容对应的文本内容发送至机器翻译装置,并接收机器翻译装置根据文本内容反馈的翻译结果;确定翻译结果对应的网页格式内容,并对第一网页中各文本内容所对应的翻译结果以及各翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。在一个实施例中,确定网页格式内容与文本内容的对应关系的步骤,包括:对网页格式内容进行压缩编码以生成定位码;确定定位码与文本内容的对应关系;确定翻译结果对应的网页格式内容的步骤,包括:确定翻译结果对应的定位码,并依据翻译结果对应的定位码进行逆编码处理,还原成网页格式内容。在一个实施例中,网页格式内容包括HTML标签,对网页格式内容进行压缩编码以生成定位码的过程包括:遍历第一网页中的HTML标签,依次对各个HTML标签进行压缩编码处理,生成各个HTML标签对应的定位码。在一个实施例中,翻译结果包括定位码以及依据文本内容生成的翻译文本;在将网页格式内容对应的文本内容发送至机器翻译装置时,还将定位码发送至机器翻译装置。在一个实施例中,获取待翻译的第一网页的步骤包括:从待翻译网页数据库中读取第一网页。在一个实施例中,本申请的网页翻译方法还包括如下步骤:从预先配置的网站采集网页;对网页进行校验;将校验通过的网页存储至待翻译网页数据库。在一个实施例中,本申请的网页翻译方法还包括:对网页的文本语言进行判断;若网页的文本语言为非目标语言,且网页校验通过,则将网页存储至待翻译网页数据库。在一个实施例中,本申请的网页翻译方法还包括:在接收机器翻译装置根据文本内容反馈的翻译结果后,对翻译结果进行校验;若校验通过,则确定翻译结果对应的网页格式内容,并对翻译结果和翻译翻译结果对应的网页格式内容进行处理。第二方面,本申请实施例提供一种网页翻译装置,包括:获取模块,用于获取待翻译的第一网页;解析模块,用于解析第一网页中的网页格式内容与文本内容,并确定网页格式内容与文本内容的对应关系;发送模块,用于将网页格式内容对应的文本内容发送至机器翻译装置;接收模块,用于接收机器翻译装置根据文本内容反馈的翻译结果;处理模块,用于确定翻译结果对应的网页格式内容,并对第一网页中各文本内容所对应的翻译结果以及各翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。在一个实施例中,解析模块还包括:编码模块,用于对网页格式内容进行压缩编码以生成定位码,并确定定位码与文本内容的对应关系;处理模块还包括:逆编码模块,用于确定翻译结果对应的定位码,并依据翻译结果对应的定位码进行逆编码处理,还原成网页格式内容。在一个实施例中,网页格式内容包括HTML标签,编码模块用于遍历第一网页中的HTML标签,依次对各个HTML标签进行压缩编码处理,生成各个HTML标签对应的定位码。在一个实施例中,接收模块接收的翻译结果包括定位码以及依据文本内容生成的翻译文本;发送模块用于在将网页格式内容对应的文本内容发送至机器翻译装置时,还将定位码发送至机器翻译装置。在一个实施例中,获取模块从待翻译网页数据库中读取第一网页。在一个实施例中,本申请的网页翻译装置还包括:网页采集模块,用于从预先配置的网站采集网页;网页校验模块,用于对网页进行校验;网页存储模块,用于将校验通过的网页存储至待翻译网页数据库。在一个实施例中,本申请的网页翻译装置还包括文本语言校验模块,用于对网页的文本语言进行判断;网页存储模块用于在网页的文本语言为非目标语言且网页校验通过时,将网页存储至待翻译网页数据库。在一个实施例中,本申请的网页翻译装置还包括翻译校验模块,用于在接收机器翻译装置根据文本内容反馈的翻译结果后,对翻译结果进行校验。第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述网页翻译方法的步骤。第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述网页翻译方法的步骤。本申请实施例提供的网页翻译方法、装置、计算机设备和存储介质,通过解析分离网页中的网页格式内容与文本内容,确定网页格式内容与文本内容的对应关系,并通过调用机器翻译装置对网页中的文本内容进行翻译,在获得翻译结果后又能结合该翻译结果所对应的网页格式内容进行处理,以此获得网页的翻译版本,实现网页格式的保留。本申请可以有效减少大数据场景下批量网页翻译的人工布局、排版工作,提升外文网页翻译、发布的效率和质量。附图说明图1为一个实施例中网页翻译方法的应用环境图;图2为一个实施例中网页翻译方法的流程示意图;图3为另一个实施例中网页翻译方法的流程示意图;图4为一个实施例中采集和存储网页的流程示意图;图5为另一个实施例中采集和存储网页的流程示意图;图6为一个实施例中网页翻译装置的结构框图;图7为一个实施例中计算机设备的内部结构图;图8为另一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的网页翻译方法,可以应用于如图1所示的应用环境中。计算机设备100获取待翻译的网页后,与机器翻译装置200进行通信,借助于机器翻译装置200实现外文网页的翻译。其中,计算机设备可以是各类终端设备,例如个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备等,也可以是独立服务器、服务器集群等。机器翻译装置200可以是任意的具有机器翻译功能的装置,例如专用的翻译设备,或者是谷歌、百度等企业提供的面向本文档来自技高网...

【技术保护点】
1.一种网页翻译方法,其特征在于,包括以下步骤:/n获取待翻译的第一网页;/n解析所述第一网页中的网页格式内容与文本内容,并确定所述网页格式内容与所述文本内容的对应关系;/n将所述网页格式内容对应的所述文本内容发送至机器翻译装置,并接收所述机器翻译装置根据所述文本内容反馈的翻译结果;/n确定所述翻译结果对应的网页格式内容,并对所述第一网页中各文本内容所对应的翻译结果以及各所述翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。/n

【技术特征摘要】
1.一种网页翻译方法,其特征在于,包括以下步骤:
获取待翻译的第一网页;
解析所述第一网页中的网页格式内容与文本内容,并确定所述网页格式内容与所述文本内容的对应关系;
将所述网页格式内容对应的所述文本内容发送至机器翻译装置,并接收所述机器翻译装置根据所述文本内容反馈的翻译结果;
确定所述翻译结果对应的网页格式内容,并对所述第一网页中各文本内容所对应的翻译结果以及各所述翻译结果所对应的网页格式内容进行处理,获得翻译后的第二网页。


2.根据权利要求1所述的网页翻译方法,其特征在于,所述确定所述网页格式内容与所述文本内容的对应关系的步骤,包括:
对所述网页格式内容进行压缩编码以生成定位码;
确定所述定位码与所述文本内容的对应关系;
所述确定所述翻译结果对应的网页格式内容的步骤,包括:
确定所述翻译结果对应的定位码,并依据所述翻译结果对应的定位码进行逆编码处理,还原成所述网页格式内容。


3.根据权利要求2所述的网页翻译方法,其特征在于,所述网页格式内容包括HTML标签,对所述网页格式内容进行压缩编码以生成定位码的过程包括:
遍历所述第一网页中的HTML标签,依次对各个所述HTML标签进行压缩编码处理,生成各个HTML标签对应的所述定位码。


4.根据权利要求2所述的网页翻译方法,其特征在于,所述翻译结果包括所述定位码以及依据所述文本内容生成的翻译文本;
在将所述网页格式内容对应的所述文本内容发送至机器翻译装置时,还将所述定位码发送至机器翻译装置。


5.根据权利要求1至4中任意一项所述的网页翻译方法,其特征在于,获取待翻译的第一网页的步骤包括:
从待翻译网页数据库中读取所述第一网页。


6.根据权利要求5所述的网页翻译方法,其特征在于,还包括如下步骤:
从预先配置的网站采集网页;
对所述网页进行校验;
将校验通过的网页存储至所述待翻译网页数据库。


7.根据权利要求6所述的网页翻译方法,其特征在于,还包括:
对所述网页的文本语言进行判断;
若所述网页的文本语言为非目标语言,且所述网页校验通过,则将所述网页存储至所述待翻译网页数据库。


8.根据权利要求1至4中任意一项所述的网页翻译方法,其特征在于,
在接收所述机器翻译装置根据所述文本内容反馈的翻译结果后,对所述翻译结果进行校验;
若校验通过,则确定所述翻译结果对应的网页格式内容,并对所述翻译结果和所述翻译翻译结果对应的网页格式内容进行处理。


9.一种网页翻译装置,其特征在于,包括以下步骤:
获取模块,用于获取待翻译的第一网页;
解析模块,用于解析所述第一网页中的网页格式内容与文本内容,...

【专利技术属性】
技术研发人员:任述亮
申请(专利权)人:京信通信系统中国有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1