机器翻译系统及机器翻译方法技术方案

技术编号:8390890 阅读:178 留言:0更新日期:2013-03-08 02:50
一种机器翻译系统,预先将至少包含一组含有文字且经可视化的图像的参照数据(URL)、在与该图像重叠的区域设定着显示位置、不含文字且非可视化的背景图像的参照数据(URL)、及在与该背景图像重叠的区域设定着显示位置、且非可视化的文本数据的HTML数据存储在WebDB中,在翻译处理时使该非可视化的背景图像数据及文本数据可视化,并且使该经可视化的图像数据非可视化。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种机器翻译文书的构造,尤其涉及一种即时翻译显示在Web页面内的文本的系统等。
技术介绍
作为机器翻译Web页面中的文本的装置,已知一种翻译图像内的文字部分的装置(例如参照专利文献I)。专利文献I所记载的装置是按照以下的次序作成仅翻译图像与文字混在一起的图像数据中的文字部分的图像。首先,确定图像与文字混在一起的图像数据中存在文字数据的部分(文字区域)。接着,从文字区域提取文字数据,将所提取的文字数 据转换成文本数据。然后,翻译文本数据,调整翻译数据后将其贴附至文字区域。最后,将贴附着翻译数据的文字区域与原先的图像数据进行合成(参照同文献图2的流程图、图3 图10的说明图等)。
技术介绍
文献专利文献专利文献I :日本专利特开2003-122751号公报
技术实现思路
对于利用者来说,当利用因特网上的服务时,若Web页面是以该利用者的使用语言显示则较为便利。但是,对所有Web页面预先准备各国语言的模式不仅费事而且不现实。相对于此,考虑事先以特定的语言作成Web页面,使用例如可机器翻译的装置,SP时地将Web页面中的文本翻译成利用者的使用语言进行提供。但是,多数情况下在提供服务的Web页面中配置着图像,该图像中经常含有文字(图1(a)的110a,此处为日语)。因此,若仅对文本数据进行机器翻译,则图像中的文字不会被翻译(图1(b)的110b,此处译成英文)。这种情况下,通过使用例如专利文献I记载的装置,也可翻译图像内的文字,从而可无损Web页面的美观及布局而进行机器翻译。但是,在专利文献I所记载的装置中,由于是适当提取图像内的文字进行翻译,因此处理需花费时间。由此,对于以即时处理为前提的翻译服务,无法采用专利文献I所记载的装置。本专利技术是为了解决所述问题研究而成,目的在于提供一种可以在翻译处理前后保持翻译对象页面的视觉格局,并且可实现图像内所包含的文字的翻译处理的高速化的机器翻译系统、机器翻译方法、机器翻译程序及记录着该机器翻译程序的记录介质。S卩,本专利技术的机器翻译系统的特征在于将以特定语言表现的翻译对象的Web页面翻译成其他语言,并提供所翻译的所述Web页面,可连接于存储描述翻译对象的所述Web页面的构造的HTML (Hyper Text Markup Language,超文本标记语言)数据及由该HTML数据参照的图像数据的Web数据存储机构、及存储用于文本的翻译处理的词典数据的翻译数据存储机构,所述HTML数据是以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、以及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述,该机器翻译系统包括翻译请求接收机构,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL (Uniform ResourceLocator,统一资源定位符)及指定翻译目标语言的指定数据的翻译请求;HTML数据取得机构,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据;翻译机构,参照由所述翻译数据存储机构所存储的所述词典数据,将由所述HTML数据取得机构所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言;可视化要素切换机构,使由所述HTML数据取得机构所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化;已翻译的HTML数据发送机构,使用由所述翻译机构所翻译的文本重组由所述HTML数据取得机构所取得的所述HTML数据,并将其发送至所述终端;及图像数据发送机构,根据来自所述终端的指 定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。所述可视化要素切换机构优选为将文本的文字色属性自透明变更为有色,将包含文本的区域的显示属性自隐藏变更为显示或删除插入包含文本的区域的标签的注释标签,由此使非可视化的文本可视化。所述可视化要素切换机构优选为将所述背景图像的显示属性自隐藏变更为显示,将包含所述背景图像的区域的显示属性自隐藏变更为显示,删除插入与所述背景图像相对应的标签的注释标签,由此使非可视化的所述背景图像可视化。所述可视化要素切换机构优选为将所述图像的显示属性自显示变更为隐藏,删除与所述图像相对应的标签,以注释标签插入与所述图像相对应的标签,将包含所述图像的区域的显示属性自显示变更为隐藏或以注释标签插入与包含所述图像的区域相对应的标签,由此使经可视化的所述图像非可视化。所述已翻译的HTML数据发送机构也可将由所述HTML数据取得机构所取得的所述HTML数据的基准URL变更为所述翻译请求中所包含的翻译对象的所述Web页面的所述URL。所述已翻译的HTML数据发送机构也可以在由所述翻译机构所翻译的文本长度、与由所述HTML数据取得机构所取得的所述HTML数据中所包含的特定的文本长度相比为长于一定值以上的情况下,修正由所述翻译机构所翻译的文本的长度使其变短。而且,本专利技术的机器翻译方法的特征在于利用将以特定语言表现的翻译对象的Web页面中的文本翻译成其他语言,并提供所翻译的所述Web页面的机器翻译系统,所述机器翻译系统可连接于存储描述翻译对象的所述Web页面的构造的HTML数据及由该HTML数据参照的图像数据的Web数据存储机构、及存储用于文本的翻译处理的词典数据的翻译数据存储机构,所述HTML数据以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述,所述机器翻译系统执行如下步骤翻译请求接收步骤,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL及指定翻译目标语言的指定数据的翻译请求;HTML数据取得步骤,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据;翻译步骤,参照由所述翻译数据存储机构所存储的所述词典数据,将通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言;可视化要素切换步骤,使通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化;已翻译的HTML数据发送步骤,利用由所述翻译步骤所翻译的文本重组由所述HTML数据取得步骤所取得的所述HTML数据,并将其发送至所述终端;及图像数据发送步骤,根据来自所述终端的指定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。 而且,本专利技术的机器翻译程序构成为,用于使I个或多个计算机实现所述任一机器翻译系统具备的各机构作为功能。此外,本专利技术的记录介质构成为,可由计算机读取,且记录如下程序,该程序用于本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:益子宗
申请(专利权)人:乐天株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1