当前位置: 首页 > 专利查询>新疆大学专利>正文

一种多语言网站开发方法及系统技术方案

技术编号:14535017 阅读:127 留言:0更新日期:2017-02-02 20:13
本发明专利技术涉及自然语言处理技术领域,特别涉及一种多语言网站开发方法及系统。所述多语言网站开发方法包括:步骤a:开发多语言网站的静态网页;步骤b:调用机器翻译接口,对所述多语言网站中动态加入的汉语数据进行多语种翻译处理;步骤c:读取翻译数据,根据所述翻译数据加载并渲染所述多语言网站动态网页。本发明专利技术采用机器翻译和人工干预纠正处理方式,大大减少翻译误差,使网页展示效果准确率更高;通过选择utf‑8的Unicode编码格式,避免网页渲染时产生的乱码情况;通过动态载入的缓存机制,解决实时翻译载入过程中,每次需要重新调用机器翻译接口造成的资源消耗问题及加载延迟问题,同时减少人工干预。

Method and system for developing multi language website

The invention relates to the technical field of Natural Language Processing, in particular to a method and a system for developing a multilingual website. Including the multi language website development method: step a: static web development of multi language website; step B: call Machine Translation interface, the dynamic data of Chinese multi language website added for multilingual translation processing; step C: read data translation, translation data loading and rendering of the multi language dynamic web page according to the. The invention adopts Machine Translation and artificial intervention corrective treatment, greatly reduce the translation error, make the page showing the effect of higher accuracy; through the Unicode encoding format selection UTF 8, to avoid the situation when rendering the page garbled generated by dynamic loading; caching mechanism, solve the real-time translation load, each time we need to call the Machine Translation interface the problem of resource consumption and load delay problem, and reduce the manual intervention.

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种多语言网站开发方法及系统。
技术介绍
随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。近年来,中国电子商务迅猛发展,在各领域的应用不断拓展和深化,交易额连创新高,带动相关产业蓬勃发展,相关支撑体系不断健全完善,促进了创新动力和能力的不断增强。我们知道,维吾尔语是一种年代悠久的古老文字,目前用维吾尔语写的书籍文献,历史资料非常之多。它储存了成千上万的维吾尔语化及生活信息,其历史意义和文化价值是弥足珍贵的。因此,民文信息处理技术与维吾尔语言未来的发展前景紧密相连。目前,随着维吾尔族人民的文化和知识水平的逐步提高,会制作维吾尔语网页的人也相续增多。已经有很多人或者团体建了各种类型的维吾尔语网站传播各种信息,这些网站和普通中文网站一样都提供新闻浏览,信息下载等功能,但由于建立网站时使用的维吾尔语软件的编码互不相同,这就导致维吾尔语网页一直处于万马奔腾,互不兼容地境地,大部分的维吾尔语网页信息都不能共享,同时在不同的编码间进行转换不得不耗费大量的工作时间和科研资料。新疆维吾尔自治区是一个多民族多语言居住的地方,电子商务购物成为一种流行的趋势,淘宝的成功证实这种趋势将一直流行下去,但是疆内多数购物平台都是中文版的普通网站,对于大多数不熟悉中文的维吾尔族同胞使用起来困难重重,因此迫切需要一个规范化的维汉双语的购物平台。那么,想开发一款规范的维语版的电商平台不是简简单单的静态网页的维吾尔语化,一个完善地购物机制,需要实时地动态管理,动态地增删改查,人工手动翻译无法满足这种海量数据动态变化的需求,因此,我们需要机器翻译辅助平台的动态变化。机器翻译是利用计算机把一种自然语言转换成另一种自然语言的过程。机器翻译发展至今,已出现了多种基于不同原理的机器翻译系统。总体可以将机器翻译系统从方法上大致分为四类:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和混合式机器翻译。不同的机器翻译系统各有所长。例如,基于规则的机器翻译系统擅长于翻译符合规则的句子,翻译的质量较高;基于统计的机器翻译系统具有通用性,自动从语料库中学习语言知识。关于维汉机器翻译的相关参考文献包括:[1]蓝伯雄,郑晓娜,徐心.电子商务时代的供应链管理[J].中国管理科学,2000,03:2-8.[2]汤琭.中国电子商务网络购物平台产业组织分析[D].武汉理工大学,2012.[3]陈韵,张鹏华,任利华.机器翻译研究述评[J].价值工程,2013,01:174-176.[4]朱海.基于混淆网络的机器翻译系统融合研究[D].中国科学技术大学,2010.[5]NagaoM.A.FrameworkofamechanicaltranslationbetweenJapaneseandEnglishbyanalogyprinciple[M].NorthHollandPublications,1984.[6]麦热哈巴·艾力.基于实例的维汉机器翻译若干关键问题研究[D].新疆大学,2014.[7]阿里甫·库尔班,阿布力米提·阿不都热依木,吐尔根·依布拉音.维汉机器翻译用电子词典的设计[J].计算机工程与应用,2006,20:76-78.[8]卡哈尔江·阿比的热西提.基于实例的汉维—维汉双向机器翻译系统的研究[D].上海交通大学,2012.[9]古丽松·那斯尔丁,买买提·赛福丁.维汉机器翻译系统电子词典的研究与设计[J].新疆师范大学学报(自然科学版),1997,01:32-36.为了解决维汉机器翻译的问题,中国专利申请号201310740830.3公开了一种应用电费自助缴费终端维吾尔语翻译引擎方法,该专利从自助缴费终端选择显示类型如汉文、维吾尔语;若选择汉文,则无需进行机器翻译;若选择维吾尔语,则启动翻译引擎对数据库里的信息进行翻译,并显示在终端界面上,从而大大减少人工互译汉文-维吾尔语的成本和时间。该专利存在的缺点在于:在选择维吾尔语时进行实时机器翻译,虽然大大减少人工互译的成本和时间,仍缺少缓存机制或是提前做好维吾尔语数据库存储,减少网页加载时的延迟。另一中国专利申请号201310197369.1公开了一种企业综合信息管理系统,该专利通过客户端提交信息管理的请求给国际化同步模块,请求包含语言和应用模式的选择;国际同步化模块接收请求并分语种管理,再传输给信息统一管理模块;信息统一管理模块将分语种管理后的请求中的不同信息进行判断并分类管理;将分类管理后的不同信息传输给历史记录模块;历史记录模块接收分类管理后的不同信息并传输客户端。该专利解决了在不同语言环境下页面同步更新问题,用户完整的掌握企业内部的人事、工资、档案、任务和财产等的详细情况;用户的所有操作步骤均同步保存在历史记录模块当中,随时可以无障碍的还原和查看。但该专利存在的缺点在于:国际化同步模块分模块分语种管理,在客户端大量更新数据时,各个模块需要实时同步更新,一方面没有预处理过程,数据返回存在刷新延迟;另一方面,数据更新可能存在误差,没有人工参与纠正过程。综上所述,现有维汉双语机器翻译技术的翻译模式都比较单一,普遍使用动态实时机器翻译,没有缓存机制或是数据预处理过程,B/C模式下网页渲染可能会存在乱码问题和延迟加载问题。
技术实现思路
本专利技术提供了一种多语言网站开发方法及系统,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本专利技术提供了如下技术方案:一种多语言网站开发方法,包括:步骤a:开发多语言网站的静态网页;步骤b:调用机器翻译接口,对所述多语言网站中动态加入的汉语数据进行多语种翻译处理;步骤c:读取翻译数据,根据所述翻译数据加载并渲染所述多语言网站动态网页。本专利技术实施例采取的技术方案还包括:在所述步骤a中,所述多语言网站至少包括汉语、维吾尔语或/和哈萨克语;所述开发多语言网站的静态网页具体为:通过Unicode字符集的UTF-8编码格式进行多语言网站的静态网页开发。本专利技术实施例采取的技术方案还包括:在所述步骤b中,所述对多语言网站中动态加入的汉语数据进行多语种翻译处理具体包括:步骤b1:封装翻译接口,批量取出网站数据库中动态加入的汉语数据,将所述汉语数据存储在文档中,对文档中的汉语数据按行读取,每读取一行调用机器翻译接口进行自动翻译;步骤b2:对所述存储的翻译数据进行人工纠正处理;步骤b3:将所述人工纠正处理的翻译数据按对应格式存储到所述网站数据库中。本专利技术实施例采取的技术方案还包括:所述步骤c中,所述根据翻译数据加载并渲染所述多语言网站动态网页具体包括:在存储翻译数据时,将维吾尔语或哈萨克语的每个字符编码转换成四位的16进制字符串,在网页渲染时,对从网站数据库中读出的维吾尔语或哈萨克语再做一次编码转换。本专利技术实施例采取的技术方案还包括:所述步骤c还包括:对所述加载网页进行缓存处理;所述网页缓存处理包括文件缓存和内存缓存。本专利技术实施例采取的另一技术方案为:一种多语言网站开发系统,包括:静态网页开发模块:用于开发多语言网站的静态网页;机器翻译模块:用于调用机器翻译接口,对所述多语言网站中动态加入的汉语数据进行多语种翻译处理;网页渲染模块:用于读取翻译数据,根据所述翻译数据加载并渲染所述多语言网站动态网页。本本文档来自技高网
...

【技术保护点】
一种多语言网站开发方法,其特征在于,包括:步骤a:开发多语言网站的静态网页;步骤b:调用机器翻译接口,对所述多语言网站中动态加入的汉语数据进行多语种翻译处理;步骤c:读取翻译数据,根据所述翻译数据加载并渲染所述多语言网站动态网页。

【技术特征摘要】
1.一种多语言网站开发方法,其特征在于,包括:步骤a:开发多语言网站的静态网页;步骤b:调用机器翻译接口,对所述多语言网站中动态加入的汉语数据进行多语种翻译处理;步骤c:读取翻译数据,根据所述翻译数据加载并渲染所述多语言网站动态网页。2.根据权利要求1所述的多语言网站开发方法,其特征在于,在所述步骤a中,所述多语言网站至少包括汉语、维吾尔语或/和哈萨克语;所述开发多语言网站的静态网页具体为:通过Unicode字符集的UTF-8编码格式进行多语言网站的静态网页开发。3.根据权利要求2所述的多语言网站开发方法,其特征在于,在所述步骤b中,所述对多语言网站中动态加入的汉语数据进行多语种翻译处理具体包括:步骤b1:封装翻译接口,批量取出网站数据库中动态加入的汉语数据,将所述汉语数据存储在文档中,对文档中的汉语数据按行读取,每读取一行调用机器翻译接口进行自动翻译;步骤b2:对所述存储的翻译数据进行人工纠正处理;步骤b3:将所述人工纠正处理的翻译数据按对应格式存储到所述网站数据库中。4.根据权利要求2所述的多语言网站开发方法,其特征在于,所述步骤c中,所述根据翻译数据加载并渲染所述多语言网站动态网页具体包括:在存储翻译数据时,将维吾尔语或哈萨克语的每个字符编码转换成四位的16进制字符串,在网页渲染时,对从网站数据库中读出的维吾尔语或哈萨克语再做一次编码转换。5.根据权利要求4所述的多语言网站开发方法,其特征在于,所述步骤c还包括:对所述加载网页进行缓存处理;所述网页缓存处理包括文件缓存和内存缓存。6.一种多语言网站开发系统,其特征在于,包括:静态网页...

【专利技术属性】
技术研发人员:努尔布力陈海蛟
申请(专利权)人:新疆大学
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1