一种网页取词汉民翻译方法及其装置制造方法及图纸

技术编号:15639292 阅读:78 留言:0更新日期:2017-06-15 22:37
本发明专利技术的网页取词汉民翻译装置融合了机器翻译与数据检索,对于网页文字获取模块进行识别,如果在汉民互译数据库模块中能够检索到则直接返回对应的翻译文本,否则再调用机器翻译模块对获取的内容进行从段落到句子再到单词的逐级解析,翻译后并显示最终结果,允许用户对翻译结果进行再编辑提供更好的译文。本发明专利技术不局限于单词的翻译,可对整个句子和整个段落进行翻译,保障翻译结果的完整性;使用融合机器翻译与数据检索的方法,无须每次都调用机器翻译模块,可以大幅提高翻译速度;使用译文再编辑模块以改进翻译结果,随着使用次数的增加可持续扩充汉民互译对。

【技术实现步骤摘要】
一种网页取词汉民翻译方法及其装置
本专利技术涉及计算机应用
,特别涉及一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置。
技术介绍
随着互联网的发展,越来越多的知识通过网页传播。我国是统一的多民族国家,在部分民族聚居区,仍然存在许多使用汉语较为困难的民族同胞。现有翻译软件大多针对汉英等大语种,缺乏民族语言相关的翻译功能;另一方面,一些屏幕取词软件,如金山词霸,只能对单个单词进行翻译,不能完成篇章、段落或句子级别的翻译,使得用户有时难以理解整个段落或整个句子的含义。因此,如何获取网页上的指定内容并翻译成所需的民族语言具有现实意义。近年来,自然语言处理技术尤其是机器翻译技术持续发展,民族语言信息化工作也取得了较大进展,积累了一定的民族语言资源,为使用机器翻译技术实现汉民翻译提供了语言基础和技术支撑。
技术实现思路
本专利技术针对民族语言信息化的现实需求,提供了一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置,获取汉语网页中的文字,从段落到句子到单词,融合机器翻译与数据检索逐级向下进行翻译,实现机器翻译与数据检索的有效融合,提高了汉民翻译的速度和准确性。本专利技术是通过以下技术方案实现的:一种融合机器翻译与数据检索的网页取词汉民翻译方法,包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对后的解析数据返回;步骤S6:通过语言翻译模型将返回的译文数据或解析数据进行再整理,将整理后的翻译结果提交,根据译文语种与编码识别调用汉民字体库,显示最终翻译结果;步骤S7:对最终翻译结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。一种融合机器翻译与数据检索的网页取词汉民翻译装置,包括网页文字获取模块、汉民互译数据库模块、机器翻译模块、显示模块和译文再编辑模块,所述汉民互译数据库模块包括数据检索模块、汉民双语平行语料库、汉民双语比对数据库;所述机器翻译模块包括语言翻译模型、解码器、汉民字体库及汉民输入法。本专利技术提供的网页取词汉民翻译装置融合了机器翻译与数据检索,对于网页文字获取模块进行识别,如果在汉民互译数据库模块中能够检索到则直接返回对应的翻译文本,否则再调用机器翻译模块对获取的内容进行从段落到句子再到单词的逐级解析,翻译后并显示最终结果,允许用户对翻译结果进行再编辑提供更好的译文。本专利技术不局限于单词的翻译,可对整个句子和整个段落进行翻译,保障翻译结果的完整性;使用融合机器翻译与数据检索的方法,无须每次都调用机器翻译模块,可以大幅提高翻译速度;使用译文再编辑模块以改进翻译结果,随着使用次数的增加可持续扩充汉民互译对。附图说明图1是本专利技术的网页取词汉民翻译方法的流程图图2是本专利技术的网页取词汉民翻译装置的结构图。具体实施方式以下结合图1和图2对本专利技术的技术方案作详细说明。如图1和图2所示,本专利技术的网页取词汉民翻译装置,包括网页文字获取模块、汉民互译数据库模块、机器翻译模块、显示模块和译文再编辑模块。汉民互译数据库模块包括数据检索模块、汉民双语平行语料库、汉民双语比对数据库,机器翻译模块包括语言翻译模型、解码器、汉民字体库及汉民输入法。汉民双语平行语料库和汉民双语比对数据库的互译对均以一对一的形式保存。需要进行翻译时,网页文字获取模块启动后,在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容;在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容。再将获取的文本内容与汉民互译数据库模块的汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据;如果无法找到则将获取的文本内容通过机器翻译模块的解码器进行段落、句子、单词逐级解析,与汉民互译数据库模块的汉民双语比对数据库对应数据进行比对,将比对后的解析数据返回。通过机器翻译模块的语言翻译模型将返回的译文数据或解析数据进行再整理,将整理后的翻译结果提交。显示模块根据译文语种与编码识别调用汉民字体库,显示最终翻译结果。用户可调用机器翻译模块的汉民输入法对译文进行编辑与修改,并将获取的网页文本内容与修改后的译文作为互译对添加至汉民互译数据库模块的汉民双语平行语料库中。以上所述仅是本专利技术的优选实施方式,本专利技术的保护范围并不仅局限于上述实施例,凡属于本专利技术思路下的技术方案均属于本专利技术的保护范围。应当指出,对于本
的普通技术人员来说,在不脱离本专利技术原理前提下的若干改进和润饰,这些改进和润饰也应视为本专利技术的保护范围。本文档来自技高网
...
一种网页取词汉民翻译方法及其装置

【技术保护点】
一种网页取词汉民翻译方法,其特征在于:包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对后的解析数据返回;步骤S6:通过语言翻译模型将返回的译文数据或解析数据进行再整理,将整理后的翻译结果提交,根据译文语种与编码识别调用汉民字体库,显示最终翻译结果;步骤S7:对最终翻译结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。

【技术特征摘要】
1.一种网页取词汉民翻译方法,其特征在于:包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对...

【专利技术属性】
技术研发人员:陈雷高翊胡泽林李淼杨振新孙凯高进
申请(专利权)人:中国科学院合肥物质科学研究院云南省民族宗教事务委员会
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1