【技术实现步骤摘要】
一种网页取词汉民翻译方法及其装置
本专利技术涉及计算机应用
,特别涉及一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置。
技术介绍
随着互联网的发展,越来越多的知识通过网页传播。我国是统一的多民族国家,在部分民族聚居区,仍然存在许多使用汉语较为困难的民族同胞。现有翻译软件大多针对汉英等大语种,缺乏民族语言相关的翻译功能;另一方面,一些屏幕取词软件,如金山词霸,只能对单个单词进行翻译,不能完成篇章、段落或句子级别的翻译,使得用户有时难以理解整个段落或整个句子的含义。因此,如何获取网页上的指定内容并翻译成所需的民族语言具有现实意义。近年来,自然语言处理技术尤其是机器翻译技术持续发展,民族语言信息化工作也取得了较大进展,积累了一定的民族语言资源,为使用机器翻译技术实现汉民翻译提供了语言基础和技术支撑。
技术实现思路
本专利技术针对民族语言信息化的现实需求,提供了一种融合机器翻译与数据检索的网页取词汉民翻译方法及其装置,获取汉语网页中的文字,从段落到句子到单词,融合机器翻译与数据检索逐级向下进行翻译,实现机器翻译与数据检索的有效融合,提高了汉民翻译的速度和准确性。本专利技术是通过以下技术方案实现的:一种融合机器翻译与数据检索的网页取词汉民翻译方法,包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取 ...
【技术保护点】
一种网页取词汉民翻译方法,其特征在于:包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对后的解析数据返回;步骤S6:通过语言翻译模型将返回的译文数据或解析数据进行再整理,将整理后的翻译结果提交,根据译文语种与编码识别调用汉民字体库,显示最终翻译结果;步骤S7:对最终翻译结果进行译文再编辑,允许用户调用汉民输入法对译文进行编辑与修改,并将获取的网页文字与修改后的译文作为互译对添加至汉民双语平行语料库中。
【技术特征摘要】
1.一种网页取词汉民翻译方法,其特征在于:包括以下步骤:步骤S1:建立语言翻译模型、解码器、汉民字体库及汉民输入法;步骤S2:建立汉民双语平行语料库,以一对一的形式保存;步骤S3:建立汉民双语比对数据库,以一对一的形式保存;步骤S4:在导航条、菜单、标题等非网页正文中,获取完整网页元素内的文本内容,在网页正文部分,以段落为上限,以最大长度方式识别并获取鼠标处的文本内容;步骤S5:将获取的文本内容与汉民双语平行语料库中数据进行比对,如果能找到存在获取的文本内容一致的互译对则返回对应的译文数据,如果无法找到则将获取的文本内容通过解码器进行段落、句子、单词逐级解析,与汉民双语比对数据库对应数据进行比对,将比对...
【专利技术属性】
技术研发人员:陈雷,高翊,胡泽林,李淼,杨振新,孙凯,高进,
申请(专利权)人:中国科学院合肥物质科学研究院,云南省民族宗教事务委员会,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。