基于领域本体的名片信息中译英自动翻译方法技术

技术编号:2827984 阅读:539 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于领域本体的名片信息中译英自动翻译方法,包括为名片中所包括信息建立领域本体库及翻译本体库;向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入,或直接调用数据库中的用户电子名片,提取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息;获取用户输入的参数值,进行切分和语法分析,进行匹配翻译;以及输出翻译结果并接收用户的修订,将修订结果存储到数据库中。本发明专利技术所提供的英文翻译准确率相当高,实用性强。

【技术实现步骤摘要】

本专利技术涉及一种基于本体的翻译方法,尤其涉及一种基于领域本体的名片 信息中译英自动翻译方法。
技术介绍
机器翻译涉及到语言学、计算机科学、认知心理学等多种学科,是计算语 言学中非常重要的分支。但它在语言学和计算机实现方面都存在着一些尚待解 决的难题,比如自然语言的多义问题、译文的词序问题、介词处理问题、上下 文的关联问题、机器翻译所需知识的获取和表达及中译外机器翻译的汉语分词 歧义等问题。这些问题依然限制着译文的质量,也不是用规则能够完全解决的, 因而使机器翻译的结果难以令人满意。特别是汉语的机器翻译,存在的问题相当多。汉语和许多印欧语系语言不 同,汉语在词形上属于孤立语,釆用连续书写形式,词与词之间无自然界限, 无词尾形式标志,无形态变化,这种三无现象使得人们在阅读时要借助大 脑思维切分词语,而用计算机理解和处理书面汉语时,就必须先进行自动切分 词语的工作,而汉语语义及结构上的复杂性与多变性和三无现象的存在, 给汉语自动分词带来了极大困难。我国中文信息处理发展己经经过了很多年, 但是关于词如何进行抽象定义和判定的问题到现在也没有很好的解决。虽 然我国已制定了《信息处理用现代汉语分词规范》,但仍然有一些情况很难判断。自80年代初提出汉语自动分词以来,已经研究出了许多分词方法。如最大 匹配MM方法、RMM方法、逐词遍历法、设立切分标记法、OM方法、有穷多 层次列举法、二次扫描法、基于词频统计的分词方法、基于期望的分词方法、 双向扫描法、邻接约束法、最少分词词频选择方法、神经元网络方法等。这些方法对常规句子的处理, 一般具有很高的精度,但在处理歧义切分方面,都存 在明显的缺陷。歧义切分是汉语分词中不可避免的现象,也是自然语言处理中 的一个难点。另外,中文的使用习惯会产生大量的信息省略,这是一种信息损 失。会导致误解以及错误的传播,而当中文翻译为英文的时候,由于二者之间 有很多语法上得差异,所以为了保证翻译的正确率和完整性,必须要找回这些 信息损失,而要想找回这些损失的信息,必须具备大量的知识储备,而计算机 并不具备,因而它们无法准确的理解文本所要表达的信息,所以建立在这种错 误理解基础上的翻译必然会大打折扣。在翻译系统中最重要的就是检索匹配, 只要保持高的检索匹配正确率,才能提高翻译的准确率,而通常的检索方法釆 用的是词形匹配,而不是语义匹配。这样自然会降低检索的准确率。产生这些 问题的根源在于这种词形查询对于计算机而言没有任何含义,或者说没有语义, 因而检索的结果不能完全满足用户检索的意图。另外,自然语言是一种不断发展、不断变化、约定俗成的交流工具,因而 具有很大的随意性。将这些千变万化的现象条理化,以有限的规则来应付无边 无际的自然语言,也很难实现信息的准确翻译。特别是,很多语句需要借助上、 下文的关联信息才能进行,这些都是造成机器翻译不准确的因素,因此,目前, 虽然机器翻译技术可以部分帮助人们完成一些翻译工作,但这些帮助都相当有 限。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种基于领域本体的名片信息中译 英自动翻译方法,能提供准确的名片信息翻译,非常实用。为达到上述目的,本专利技术的技术方案是这样实现的一种,以词料库、语料库为 基础,为名片中所包括信息建立领域本体库,所述领域本体库中至少包括地址 领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括地址分 割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属 性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置 的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基 于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、 词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例 之间的对应关系;该方法还包括以下步骤A、 向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联 系人名称、职位、单位名称、联系电话、传真的信息输入;B、 获取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传 真的参数值,对于邮编、联系电话、传真的信息,进行直译,用户输入的数字 参数不译;对于联系人名称,判断是否为汉语,若是按名和姓进行切分,查找 所述翻译本体库是否有匹配的名,若有则译为相应英文,否则译为拼音,如果不是汉语则不译;对于职位,则直接输入到翻译本体库进行匹配,若匹配则将 对应的英文翻译作为输出,不匹配时则翻译为汉语拼音;对于联系地址,则以 用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行 匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进 行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译 规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本 体库进行匹配,若匹配则获得每个切词的翻译结果,若不匹配则翻译为汉语拼 音,根据实例中训练的英文语法翻译规则进行翻译;对于单位名称则输入到单 位名称类中进行匹配,匹配成功则按设定的规则进行翻译,否则以汉语拼音作 为翻译结果;C、 将翻译后的联系地址、邮编、联系人名称、职位、单位名称、联系电 话、传真的信息输出,并接收用户的修正,修正结果作为翻译结果输出;则将用户修正的词句结果保存到翻译本体库中的对应实例中,并更新实例中该修正 词句的翻译结果。其中,步骤B还包括对待检索信息进行匹配时,获取所述待检索信息的属性值,即获得其固有 的属性,根据这些匹配项的属性值利用推理机进行推理,以自动辨认出本体中 的对象具体属于哪个类,可以在所确定的较明确的分类中完成准确搜索。其中,所述建立本体库,包括a、 本体建模,发现领域内的概念、概念的继承层次、潜在的关系和公理;b、 为本体模型中各元素添加实例,即进行语义标注;c、 将现实应用中涉及的实例和抽象的本体概念相联系,进行语义标注;d、 通过智能推理优化本体库。 其中,步骤B还包括对于输入到领域本体库中不匹配的词句,向用户返回不匹配结果并提供用 户的切词输入,在用户输入切词输入后将切词结果在领域本体库中进行再次匹 配;所述不匹配包括切词不匹配及翻译实例中无匹配结果。其中,所述词料库、语料库由自然语言数据库训练而来,所述自然语言数 据库至少包括字典、词典、习惯用语、报刊、书籍、互联网web页面信息。其中,步骤A还可以为直接调用数据库中的用户电子名片,提取联系地址、邮编、联系人名称、 职位、单位名称、联系电话、传真的信息。本专利技术通过采用信息量较少的名片作为自动翻译对象,翻译难度相对较低, 处理好名片信息中的地址、单位名称等翻译问题,即可实现名片信息的准确翻 译。本专利技术利用领域本体库作为翻译关系数据库,本体库中的收录的词句均包 含有语义信息,可实现查询词句的准确匹配,由于本体库中的实例信息等均是 可动态维护的,因此,所提供的英文翻译准确率相当高。本专利技术有较高的本文档来自技高网
...

【技术保护点】
一种基于领域本体的名片信息中译英自动翻译方法,其特征在于,以词料库、语料库为基础,为名片中所包括信息建立领域本体库,所述领域本体库中至少包括地址领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括:地址分割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括:地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例之间的对应关系;该方法还包括以下步骤:    A、向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入;    B、获取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的参数值,对于邮编、联系电话、传真的信息,进行直译,用户输入的数字参数不译;对于联系人名称,判断是否为汉语,若是按名和姓进行切分,查找所述翻译本体库是否有匹配的名,若有则译为相应英文,否则译为拼音,如果不是汉语则不译;对于职位,则直接输入到翻译本体库进行匹配,若匹配则将对应的英文翻译作为输出,不匹配时则翻译为汉语拼音;对于联系地址,则以用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本体库进行匹配,若匹配则获得每个切词的翻译结果,若不匹配则翻译为汉语拼音,根据实例中训练的英文语法翻译规则进行翻译;对于单位名称则输入到单位名称类中进行匹配,匹配成功则按设定的规则进行翻译,否则以汉语拼音作为翻译结果;    C、将翻译后的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输出,并接收用户的修正,修正结果作为翻译结果输出;则将用户修正的词句结果保...

【技术特征摘要】
1、一种基于领域本体的名片信息中译英自动翻译方法,其特征在于,以词料库、语料库为基础,为名片中所包括信息建立领域本体库,所述领域本体库中至少包括地址领域类、户名领域类、单位名称类,其中,所述联系地址类至少包括地址分割符、前缀词汇、地址小节和地址,为地址分割符、前缀词汇、地址小节和地址设置属性及属性值,同时为所述地址分割符、前缀词汇、地址小节和地址建立实例;所述户名领域类至少包括地址标识、地址自定义称谓、户名标识和子户名、户名,为所述地址标识、地址自定义称谓、户名标识和子户名设置属性及属性值,同时为所述地址标识、地址自定义称谓、户名标识和子户名建立实例;所述属性及属性值是依据所述词料库、语料库训练而得到的语义而设置的;单位名称类是收集单位名称,并建立之间的语义联系;即领域本体库是基于语义关联的关系数据库;以英汉词典、汉英词典和汉英语法规则建立单词、词句的语法翻译实例,同时建立翻译实例与领域本体库中的各元素所建立实例之间的对应关系;该方法还包括以下步骤A、向用户提供名片信息输入界面,接收用户名片的联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的信息输入;B、获取联系地址、邮编、联系人名称、职位、单位名称、联系电话、传真的参数值,对于邮编、联系电话、传真的信息,进行直译,用户输入的数字参数不译;对于联系人名称,判断是否为汉语,若是按名和姓进行切分,查找所述翻译本体库是否有匹配的名,若有则译为相应英文,否则译为拼音,如果不是汉语则不译;对于职位,则直接输入到翻译本体库进行匹配,若匹配则将对应的英文翻译作为输出,不匹配时则翻译为汉语拼音;对于联系地址,则以用户输入的参数值为查询条件,在领域本体库的地址领域类、户名领域类进行匹配,若存在匹配项,则按领域本体库中的切词方式对联系地址及单位名称进行切词,再查找这些切词对应的翻译实例,再根据实例中训练的英文语法翻译规则进行翻译;若不存在匹配项,则直接进行切词,将每个切词输入到领域本体库进行匹配,若匹配则获得每个切词的翻译...

【专利技术属性】
技术研发人员:张玉洁孟祥武
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1