基于数据挖掘获取词或词组单元译文信息的系统和方法技术方案

技术编号:2919795 阅读:253 留言:0更新日期:2012-04-11 18:40
本发明专利技术为基于数据挖掘获取词或词组单元译文信息的系统和方法。包括:输入装置,用于输入词或词组单元;候选译文统计装置,根据输入所述的词或词组单元收集有效的电子文档和网页,在此基础上构建候选译文、发现候选译文的边界、统计候选译文的特征;候选译文噪声处理装置,用于对所述候选译文统计装置形成的噪声进行识别和处理;候选译文评价装置,根据所述候选译文统计装置得到的候选译文的特征,对每个可能的候选译文进行评价排序;候选译文典型例句挖掘装置,用于在Web上挖掘出候选译文的典型例句,并根据其典型程度排序;输出装置。使用户输入任意词典未收录的词或词组单元系统返回在另一种语言中按权值大小排列的翻译候选列表及其典型用法。

【技术实现步骤摘要】

本专利技术涉及利用计算机技术来辅助外语阅读和写作的技术,其特别涉及利用Web搜索和数据挖掘技术来获取词和词组单元(如术语、名词和固定短语单元)在目标语言中正确译文的系统和方法,具体的讲是一种。
技术介绍
人们在外语阅读、翻译和写作时,通常会遇到通用词典未收录的词和词组单元(如术语、名词和固定短语单元),对于这样的词和词组单元而言,往往是虽经大量时间的词典查阅、资料检索,却仍然得不到一个准确的翻译结果。根据Google对Web的统计,在所有的电子文档和网页中,大约76.6%的文档是英文。而在中国,根据中国互联网信息中心在2005年1月的统计报告《中国互联网络发展状况统计报告》显示,上网的用户已达到9400万,其中87.4%的用户具有高中以上的文化程度,这些用户阅读一般的英文网页没有太大问题。但他们在浏览阅读过程中经常会碰到在词典中查不到解释的词和词组单元(如术语、名词和固定短语单元),而对这些词和词组单元(如专业术语)的理解往往是理解整个内容的关键所在。可见,获取某些重要的、词典中没有记载的词和词组单元(如术语、名词和固定短语单元)的意义是重大的。在解决上述问题时,部分专业人员会求助于网络搜索引擎,但是返回大量的无关页面和冗余信息,使得用户很难发现他们所需要的有用信息。在现有技术中,自动获取双语翻译对或译文有多种途径1)从平行语料中获取译文。该方法需要大规模的两种语言对齐的语料,而现有的平行语料库规模以及建立语料库的困难限制它的进一步应用;2)根据短语中各组成成分对应的译文组合来获取译文,对组合进行评价后形成最终的译文。根据短语中各组成成分对应的译文组合来获取译文,该方法比较适合应用在基本名词短语的译文获取上,而对于专业术语/专业名词,它们通常是有一些未登录词或词组所组成,因此它们的译文很少是各组成成分的简单组合,所以直接组合效果不是非常理想。3)根据源语言的上下文和目标译文的上下文信息应该相同或者相近这个线索来获取译文。通常实验的对象只适合单个词的分析,即翻译的词数比是1∶1,且大多数实验是假设待发现的译文已经包含在可供选择的候选集中。所以该方法在作为陌生译文挖掘方法的实际应用上还有许多问题要进一步研究。4)从网上获取译文。Nagata在文献(M.Nagata,T.Saito,and K.Suzuki,Using the Web as a Bilingual Dictionary,Proc.ACL 2001 WorkshopData-Driven Methods in Machine Translation,2001,pp.95-102)中提出使用Web搜索引擎获得日语文档中的英语翻译,它是以日语为搜索项,在返回100个文档中搜索其英文翻译。然而,该系统没有对译文边界进行有效的处理,就很难发现一些隐含的译文;同时也没有对出现的结果噪声进行的挖掘处理,另外搜索的日语词中前100个网页中可能不包含英文翻译,这些就限制该系统的进一步应用。日本专利2002-24266(专利技术人永田昌明,专利技术名称对专业术语和新词的译文检索)提出利用网络搜索来检索专业术语和新词的译文。该专利主要利用检索得到的双语文档以及双语对齐的段落,再加上双语对齐技术获得译文。该专利仅覆盖日语-英语,另外,该专利没有对如何提高挖掘译文全面性和准确率有影响的多种特征和译文噪声进行进一步研究处理。Cheng的论文(P.J.Cheng,J.W.Teng,Ruei-Cheng Chen,et al.Translating unknownqueries with web corpora for cross-language information retrieval.SIGIR 2004146-153)也是利用Web资源获取未知的查询项的译文从而应用于跨语言信息检索中。然而该方法仅利用候选单元的频率特征信息,而没有挖掘深层次的特征。另外,该系统中也没有对译文噪声进行处理,这样导致很多干扰项。从网上获取全面的、准确的译文需要解决如下几个问题如何从网页中正确地挖掘所有可能的注释对形式;如何获得候选译文的正确边界,这对于汉语、日语和韩语这样的语言尤为重要,因为我们不知道译文是在左边还是在右边,中间间隔着什么,到哪个地方结束?怎样利用多种特征去掉统计形成的噪声并同时保存排序正确的候选也是该方法需要解决一个困难的问题。只有系统解决以上几个问题才能准确、高效地获得译文。然而,上述的专利和论文基本上是利用简单的频率特征,没有对译文噪声和隐含的译文形式进行深入的处理,也没有给出译文的典型用法。因此,如果有一种系统或方法能够直接提取并挖掘这些词和词组单元的有效信息就显得尤为重要了。
技术实现思路
本专利技术的目的在于提供一种,用以获取所述词或词组单元的全面、准确的译文,同时给出其典型用法,以使用户输入任意一个词典未收录的词或词组单元(如术语、名词和固定短语单元),系统返回在另一种语言中按权值大小排列的翻译候选列表,同时给出反映该翻译用法的简短上下文环境,用户也可以直接访问该网页以获取更多的详细的译文信息。本专利技术的技术方案为一种基于数据挖掘获取词或词组单元译文信息的系统,包括输入装置,用于输入词或词组单元;候选译文统计装置,根据输入所述的词或词组单元后返回的电子文档和网页构建候选译文、发现候选译文的边界、统计候选译文的特征;候选译文噪声处理装置,用于对所述候选译文统计装置形成的噪声进行识别和处理;候选译文评价装置,根据所述候选译文统计装置得到的候选译文的特征,对每个可能的候选译文进行评价排序;候选译文典型例句挖掘装置,用于在web上挖掘出所述候选译文的典型例句,并根据其典型程度进行排序;输出装置,用于输出所述词或词组单元在另一种语言中按权值大小排列的候选译文列表,及典型例句。多种语言互译装置,用于通过一种中间语言,在资源较少的两种语言之间建立译文翻译词典数据库。所述的候选译文统计装置进一步包括电子文档和网页收集单元,用于下载包含关键词的且具有多种语言注释的电子文档和网页;电子文档和网页分析单元,将下载的不同格式的电子文档和网页转换成文本信息,并保留反映文本边界特征的信息;模糊串查找单元,用于以英文的26个字母作为有效匹配符在所述的电子文档和网页中确定由于噪声引起的呈现多种形式的关键词位置,并忽略无关的符号;串频统计单元,用于以字(汉语,日语)或者词(英语)为递增单元,结合停词和分隔标记规则库,构建和发现候选译文的边界,统计候选译文的特征。所述的候选译文的特征包括候选译文频率,候选译文分布,源词和候选译文的长度比例,源词和候选译文的距离,源词和候选译文之间的关键词、符号和边界信息。所述的候选译文噪声处理装置进一步包括子集冗余识别单元,用于对统计过程中出现的子集噪声进行识别处理;前后缀冗余识别单元,用于对统计过程中出现的前后缀冗余噪声进行识别处理。所述的子集冗余识别单元是指基于排序子集删除法来识别子集冗余的子集冗余识别单元,用于将候选译文按照先熵值排序、然后长度排序和词典序排序的方式进行排序;并在排序的候选译文中,判断后面项是否是前面项的子集再加上利用分析出的边界和长度比例特征信息来识别子集项。所述的前后缀冗余识别单元是指基于互信息方法来识别前后缀冗余的前后缀冗余识别单元本文档来自技高网
...

【技术保护点】
一种基于数据挖掘获取词或词组单元译文信息的系统,包括:输入装置,用于输入词或词组单元;其特征是还包括:候选译文统计装置,根据输入所述的词或词组单元后返回的电子文档和网页构建候选译文、发现候选译文的边界、统计候选译文的特征;候 选译文噪声处理装置,用于对所述候选译文统计装置形成的噪声进行识别和处理;候选译文评价装置,根据所述候选译文统计装置得到的候选译文的特征,对每个可能的候选译文进行评价排序;候选译文典型例句挖掘装置,用于在Web上挖掘出所述候选 译文的典型例句,并根据其典型程度进行排序;输出装置,用于输出所述词或词组单元在另一种语言中按权值大小排列的候选译文列表,及典型例句。

【技术特征摘要】

【专利技术属性】
技术研发人员:方高林于浩西野文人
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1