当前位置: 首页 > 专利查询>微软公司专利>正文

对齐分层和顺序文档树以标识并行数据制造技术

技术编号:5405337 阅读:251 留言:0更新日期:2012-04-11 18:40
基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档,并导致对并行文档的递归挖掘。

【技术实现步骤摘要】
【国外来华专利技术】对齐分层和顺序文档树以标识并行数据祖旦 冃豕此处所使用的并行双语语料库指的是被标识为第二语言的文本数据译 文的第一语言的文本数据。出于示例的目的,此处所讨论的文本数据是文 档,但也可使用其它文本数据。在一个文档是另一个文档的译文时,两个文档被称为并行的双语文档。 因此,并行的双语语料库指的是作为第二语言的数据的语料库的译文的第 一语言的数据的语料库。在一组并行文档中,通常标识那些文档中互为译文的句子。这些句子 被称为对齐的句子。因此,如果第一语言的文档与第二语言的并行文档相 一致,并且两文档中的句子互相对齐(这表现在第一语言的句子与其第二 语言的译文相对齐),则这两个文档被称为并行的、句子对齐的双语语料 库。当前对并行的双语语料库有广泛的需求。例如,这些语料库通常是用 于训练统计机器翻译系统以及用于执行跨语言信息检索的关键资源。另外, 某些这种语料库甚至被用于各种单语自然语言处理任务,如字义消歧和释 义获取。然而,对于大多数语言对而言,当前不易获得大规模的并行语料库。 即使是在某些语料库可用的那些语言中,那些语料库中的数据也通常限于 政府公文或新闻专线文本。对于不同语言对中的各种域而言本文档来自技高网...

【技术保护点】
一种从可通过网络(104)访问的一个或多个较大语料库(102)中标识并行的双语语料库的方法,包括: 选择第一语言的第一数据子集和第二语言的第二数据子集(140);获得对应于所述第一和第二数据子集的每一个的树结构(230)(147),每一树结构(230)都具有表示所述对应的数据子集的分层地和顺序地安排的节点(202-236); 根据分层地和顺序地不变的对齐来对齐所述对应于所述数据子集的每一个的树结构(230)(148); 基于所述树结构(230)的对齐(148)来标识所述数据子集的并行文本片段(150)(148);以及 输出所述并行文本片段(150)的指示(154)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M周C牛L施
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1