对齐分层和顺序文档树以标识并行数据制造技术

技术编号：5405337 阅读：251 留言：0更新日期：2012-04-11 18:40

基于从给定的网络位置（如网站）下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档，并导致对并行文档的递归挖掘。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】对齐分层和顺序文档树以标识并行数据祖旦冃豕此处所使用的并行双语语料库指的是被标识为第二语言的文本数据译文的第一语言的文本数据。出于示例的目的，此处所讨论的文本数据是文档，但也可使用其它文本数据。在一个文档是另一个文档的译文时，两个文档被称为并行的双语文档。因此，并行的双语语料库指的是作为第二语言的数据的语料库的译文的第一语言的数据的语料库。在一组并行文档中，通常标识那些文档中互为译文的句子。这些句子被称为对齐的句子。因此，如果第一语言的文档与第二语言的并行文档相一致，并且两文档中的句子互相对齐(这表现在第一语言的句子与其第二语言的译文相对齐)，则这两个文档被称为并行的、句子对齐的双语语料库。当前对并行的双语语料库有广泛的需求。例如，这些语料库通常是用于训练统计机器翻译系统以及用于执行跨语言信息检索的关键资源。另外，某些这种语料库甚至被用于各种单语自然语言处理任务，如字义消歧和释义获取。然而，对于大多数语言对而言，当前不易获得大规模的并行语料库。即使是在某些语料库可用的那些语言中，那些语料库中的数据也通常限于政府公文或新闻专线文本。对于不同...

【技术保护点】
一种从可通过网络（１０４）访问的一个或多个较大语料库（１０２）中标识并行的双语语料库的方法，包括：　选择第一语言的第一数据子集和第二语言的第二数据子集（１４０）；获得对应于所述第一和第二数据子集的每一个的树结构（２３０）（１４７），每一树结构（２３０）都具有表示所述对应的数据子集的分层地和顺序地安排的节点（２０２－２３６）；　根据分层地和顺序地不变的对齐来对齐所述对应于所述数据子集的每一个的树结构（２３０）（１４８）；　基于所述树结构（２３０）的对齐（１４８）来标识所述数据子集的并行文本片段（１５０）（１４８）；以及　输出所述并行文本片段（１５０）的指示（１５４）。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：M周，C牛，L施，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人