一种文本数据的对齐方法和装置制造方法及图纸

技术编号:7786414 阅读:224 留言:0更新日期:2012-09-21 07:29
本发明专利技术提供了一种文本数据的对齐方法及装置,该方法包括:获取第一语言文本数据和第二语言文本数据;对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言文本数据的相似度;根据相似度对第一语言文本数据和第二语言文本数据进行对齐。通过上述方式,本发明专利技术提供的文本数据的对齐方法及装置基于跨语言主题进行相似度分析,进而可建立高准确度的语料库。

【技术实现步骤摘要】

本专利技术涉及机器翻译领域,特别涉及一种文本数据的对齐方法和装置
技术介绍
基于统计方法的机器翻译、信息检索和信息抽取依赖于双语或多语语料库,在上述语料库中一般包括大量互为对齐的句对。在互联网上,存在大量的可比(comparable)的双语或者多语的语料资源,可通过对上述语料资源进行对齐来形成双语或多语语料库。可比的双语或者多语的语料资源是指用不同的语言和文字描述同一个事件,比如双语或多语新闻就是其中的一个例子。这些可比语料资源可以是完全互为翻译,或者只是在描述相同的事件,但是具体的段落和句子不是--对应的。比如,在中英文维基百科中,“威廉莎士比亚”和“William Shakespeare”的页面内容是对应的比较好的,“色比娃娃”和“barbiedoll”中就只有部分段落是对应的,但是“丑小鸭”和“The Ugly Duckling”中的内容就基本不对应。现有技术中,在对上述可比语料资源进行对齐时,主要根据词典进行标题对齐或者根据文本结构进行对齐,这两种方法的主要缺点就是局限于词典的覆盖率和文本本身的结构,往往会存在不准确的问题。因此,亟需提供一种文本数据的对齐方法和装置,以解决上述问题。
技术实现思路
本专利技术所要解决的技术问题是提供一种文本数据的对齐方法和装置,通过获取不同语言的文本数据的跨语言主题,并对跨语言主题进行相似度分析,以建立高准确度的语料库。本专利技术为解决技术问题而采用的技术方案是提供一种文本数据的对齐方法,对齐方法包括a.获取第一语言文本数据和第二语言文本数据;b.对第一语言文本数据和第二语言文本数据进行跨语言语义分析,以获取多个跨语言主题;c.计算第一语言文本数据属于每一跨语言主题的概率,以形成第一特征向量,并计算第二语言文本数据属于每一跨语言主题的概率,以形成第二特征向量;d.根据第一特征向量和第二特征向量计算第一语言文本数据和第二语言数据的相似度;e.根据相似度对第一语言文本数据和第二语言文本数据进行对齐。根据本专利技术之一优选实施例,在步骤b中,利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取多个跨语言主题。根据本专利技术之一优选实施例,在步骤d中,根据如下公式计算相似度本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本数据的对齐方法,其特征在于,所述对齐方法包括 a.获取第一语言文本数据和第二语言文本数据; b.对所述第一语言文本数据和所述第二语言文本数据进行跨语言语义分析,以获取多个跨语目主题; c.计算所述第一语言文本数据属于每一所述跨语言主题的概率,以形成第一特征向量,并计算所述第二语言文本数据属于每一所述跨语言主题的概率,以形成第二特征向量; d.根据所述第一特征向量和所述第二特征向量计算所述第一语言文本数据和所述第二语言文本数据的相似度; e.根据所述相似度对所述第一语言文本数据和所述第二语言文本数据进行对齐。2.如权利要求I所述的文本数据的对齐方法,其特征在于,在所述步骤b中,利用跨语言概率潜在语义分析方法或跨语言隐含狄利克雷分配方法获取所述多个跨语言主题。3.如权利要求I所述的文本数据的对齐方法,其特征在于,在所述步骤d中,根据如下公式计算所述相似度4.如权利要求I所述的文本数据的对齐方法,其特征在于,在所述步骤e中,将所述相似度作为一个特征加入机器学习模型中,并利用所述机器学习模型对所述第一语言文本数据和所述第二语言文本数据进行对齐。5.如权利要求4所述的文本数据的对齐方法,其特征在于,在所述步骤e中,所述机器学习模型中进一步包括词典特征和文本结构特征。6.如权利要求I所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本文档,所述第二语言文本数据为第二语言文本文档。7.如权利要求I所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本段落,所述第二语言文本数据为第二语言文本段落。8.如权利要求I所述的文本数据的对齐方法,其特征在于,所述第一语言文本数据为第一语言文本句子,所述第二语言文本数据为第二语言文本句子。9.如权利要求8所述的文本数据的对齐方法,其特征在于,在所述步骤b中,对所述第一语言文本句子和所述第二语言文本句子进行同义词扩展,并对扩展后的所述第一语言文本句子和所述第二语言文本句子进行跨语言语义分析。10.如权利要求9所述的文本数据的对齐方法,其特征在于,在所述步骤b中,所述同义词扩展方法包括语义网络扩展方法、双语词典扩展方法以及语料库扩展方法中的至少一种。11.一种文本数据的对齐装置,其特征在于,所...

【专利技术属性】
技术研发人员:吴华蓝翔沈文竹
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1