一种基于众包的双语平行语料对齐方法技术

技术编号:16919225 阅读:284 留言:0更新日期:2017-12-31 14:49
本发明专利技术提供一种基于众包的双语平行语料对齐方法,包括:采集可对齐的篇章级语料,存入对齐数据库中备用;对篇章级语料进行预处理;对预处理后文本进行断句,并按照语句的先后顺序依次编号;将不同语种的断句排列对齐;用户对行单位进行对齐操作;将用户的对齐结果汇入资料池,质检团队对资料池中的资料进行抽检;抽检结果合格的对齐资料存入语料库中,抽检结果不合格的返回给用户重新进行对齐操作。本发明专利技术采用众包方式,将篇章级的双语语料对齐为句对级的双语平行语料,其操作非常简单,用户不必使用繁琐的对齐方式,也不必收发各式各样的文本文件,可以极大的调动语言类人才参与到语言资产的建设中,具有一定程度的社会效益。

【技术实现步骤摘要】
一种基于众包的双语平行语料对齐方法
本专利技术涉及机器翻译

技术介绍
语料库是自然语言处理和机器翻译领域最重要的基础研究资源。其中,双语平行语料库尤为珍贵。目前国内外尚无大规模建设双语平行语料库的先例,主要是因为双语平行语料库的获取难度颇高。双语平行语料库的来源主要有互联网和传统翻译公司的积累。通过互联网采集到的语料,篇章级的双语语料数量占较多的比重。因此,还需要对篇章级语料进行对齐和断句处理,使其成为一句对的标准平行语料,才能应用到业务研究中去。国内外主流做法大多是采用机器对齐的方式,对语料原文进行翻译,设定一种相似度的阈值,一旦翻译结果与译文的相似度达到了阈值,即判定该句对语料是对齐的。如:①原文:今天天气很好,我要出去散步。译文:Theweatherisgoodtoday,I'mgoingforawalk.上述两句话是一对正确的原译文,对机器对齐的方式来说很容易得出它是正确的结果。然而下面的两句话:原文:今天天气很好,我要出去散步。译文:Theweatherisgoodtoday.这种情况下,原文与译文是有50%的相似度的,它有可能导致这个句对通过了机器对齐的评测,但本文档来自技高网...
一种基于众包的双语平行语料对齐方法

【技术保护点】
一种基于众包的双语平行语料对齐方法,其特征是,包括以下步骤:(1)采集可对齐的篇章级语料,存入对齐数据库中备用;(2)以篇为单位,对篇章级语料进行预处理;(3)对预处理后文本进行断句,并按照语句的先后顺序依次编号;(4)将不同语种的断句排列对齐;(5)用户对列单位中的行单位进行对齐操作;(6)将用户的对齐结果汇入资料池,质检团队对资料池中的资料进行抽检;(7)抽检结果合格的对齐资料存入语料库中,抽检结果不合格的返回给用户重新进行对齐操作。

【技术特征摘要】
1.一种基于众包的双语平行语料对齐方法,其特征是,包括以下步骤:(1)采集可对齐的篇章级语料,存入对齐数据库中备用;(2)以篇为单位,对篇章级语料进行预处理;(3)对预处理后文本进行断句,并按照语句的先后顺序依次编号;(4)将不同语种的断句排列对齐;(5)用户对列单位中的行单位进行对齐操作;(6)将用户的对齐结果汇入资料池,质检团队对资料池中的资料进行抽检;(7)抽检结果合格的对齐资料存入语料库中,抽检结果不合格的返回给用户重新进行对齐操作。2.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:王晓东
申请(专利权)人:中译语通科技青岛有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1