语料文件的处理方法及装置制造方法及图纸

技术编号:24354710 阅读:21 留言:0更新日期:2020-06-03 02:18
本发明专利技术的实施例提供一种语料文件的处理方法及装置。其中方法包括:获取语料文件;将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;获取所述目标语种语料文件与所述其它语种语料文件集的相似度;根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。本发明专利技术的方案可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。

Processing method and device of corpus file

【技术实现步骤摘要】
语料文件的处理方法及装置
本专利技术涉及语料的处理
,特别是指一种语料文件的处理方法及装置。
技术介绍
对于海量的多语单文稿或者多语多文稿,有海量的多语语料对,基于此语料对,可以一方面可以补充自己的多语语料库,另一方面可以作为机器翻译的训练集。但是现有翻译稿件并未严格按照句句对应或者段段对照的方式进行翻译,或者有些工程图纸翻译根本就是混乱格式,这种情况下自动提取稿件中双语语料的难度非常大,甚至需要大量的人工去处理对齐语料,需要耗费大量的人力物力。存在成本高、效率底和耗时间等问题。
技术实现思路
本专利技术提供了一种语料文件的处理方法及装置。可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。为解决上述技术问题,本专利技术的实施例提供如下方案:一种语料文件的处理方法,包括:获取语料文件;将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第本文档来自技高网...

【技术保护点】
1.一种语料文件的处理方法,其特征在于,包括:/n获取语料文件;/n将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;/n对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;/n对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;/n获取所述目标语种语料文件与所述其它语种语料文件集的相似度;/n根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。/n

【技术特征摘要】
1.一种语料文件的处理方法,其特征在于,包括:
获取语料文件;
将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;
对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;
对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;
获取所述目标语种语料文件与所述其它语种语料文件集的相似度;
根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。


2.根据权利要求1所述的语料文件的处理方法,其特征在于,获取语料文件包括:
获取多语混合文件,所述多语混合文件的语种为至少两种不同的语种。


3.根据权利要求1所述的语料文件的处理方法,其特征在于,获取语料文件包括:
获取多个单语种文件,所述多个单语种文件中至少一个的语种与其它文件的语种不同。


4.根据权利要求1所述的语料文件的处理方法,其特征在于,对所述语料文件进行语种识别,得到至少两个语种集,包括:
对所述语料文件的句子进行语种识别,得到识别结果;
将所述识别结果中的将第一语种的句子存储在一个集合中,得到第一语种语料文件集;
将所述识别结果中的非第一语种的句子存储在另一集合中,得到其它语种语料文件集。


5.根据权利要求4所述的语料文件的处理方法,其特征在于,对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件,包括:
对所述第一语种语料文件集中的句子进行机器翻译,得到目标语种语料文件的句子,所述目标语种语料文件的...

【专利技术属性】
技术研发人员:陈海龙
申请(专利权)人:北京海兰信数据科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1