一种双语平行数据一致性检测与纠正方法技术

技术编号:24207981 阅读:24 留言:0更新日期:2020-05-20 15:30
本发明专利技术公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明专利技术对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。

A method of bilingual parallel data consistency detection and correction

【技术实现步骤摘要】
一种双语平行数据一致性检测与纠正方法
本专利技术涉及机器翻译领域,具体为一种双语平行数据一致性检测与纠正方法。
技术介绍
近年来,使用深度神经网络构建的机器翻译系统,简称神经机器翻译技术,成为目前人工智能方向的主流。但是,作为一种具有超强学习能力的神经网络模型,神经机器翻译模型在训练的过程中往往需要依赖大规模的双语平行语料进行支撑。总体来说,双语数据语料质量的好坏将严重影响着神经机器翻译模型性能。但是,随着目前互联网技术的发展,网络上虽然存在大量的非结构化双语平行数据,但其质量并不能得到保证,而在现有的双语平行语料中,除去句子互译性极差的句对之外,如语种错误、句子严重漏译等问题,数据中的噪声主要来自于其中的一些微小的问题,但是这也将对神经机器翻译模型的训练效果产生严重影响。在以往的研究工作中,基于神经机器翻译双语平行语料的有关工作中的一项重要任务数据一致性处理,对于数据中存在的某些实体对应不一致、单词黏连、序号不一致等情况,利用一般的检测方法很难正确识别出这些问题,原因是这些问题对于某些自动化句子互译性评估指标的影响往往是微小的。但是,本文档来自技高网...

【技术保护点】
1.一种双语平行数据一致性检测与纠正方法,其特征在于包括以下步骤:/n1)在公开数据集网站中获取指定语种方向的双语平行语料公开数据集作为数据一致性纠正的基础数据集,在基础数据集中分别以源语言以及目标语句子分别组成单语数据集,作为后续句子一致性纠正规则学习的主要数据集;/n2)使用开源的单词切分技术,对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并使用经过分词后的数据集组成最终经过分词后的双语平行数据集;/n3)使用fast_align词对齐技术对分词后的双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系;/n4)根据分词后双语平行数据集,对每一个句子中出现的...

【技术特征摘要】
1.一种双语平行数据一致性检测与纠正方法,其特征在于包括以下步骤:
1)在公开数据集网站中获取指定语种方向的双语平行语料公开数据集作为数据一致性纠正的基础数据集,在基础数据集中分别以源语言以及目标语句子分别组成单语数据集,作为后续句子一致性纠正规则学习的主要数据集;
2)使用开源的单词切分技术,对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并使用经过分词后的数据集组成最终经过分词后的双语平行数据集;
3)使用fast_align词对齐技术对分词后的双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系;
4)根据分词后双语平行数据集,对每一个句子中出现的命名实体对应关系进行出现频率统计,同时,利用词汇对应关系进行辅助判断,得出实体对应表;利用该实体对应表进行句子命名实体一致性纠正;
5)根据获取得到的分词后的双语平行数据集,判断句对间是否存在序号不一致性情况,如果存在不一致情况,则对出现序号不一致情况的句对进行纠正,保证最终经过处理后的数据互译性;
6)根据获取得到的词汇对应关系,在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;同时,对检测到的存在括号内容不一致性进行评估,由最终评估结果决定括号内容的对应情况并给出修正或删除操作;
7)从获取得到的分词后双语平行数据集中的数据实际情况出发,获取数据中出现的单词粘连情况并进行拆分修正,在修正前判别当前问题位置的可拆分性,最大限度地保证拆分准确性,保证数据质量;
8)对基础数据集中的全部句对进行上述一致...

【专利技术属性】
技术研发人员:杜权李自荐朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1