双语语料句对齐方法、装置、可读存储介质和计算机设备制造方法及图纸

技术编号:24457796 阅读:36 留言:0更新日期:2020-06-10 16:04
本申请涉及一种双语语料句对齐方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待对齐平行文本及原文文本的语种类型和译文文本的语种类型;对待对齐平行文本进行预处理,获得待对齐平行句对;从通过SentencePiece算法训练的单语分词模型组中调用与原文文本和译文文本的语种类型对应的单语分词模型,进行分词处理,获得待对齐原文的句片段组和待对齐译文的句片段组;根据预设的格式处理方式对待对齐原文和待对齐译文的句片段组进行格式处理,获得双语句对组,调用句对齐工具,根据双语词典,对双语句对组进行句对齐处理,获得句对齐平行语料。通过SentencePiece算法训练的各个语种的单语分词模型,降低了代码的耦合度与维护难度,降低了维护成本。

Sentence alignment methods, devices, readable storage media and computer equipment for bilingual corpora

【技术实现步骤摘要】
双语语料句对齐方法、装置、可读存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种双语语料句对齐方法、装置、计算机可读存储介质和计算机设备。
技术介绍
在对篇章级对齐的双语平行语料中进行句级别对齐时,一种可行的做法是利用句长信息及词汇信息判断两种语言平行语料中各个句子的相似程度。譬如,如果两个句子的长度相差较大,则两个句子的相似度较低,为平行句对的可能性也就较小。又或者,如果两个句子同时包含相同的数字,或包含相同的字母串,则两个句子的相似程度较高,两者为平行句对的可能性也就越高。以及,当两句话中包含同一个概念在两种语言中的单词,则两种语言的相似度也更高,譬如英文句子包含“Framework”而中文包含“框架”。基于此对齐逻辑,通用的处理流程是先对两种语言的句对分别进行令牌化,令牌化操作等价于对句子进行分词操作,亦即将连贯的一句话拆解为一个个的词语,并提供预先生成或抽取好的双语词典作为辅助信息进行对齐。如果未能提供已有的双语词典,则可以使用句长法对语料进行初步对齐后,再对已经初步对齐的语料抽取双语词典,利用双语词典进行第二次的对齐。但针对多个语种的待对齐语料进行对齐时,需要在一台服务器上部署各个语种对应的分词工具,以实现抽取不同语种的双语词典,对不同语种的待对齐语料进行对齐。以Python为例,中文的可以使用jieba,日语的可以使用mecab,韩语则可以使用mecab的ko扩展等。不同分词工具,不仅依赖于不同的运行环境(比如mecab需要额外的C++支持,mecab的ko拓展更是只可以运行在python3.7版本下),而且还需要各自加载自身不同的依赖词典文件。因此,使得代码的耦合程度大幅度提高,维护成本较高。
技术实现思路
基于此,有必要针对双语语料句对齐的维护成本高的问题,提供一种双语语料句对齐方法、装置、计算机可读存储介质和计算机设备。一种双语语料句对齐方法,包括:获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;对所述待对齐平行文本进行预处理,获得待对齐平行句对;从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;根据预设的格式处理方式对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;所述单语分词模型的训练方式包括:获取与待训练单语分词模型的语种类型对应单语数据;对所述单语数据进行预处理,获得单语数据样本;通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。在其中一个实施例中,双语词典的训练方式包括:从句对齐平行语料库中获取与待训练双语词典的语种类型对应的句对齐平行语料样本,所述待训练双语词典的语种类型包括原文语料的语种类型和译文语料的语种类型;对所述句对齐平行语料样本进行预处理,得到句对齐平行语料对;从所述单语分词模型组中调用与所述原文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的原文语料进行分词处理,获得样本原文的句片段组;从所述单语分词模型组中调用与所述译文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的译文语料进行分词处理,获得样本译文的句片段组;根据所述预设的格式处理方式,对所述样本原文的句片段组和所述样本译文的句片段组进行格式处理,获得双语句对样本组;通过双语词对抽取算法对所述双语句对样本组进行对齐,获得双语词典。在其中一个实施例中,所述预设的格式处理方式,包括:获取待格式处理的句片段组;检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。在其中一个实施例中,所述预设的格式处理方式,包括:获取待格式处理的句片段组以及对应的语种类型;根据句片段组的语种类型,确定所述句片段组是否属于格式处理对象;当所述句片段组属于格式处理对象时,检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。在其中一个实施例中,所述调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料的步骤之后,还包括:基于预设的过滤条件对所述句对齐平行语料进行过滤,获得过滤后的句对齐平行语料。在其中一个实施例中,所述预设的过滤条件包括以下条件中的至少一种:分析所述句对齐平行语料中是否存在对空的句子,过滤所述句对齐平行语料中对空的句子;根据预设值过滤所述句对齐平行语料中得分小于预设值的句子;根据所述原文文本的语种类型和所述译文文本的语种类型,过滤掉所述句对齐平行语料中语种类型不符合的句子;根据数字等特征,过滤所述句对齐平行语料中不符合数字等特征的句子。在其中一个实施例中,还包括:将所述句对齐平行语料添加至所述句对齐平行语料库中。一种双语语料句对齐装置,包括:平行文本获取模块,用于获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;预处理模块,用于对所述待对齐平行文本进行预处理,获得待对齐平行句对;第一分词处理模块,用于从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;第二分词处理模块,用于从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;格式处理模块,用于根据预设的格式处理方式对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;双语词典获取模块,用于基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;句对齐处理模块,用于调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;其中,所述单语分词模型的训练方式包括:获取与待训练单语分词模型的语种类型对应单语数据;对所述单语数据进行预处理,获得单语数据样本;通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储本文档来自技高网
...

【技术保护点】
1.一种双语语料句对齐方法,包括:/n获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;/n对所述待对齐平行文本进行预处理,获得待对齐平行句对;/n从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;/n从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;/n根据预设的格式处理方式,对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;/n基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;/n调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;/n所述单语分词模型的训练方式包括:/n获取与待训练单语分词模型的语种类型对应单语数据;/n对所述单语数据进行预处理,获得单语数据样本;/n通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。/n

【技术特征摘要】
1.一种双语语料句对齐方法,包括:
获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;
对所述待对齐平行文本进行预处理,获得待对齐平行句对;
从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;
从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;
根据预设的格式处理方式,对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;
基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;
调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;
所述单语分词模型的训练方式包括:
获取与待训练单语分词模型的语种类型对应单语数据;
对所述单语数据进行预处理,获得单语数据样本;
通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。


2.根据权利要求1所述的方法,其特征在于,双语词典的训练方式包括:
从句对齐平行语料库中获取与待训练双语词典的语种类型对应的句对齐平行语料样本,所述待训练双语词典的语种类型包括原文语料的语种类型和译文语料的语种类型;
对所述句对齐平行语料样本进行预处理,得到句对齐平行语料对;
从所述单语分词模型组中调用与所述原文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的原文语料进行分词处理,获得样本原文的句片段组;
从所述单语分词模型组中调用与所述译文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的译文语料进行分词处理,获得样本译文的句片段组;
根据所述预设的格式处理方式,对所述样本原文的句片段组和所述样本译文的句片段组进行格式处理,获得双语句对样本组;
通过双语词对抽取算法对所述双语句对样本组进行对齐,获得双语词典。


3.根据权利要求1或2所述的方法,其特征在于,所述预设的格式处理方式,包括:
获取待格式处理的句片段组;
检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。


4.根据权利要求1或2所述的方法,其特征在于,所述预设的格式处理方式,包括:
获取待格式处理的句片段组以及对应的语种类型;
根据句片段组的语种类型,确定所述句片段组是否属于格式处理对象;
当所述句片段组属于格式处理对象时,检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。

【专利技术属性】
技术研发人员:鲁思祈
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1