一种机器翻译的语料分词预处理方法技术

技术编号:34471351 阅读:12 留言:0更新日期:2022-08-10 08:45
本发明专利技术公开了一种机器翻译的语料分词预处理方法,涉及机器翻译预处理技术领域,解决现有分词预处理中单词浪费占位和分词粒度大的问题,包括以下步骤:对原始语料按语言规则进行数据清洗;对清洗后的语料进行符号标准化处理;对符号标准化后的语料进行分词处理;对语料的字母进行大小写转换以解决字母大小写带来的词表占用问题,得到训练语料;基于BPE算法对训练语料进行分词,得到最优词表;本发明专利技术具有语料包无重复词汇占位且分词粒度小的优点。点。点。

【技术实现步骤摘要】
一种机器翻译的语料分词预处理方法


[0001]本专利技术涉及机器翻译预处理
,更具体的是涉及机器翻译的语料分词预处理方法


技术介绍

[0002]深度学习时代,词表选择基本上是所有自然语言处理任务的第一步。不同词表的选择也影响着最后模型的效果,因为NMT,也就是神经机器翻译系统为了能够控制计算的复杂度,有着一个固定大小的词汇表,通常会将词汇表限制在30k到80k之间。如何构建机器翻译模型的最佳词表是深度学习者们一直在探索的一个问题。
[0003]由于神经机器翻译模型词表的生成以及词汇的训练都非常依赖于原始训练数据的质量和标准化格式。通过训练数据生成的词表要在指定大小范围内能够尽量多的表示出翻译文本中的词。通常情况下,在构建双语模型训练之前,都会对原始数据进行预处理操作使得训练语料的质量和格式保持一致,以此提升模型的学习效果。
[0004]常用的预处理方法有以下缺点和不足:无法解决由单词大小写带来的词表占用问题,比如American's和american's同时存在于词典,China和china也同时占据词表中的两个位置,这样就会造成词典位置浪费,也会增加词表大小;无法解决由同一个词的不同形式带来的词表占用问题;传统词分词方法不利于模型学习词缀之间的关系,比如模型学到的“old”,“older”,and“oldest”之间的关系无法泛化到“smart”,“smarter”,and“smartest;无法解决OOV未登录词的问题;基于词的传统分词方法粒度较大,由于限定词表大小,这就导致了其在翻译未登录词时有着严重的不足;一般对于未出现在该词汇表中的词,NMT系统用UNK标记来替代,会导致NMT系统不仅无法将它们翻译准确,而且破坏了句子的结构特征,最后使得翻译效果很不理想。

技术实现思路

[0005]本专利技术的目的在于:解决现有分词预处理中单词浪费占位和分词粒度大的问题。为了解决上述技术问题,本专利技术提供一种机器翻译的语料分词预处理方法。
[0006]本专利技术为了实现上述目的具体采用以下技术方案:
[0007]一种机器翻译的语料分词预处理方法,包括以下步骤:
[0008]步骤S1:对原始语料按语言规则进行数据清洗;
[0009]步骤S2:对清洗后的语料进行符号标准化处理;
[0010]步骤S3:对符号标准化后的语料进行分词处理;
[0011]步骤S4:对语料的字母进行大小写转换以解决字母大小写带来的词表占用问题,得到训练语料;
[0012]步骤S5:基于训练语料通过BPE算法生成分词用最优词表;利用所述最优词表对单词进行分词。
[0013]优选地,所述步骤S1中所述数据清洗包括:
[0014]去除空行;去除语语料中句末标点未对齐的句子;去除html标记语言;去除转义字符;去除含有第三方语言的句子;去除乱码;对句子进行对齐算法处理,去除对齐效果较差的句子;以原文和译文为key进行去重;将中文繁体转换为简体。
[0015]优选地,所述步骤S2中所述符号标准化处理包括:
[0016]确定特殊符号列表,特殊符号列表内是需要进行标准化处理的特殊符号;对特殊符号进行标准化转换。
[0017]优选地,所述特殊符号包括控制字符、转义字符、URL符号。
[0018]优选地,所述步骤S3中所述分词处理包括:将标点与句子之间以空格分隔开。
[0019]优选地,所述步骤S4中所述大小写转换包括:
[0020]训练truecase模型,truecase模型的功能包括转换大小写字母;
[0021]利用训练好的truecase模型进行大小写转换。
[0022]优选地,所述步骤S5中,生成分词用最优词表包括以下步骤:
[0023]步骤S501:遍历所述训练语料,进行分词,统计每个词出现的频次;
[0024]步骤S502:将每个词拆分成最小单元,即每个字母之间用空格隔开,每个词最后一个字母的后面加上结束符号组合且视为一个字母;
[0025]步骤S503:统计所有字母对出现的频次,得到频次统计表;
[0026]步骤S504:将频次最高的字母对合并且视为一个字母;
[0027]步骤S505:重复步骤S502

S504,直到达到预设的词表大小或者统计出的字母的最高频次低于设定的阈值以后进入步骤S506;
[0028]步骤S506:每次记录合并的频次最高的字母对,存入词表得到最优词表。
[0029]本专利技术的有益效果如下:
[0030]本专利技术对原始语料进行清洗并进行了规范化处理对语料进行了规范,便于后续统一模型处理,提升了分词准确性;利用truecase技术对清洗和标准化的语料进行大小写转换操作,解决因单词大小写造成的词典位置占用浪费;利用BPE算法训练基于子词分分词模型得到粒度较小最优词表;本专利技术可以很好地解决分词中的oov问题。
附图说明
[0031]图1是本专利技术的流程结构示意图。
具体实施方式
[0032]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0033]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]实施例1
[0035]如图1所示,本实施例提供一种机器翻译的语料分词预处理方法,包括以下步骤:
[0036]步骤S1:对原始语料按语言规则进行数据清洗;
[0037]作为本实施例的优选方案,所述步骤S1中所述数据清洗包括:
[0038]去除空行;去除语语料中句末标点未对齐的句子;去除html标记语言;去除转义字符;去除含有第三方语言的句子;去除乱码;对句子进行对齐算法处理,去除对齐效果较差的句子;以原文和译文为key进行去重;将中文繁体转换为简体。
[0039]步骤S2:对清洗后的语料进行符号标准化处理;
[0040]本实施例中,所述步骤S2中所述符号标准化处理包括:
[0041]确定特殊符号列表,特殊符号列表内是需要进行标准化处理的特殊符号;对特殊符号进行标准化转换。
[0042]进一步地,所述特殊符号包括控制字符、转义字符、URL符号。
[0043]以英文的处理为例:
[0044]a)将双引号可能出现的形式
“””

““”
都替换为“"”;
[0045]b)将破折号可能出现的形式
“–”
、“—”都替换为
“‑”
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译的语料分词预处理方法,其特征在于,包括以下步骤:步骤S1:对原始语料按语言规则进行数据清洗;步骤S2:对清洗后的语料进行符号标准化处理;步骤S3:对符号标准化后的语料进行分词处理;步骤S4:对语料的字母进行大小写转换以解决字母大小写带来的词表占用问题,得到训练语料;步骤S5:基于训练语料通过BPE算法生成分词用最优词表;利用所述最优词表对单词进行分词。2.根据权利要求1所述的一种机器翻译的语料分词预处理方法,其特征在于,所述步骤S1中所述数据清洗包括:去除空行;去除语语料中句末标点未对齐的句子;去除html标记语言;去除转义字符;去除含有第三方语言的句子;去除乱码;对句子进行对齐算法处理,去除对齐效果较差的句子;以原文和译文为key进行去重;将中文繁体转换为简体。3.根据权利要求1所述的一种机器翻译的语料分词预处理方法,其特征在于,所述步骤S2中所述符号标准化处理包括:确定特殊符号列表,特殊符号列表内是需要进行标准化处理的特殊符号;对特殊符号进行标准化转换。4.根据权利要求3所述的一种机器翻译的语料分词预处理方法,其特征在于,所述特殊符号包括控制字符、转义字符、URL符号...

【专利技术属性】
技术研发人员:朱宪超陈秋霖霍展羽
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1