词表构建方法、机器翻译方法及其装置、设备与介质制造方法及图纸

技术编号:29675083 阅读:40 留言:0更新日期:2021-08-13 21:57
本申请公开一种词表构建方法、机器翻译方法及其装置、设备与介质,所述词表构建方法包括:对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;裁剪词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使词表适于训练机器翻译神经网络模型。本申请能有效优化用于训练机器翻译神经网络模型的词表,构造大小适中的词表,降低词表的占用内存,同时提升神经网络模型的训练及翻译效率。

【技术实现步骤摘要】
词表构建方法、机器翻译方法及其装置、设备与介质
本申请涉及机器翻译
,尤其涉及一种词表构建方法、一种机器翻译方法,此外还涉及该些方法相应的装置、设备以及非易失性存储介质。
技术介绍
随着技术的发展和交流的需要,机器翻译已经深切地融入到我们的生活。目前基于端到端生成模型的机器翻译,均需通过构造基础词表,将文本信息向量化表示,以便现有的神经网络模型识别词表中的文本信息进行翻译训练,为相应的翻译业务提供机器翻译服务。现有的词表构造方式中,大多数是使用现有的切词器完成词表的词组切分处理,例如,可使用LTP切词器、THULAC切词器或jieba切词器等对文本进行切词处理,以构成相应的词表,但仅使用现有切词器完成词表的词组切分处理,往往会导致词表储存的词组过大,且面对特定领域时,如电商领域,进行切词的文本中中英混杂,且包含大量无意愿的品牌词及型号词,使词表中储存着大量无意义的词组,严重影响神经网络模型的训练效率,机器翻译速度均会极大降低,占用的机器资源,内存损耗等都会急剧增加,翻译成本也随着增加。虽然通过BPE,subword等切词方本文档来自技高网...

【技术保护点】
1.一种词表构建方法,其特征在于,包括如下步骤:/n对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;/n将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;/n根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;/n裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。/n

【技术特征摘要】
1.一种词表构建方法,其特征在于,包括如下步骤:
对原语料进行切词,将切词所得词组构造为语料仓库,该语料仓库包含多个中文词组及非中文词组;
将所述语料仓库中的每个非中文词组以字符为单位切分替换为多个非中文词组;
根据所述语料仓库构造词表,所述词表储存所述语料仓库中各个词组及其所出现的词频之间的对应关系数据,各词组之间按其词频降序排序;
裁剪所述词表,将词频排序靠后的不满足预设条件的部分词组从词表中移除,以使所述词表适于训练机器翻译神经网络模型。


2.根据权利要求1所述的方法,其特征在于,还包括如下前置步骤
获取海量的原始语料进行数据预处理以形成所述的原语料,使该原语料移除了所述原始语料所包含的特定字符,形成规范文本。


3.根据权利要求1所述的方法,其特征在于,根据所述语料仓库构造词表,包括:
对语料仓库中的中文词组及非中文词组,以词组为单位进行分类汇总,汇总统计出各个词组在语料仓库中的频数,确定为各个词组的词频;
将每个词组与其词频之间的对应关系数据唯一性存储于词表中;
根据所述词频的大小,将所述词表中的各个词组进行降序排序。


4.根据权利要求1所述的方法,其特征在于,将词频排序靠后的不满足预设条件的部分词组从词表中移除的步骤,包括如下任意之一:
将词频低于预定数值的词组视为不满足预设条件而从词表中移除;
将词组总量超过预定数值后的词组视为不满足预设条件而从词表中移除;
将词组内存尺寸超过预定数值后所依附的词组视为不满足预设条件而从词表中移除。


5.根据权利要求1所述的方法,其特征在于,还包括如下后续步骤:
调用中文字典,将其中所有中文字符作为中文词组...

【专利技术属性】
技术研发人员:钟裕滨庞磊
申请(专利权)人:广州欢聚时代信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1