模型训练方法、识别方法、装置及计算设备制造方法及图纸

技术编号：23533862 阅读：30 留言：0更新日期：2020-03-20 08:03

本申请实施例提供一种模型训练方法、识别方法、装置及计算设备。其中，确定输入样本的输入序列；将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；将所述输出样本的词干序列及词尾序列作为输出序列；基于所述输入序列及所述输出序列训练获得编码‑解码结构的识别模型。利用该识别模型基于待处理对象对应的源序列，可以分别对目标序列进行词干预测以及词尾预测，进而再将词干以及词尾进行合并即可以构成一个完整词，得到目标序列中每个词，通过词干以及词尾划分，可以解决由于语言形态变化产生的集外词带来的数据稀疏问题，从而提高模型训练准确度，提高模型识别准确度。

Model training method, identification method, device and computing equipment

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、识别方法、装置及计算设备
本申请实施例涉及机器学习领域，尤其涉及一种模型训练方法、识别方法、装置及计算设备。
技术介绍
神经网络机器翻译(NeuralMachineTranslation,NMT)模型是一种用于机器翻译的学习模型，其采用Encoder-Decoder(编码-解码)框架实现。Encoder-Decoder框架能够解决序列到序列(sequencetosequence)的转换问题，编码器负责将输入序列进行编码，解码器负责将编码信息再转化为输出序列，在NMT中，编码器即负责将源语言序列，也即源语言语句中的单词构成的序列，进行编码，提取出源语言序列中的上下文信息，通过解码器再将上下文信息转换为目标语言序列，从而完成语言翻译。但是，NMT模型受限于其可以使用的词汇表大小，经常会遇到集外词(outofvocabularyword,OOV)的情况，集外词在训练语料中往往采用同一个标记，如“<UNK>”，替代，如果训练语料中出现过多的“<UNK>”，就会影响模型训练的准确度...

【技术保护点】
1.一种模型训练方法，其特征在于，包括：/n确定输入样本的输入序列；/n将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；/n将所述输出样本的词干序列及词尾序列作为输出序列；/n基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：
确定输入样本的输入序列；
将输出样本的每个词切分为词干及词尾，获得所述输出样本的词干序列及词尾序列；
将所述输出样本的词干序列及词尾序列作为输出序列；
基于所述输入序列及所述输出序列训练获得编码-解码结构的识别模型。

2.根据权利要求1所述的方法，其特征在于，所述识别模型用于基于待处理对象的源序列，预测构成目标序列的每个词的词干及词尾，并将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。

3.根据权利要求1所述的方法，其特征在于，所述将输出样本的每个词切分为词干以及词尾，获得所述输出样本对应的词干序列及词尾序列包括：
确定输出样本对应的词序列；
将所述词序列中的每个词进行形态分析，获得每个词的词干以及词尾；
分别将每个词的词干以及词尾按照词序列中的每个词出现顺序，排列形成词干序列以及词尾序列；其中，所述词干序列与所述词尾序列中的词干以及词尾一一对应。

4.根据权利要求1所述的方法，其特征在于，所述基于所述输入序列及所述输出序列训练编码-解码结构的识别模型包括：
基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息；
基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器。

5.根据权利要求4所述的方法，其特征在于，所述基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列的上下文信息包括：
基于所述输入序列训练所述识别模型的编码器，以获得所述输入序列对应输出序列每个时间步的上下文信息；
所述基于所述上下文信息、所述词干序列、所述词尾序列及解码器隐藏状态，训练所述识别模型的解码器包括：
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及前一时间步的词干作为第一输入内容、以及将当前时间步的词干作为所述第一输入内容的第一输出结果；
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果；
基于所述第一输入内容和所述第一输出结果，以及所述第二输入内容和所述第二输出结果，训练所述识别模型的解码器。

6.根据权利要求5所述的方法，其特征在于，所述将当前时间步的上下文信息、当前时间步的解码器隐藏状态、以及当前时间步的词干作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果包括：
将当前时间步的上下文信息、当前时间步对应词干的解码器隐藏状态、当前时间步的词干、以及前一时间步的词尾作为第二输入内容、以及将当前时间步的词尾作为所述第二输入内容的第二输出结果。

7.根据权利要求1所述的方法，其特征在于，所述输入样本为文本；所述确定输入样本的输入序列包括：
将所述输入样本的每个的词进行形态分析，获得所述输入样本对应的词干序列及词尾序列；
将所述输入样本对应的词干序列及词尾序列作为输入序列。

8.根据权利要求1所述的方法，其特征在于，所述输入样本为源语言训练语句；所述输出样本为所述源语言训练语句对应的目标语言训练语句。

9.一种识别方法，其特征在于，包括：
确定待处理对象的源序列；
基于所述源序列，利用识别模型预测构成目标文本的每个词的词干及词尾；其中，所述识别模型为编码-解码结构，基于输入样本的输入序列及输出样本的输出序列训练获得；所述输出序列包括输出样本的词干序列以及词尾序列；
将构成所述目标序列的每个词的词干及词尾合并以获得所述目标序列。<...

【专利技术属性】
技术研发人员：宋楷，于恒，骆卫华，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人