一种基于LSTM的混合语料分词方法技术

技术编号:17878811 阅读:88 留言:0更新日期:2018-05-06 00:39
本发明专利技术公开了一种基于LSTM的混合语料分词方法。本方法为:将训练混合语料数据转化为字符级的混合语料数据;将该混合语料数据按照句子长度划分,得到若干句子;然后根据句子长度对得到的句子分组,得到包括n组句子的数据集合;从该数据集合中抽取若干数据作为迭代数据;将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM,训练该深度学习模型LSTM的参数,当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数,则终止深度学习模型的训练,得到训练后的深度学习模型LSTM;将待预测的混合语料数据转换成转化为字符级的语料数据,并将其送入训练好的深度学习模型LSTM,得到分词结果。

A hybrid word segmentation method based on LSTM

The invention discloses a hybrid corpus segmentation method based on LSTM. This method is to convert the mixed corpus data into the character level mixture data, and divide the mixed data according to the sentence length to get some sentences, and then group the sentences according to the length of the sentence, and get the data set including the N group sentences; extract a number of data from the data set as an iteration. Data are converted into a fixed length vector into the depth learning model LSTM, and the parameters of the depth learning model LSTM are trained. When the loss value iteration of the depth learning model is less than the set threshold or the maximum number of iterations, then the training of the depth learning model is trained and trained. After the practice of the depth learning model LSTM, the mixed data to be predicted is converted into character level data, and it is sent to the trained depth learning model, LSTM, to get the result of the word segmentation.

【技术实现步骤摘要】
一种基于LSTM的混合语料分词方法
本专利技术属于计算机软件
,涉及一种基于LSTM的混合语料分词方法。
技术介绍
混合语料,在本专利中,指的是训练或者预测的数据中包含了至少两种语言的语料数据。分词(WordSegment)是指对输入连续字符串按照语义的信息将其标注成连续的标签序列。在本专利中,指的对亚洲类型的文字(简体中文、繁体中文、韩文和日文)序列数据切分成一个个单独的词,并以空格作为其词与词之间的分割。混合语料的分词的方法涉及的专业知识有两个方面:一方面是将多种语料的数据格式按照字符级别的方式进行统一;另一方面涉及的专业知识主要是自然语言处理中的序列标注(sequentiallabeling)是指将一个序列作为输入,并训练一个模型使其为每一序列片段数据产生正确的输出。对于多种语言的分词方法,传统流程是:多语言输入文本-->(分段或分句)文本语言检查-->分词。对文本语言的检查首先需要确定检查的粒度,是篇章级别的检查,但是对于一篇文档包含多个两种或以上语言就会出现检测不准确,从而仅仅处理一种语言而忽略另一种语言。此时就需要进行更细粒度的划分,分段本文档来自技高网...
一种基于LSTM的混合语料分词方法

【技术保护点】
一种基于LSTM的混合语料分词方法,其步骤包括:1)将训练混合语料数据Original转化为字符级的混合语料数据New_Data;2)将该混合语料数据New_Data按照句子长度划分,得到若干句子;然后根据句子长度对得到的句子进行分组,得到包括n组句子的数据集合GroupData;3)从该数据集合GroupData中抽取若干数据作为迭代数据;4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM,训练该深度学习模型LSTM的参数,当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数,则终止深度学习模型的训练,得到训练后的深度学习模型LSTM;5)将待预测的混合语...

【技术特征摘要】
1.一种基于LSTM的混合语料分词方法,其步骤包括:1)将训练混合语料数据Original转化为字符级的混合语料数据New_Data;2)将该混合语料数据New_Data按照句子长度划分,得到若干句子;然后根据句子长度对得到的句子进行分组,得到包括n组句子的数据集合GroupData;3)从该数据集合GroupData中抽取若干数据作为迭代数据;4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM,训练该深度学习模型LSTM的参数,当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数,则终止深度学习模型的训练,得到训练后的深度学习模型LSTM;5)将待预测的混合语料数据转换成转化为字符级的语料数据,并将其送入训练好的深度学习模型LSTM,得到分词结果。2.如权利要求1所述的方法,其特征在于,该固定长度等于该深度学习模型LSTM中的同一LSTM层的LSTM单元个数。3.如权利要求2所述的方法,其特征在于,产生该损失值的方法为:31)将迭代数据在深度学习模型LSTM的字符向量量化层进行向量化,将迭代数据中的每个字符转换成一向量;32)将该迭代数据中的每一字符对应的向量分别传入该深度学习模型LSTM中第一LSTM层的一LSTM单元,获得分词中字符的特征,且将第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入;然后将该第一层LSTM的输出输入到该深度学习模型LSTM中第二LSTM层,获得分词中词的特征,且将第二层LSTM...

【专利技术属性】
技术研发人员:岳永鹏唐华阳
申请(专利权)人:北京知道未来信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1