一种基于LSTM的分词方法技术

技术编号：17561779 阅读：48 留言：0更新日期：2018-03-28 12:17

本发明专利技术公开了一种基于LSTM的分词方法。本方法为：1)将训练语料数据转化为字符级的语料数据；2)将该语料数据按照句子长度划分，得到若干句子；然后根据句子长度对得到的句子进行分组，得到包括n组句子的数据集合；3)从该数据集合中抽取若干数据作为迭代数据；4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM，训练该深度学习模型LSTM的参数，当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数，则终止深度学习模型的训练，得到训练后的深度学习模型LSTM；5)将待预测的语料数据转换成转化为字符级的语料数据，并将其送入训练好的深度学习模型LSTM，得到分词结果。

A method of word segmentation based on LSTM

The invention discloses a word segmentation method based on LSTM. The method is as follows: 1) the training corpus data into data character level; 2) the data according to the length of sentence division, some sentences; then according to the length of sentence of sentence groups, including group n sentence data set; 3) from the data set from a number of data as iterative data; 4) will be converted to vector data for each iteration of fixed length into the deep learning model LSTM, training the deep learning parameters of the LSTM model, when deep learning model's loss is less than the threshold value iteration changes no longer reduces or reaches a maximum number of iterations is to terminate the deep learning training model, learning model LSTM after training the depth; 5) the data to be predicted converted into data character level, and put it into a good deep learning training model LST M, get the result of the participle.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM的分词方法
本专利技术属于计算机软件
，涉及一种基于LSTM的分词方法。
技术介绍
自然语言处理问题中亚洲类型的文字并非像西文具有天然的空格分隔符，很多西文处理方法并不能直接用于亚洲类型(中文、韩文和日文)文字的处理，这是因为亚洲类型(中文、韩文和日文)必须经过分词的这道工序才能保持和西文一致。因此，分词在亚洲类型文字的处理中是信息处理的基础，其应用场景包括：1.搜索引擎：搜索引擎中一个重要的功能就是做文档的全文索引，其内容是将文字进行分词，然后将文档的分词结果和文档形成一个倒排索引，用户在查询的时候也是先将查询的输入语句进行分词，而后将分词的结果和索引数据库进行对比，从而找出与当前输入最为相似的文档。2.自动摘要生成：自动摘要是指将一篇较长的文档用一段较短的语言文字去总结。而在总结的过程中，就需要计算一篇文档中关键词，因此在计算关键词之前必须先对文档做分词处理。3.自动校对：自动校对是指对一段文字作语法错误的检查，其检查的粒度还是基于词的方式做的检查，因此需要将用户输入的连续文字做分词处理。传统的分词方法可以分为基于词典的分词，基于词频统计的方法以及基于知识的方法；基于词典的分词严重依赖于词典库，词频统计的HMM(隐马尔可夫)和CRF(条件随机场)其只能关联当前词的前一个词的语义。基于知识的人工神经网络模型因模型训练时的梯度消失问题，在实际的应用中网络层数少，最终分词结果优势不明显。基于词典的分词方法严重依赖于词典库，效率比较低，且不能够识别未登录词；本专利技术中登录词指的是已经出现在语料词表中的词，未登录词指的是没有出现在语料词表...
一种基于LSTM的分词方法

【技术保护点】
一种基于LSTM的分词方法，其步骤包括：1)将训练语料数据Original转化为字符级的语料数据New_Data；2)将该语料数据New_Data按照句子长度划分，得到若干句子；然后根据句子长度对得到的句子进行分组，得到包括n组句子的数据集合GroupData；3)从该数据集合GroupData中抽取若干数据作为迭代数据；4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM，训练该深度学习模型LSTM的参数，当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数，则终止深度学习模型的训练，得到训练后的深度学习模型LSTM；5)将待预测的语料数据转换成转化为字符级的语料数据，并将其送入训练好的深度学习模型LSTM，得到分词结果。

【技术特征摘要】
1.一种基于LSTM的分词方法，其步骤包括：1)将训练语料数据Original转化为字符级的语料数据New_Data；2)将该语料数据New_Data按照句子长度划分，得到若干句子；然后根据句子长度对得到的句子进行分组，得到包括n组句子的数据集合GroupData；3)从该数据集合GroupData中抽取若干数据作为迭代数据；4)将每次的迭代数据转换为固定长度的向量送入深度学习模型LSTM，训练该深度学习模型LSTM的参数，当深度学习模型产生的损失值迭代变化小于设定阈值不再降低或者达到最大迭代次数，则终止深度学习模型的训练，得到训练后的深度学习模型LSTM；5)将待预测的语料数据转换成转化为字符级的语料数据，并将其送入训练好的深度学习模型LSTM，得到分词结果。2.如权利要求1所述的方法，其特征在于，该固定长度等于该深度学习模型LSTM中的第一层LSTM层的LSTM单元个数。3.如权利要求2所述的方法，其特征在于，产生该损失值的方法为：31)将迭代数据在深度学习模型LSTM的字符向量量化层进行向量化，将迭代数据中的每个字符转换成一向量；32)将该迭代数据中的每一字符对应的向量分别传入该深度学习模型LSTM中第一LSTM层的一LSTM单元，获得分词中字符的特征，且将第一层LSTM第i个LSTM单元的输出同时作为第一层LSTM第i+1个LSTM单元的输入；然后将该第一层LSTM的输出输入到该深度学习模型LSTM中第二LSTM层，获得分词中词的特征，且将第二层LSTM第i个LS...

【专利技术属性】
技术研发人员：岳永鹏，唐华阳，
申请(专利权)人：北京知道未来信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人