一种基于双向长短时记忆网络模型的中文分词方法技术

技术编号:20118091 阅读:32 留言:0更新日期:2019-01-16 12:07
本发明专利技术公开了一种基于双向长短时记忆网络模型的中文分词方法,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入Bi‑LSTM神经网络模型中进行训练,得到训练集的模型X_Bi‑LSTM模型和msr_Bi‑LSTM模型,然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各标签概率进行计算得到各汉字属于各标签的最终概率,并将概率最大值所属标签作为各汉字的标签,从而完成中文分词,本发明专利技术可获得较好的分词结果,提高了分词的准确率。

A Chinese Word Segmentation Method Based on Bidirectional Long-term and Short-term Memory Network Model

The invention discloses a Chinese word segmentation method based on bidirectional long-term and short-term memory network model. Firstly, the data sets in any field are obtained, and the data sets are divided into training set and test set. Then, the training set is preprocessed, and the preprocessed training set and the open data set MSR of Microsoft Asia Research Institute are embedded into words respectively. Then, the processed training set and data set M are processed. SR is input into Bi LSTM neural network model for training, and the training set model X_Bi LSTM model and msr_Bi LSTM model are obtained. Then the test set is forecasted by X_Bi LSTM model and msr_Bi LSTM model respectively, and the forecasting probability of the two models is weighted to get the probability of each Chinese character label after combination. Then Viterbe algorithm is used to predict the label probability of the combined Chinese characters. The label probability of each Chinese character belongs to each label is calculated, and the label of the maximum probability belongs to each Chinese character is used as the label of each Chinese character, thus completing Chinese word segmentation. The invention can obtain better result of word segmentation and improve the accuracy of word segmentation.

【技术实现步骤摘要】
一种基于双向长短时记忆网络模型的中文分词方法
本专利技术涉及一种基于双向长短时记忆网络模型的中文分词方法,属于自然语言处理领域。
技术介绍
在中文中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率、功能角度看,其还不能满足实际需求。公知的中文分词主要包括四种方法:1.基于词典的分词方法,如吴春颖(<基于二元语法的N-最大概率中文粗分模型>,2007,27(12):2902-2905);2.基于统计的分词方法,如TsengH(<Aconditionalrandomfieldwordsegmenterforsighanbakeoff2005>,2005:168-171);3.基于理解的分词方法,如WuA(<Wordsegmentationinsentenceanalysis>,1998);4.基于神经网络的分词方法,如ZhengX(<DeeplearningforChinesewordsegmentationandPOStagging>,2013)。其中基于词典的分词方法程序简单易行,分词速度快,但是其分词精度受词典的影响很大,而且不能处理歧义词。基于统计的分词方法只有训练语料规模足够大并且覆盖面足够广的情况下才可以获得较高的分词准确率,其新词识别能力相对较弱。基于理解的分词方法的思想是模拟人对句子的理解,在分词的同时进行句法、语义分析,这种方法需要大量的语言知识做支撑。基于神经网络的分词方法借助神经网络自动学习数据特征,避免了传统的分词方法由于人为设置的局限性,但是神经网络模型受上下文窗口大小的影响比较大,当窗口较大时容易引入过多特征带来的杂质信息并容易出现过拟合问题,而且传统的循环神经网络(如RNN)只是依靠句子顺序上的上文信息,并不能利用句子中的未来文本信息。
技术实现思路
本专利技术的目的在于提供一种基于双向长短时记忆网络模型的中文分词方法,本专利技术通过对某一领域内的信息训练来学习领域内的信息特征,对领域外的信息(msr)训练来学习领域外的特征,从而分别获得分词模型,通过以上分词模型对某一领域内信息进行分词时可获得较好的分词结果,提高了分词的准确率。本专利技术的技术方案是:首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。本专利技术方法的具体步骤如下:Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中data数据组包括每一个汉字,label数据组包括每一个汉字对应的标签,然后将data数据组和label数据组分别进行数字化处理,对data数据组的每一个汉字用该汉字第一次出现的顺序的数字表示,并存储在d[‘x’]中,对label数据组的标签用阿拉伯数字进行表示,并存储在d[‘y’]中,然后利用词向量技术将d[‘x’]和d[‘y’]中的数字进行向量转化,每个汉字转化成长度为n的向量,得到各汉字在1~n维度下的概率;Step2:将Step1得到的训练集中的各汉字的向量和各汉字对应的标签的数据输入至Bi-LSTM神经网络模型中进行训练,得到训练集的模型X_Bi-LSTM模型,将数据集msr中的各数据输入至Bi-LSTM神经网络模型中进行训练,得到msr_Bi-LSTM模型;Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分别对测试集中的各汉字的标签进行概率预测,分别得到两种预测概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型对测试集中的各汉字预测的各标签的概率,然后将两种模型的预测概率进行权重组合,得到测试集中各汉字的标签综合预测概率P,公式如下:P=a*P1i+b*P2i;Step4:利用Viterbi算法得出测试集中的各汉字在各标签下的概率,比较该汉字在各标签下的概率,取概率最大值所属标签作为各汉字最终的标签。本专利技术方法应用在冶金领域,在预测冶金信息分词时,使用Bi-LSTM网络训练领域外信息和领域内信息分别获得较好的分词模型,通过权重结合领域外模型和领域内模型的预测结果,来解决冶金语料不足导致的模型不理想以及对冶金信息中域外单词分词的问题,实现对冶金信息的较好分词。LSTM神经网络模型和Bi-LSTM神经网络模型的工作原理如下:LSTM神经网络模型通过输入门、忘记门和输出门三种门对细胞的行为进行控制,门上的操作基于Sigmoid网络层和元素级的逐点乘积组成。通过Sigmoid输出介于0到1之间的数值用来表示信息的通过程度,其中1表示信息全部可以通过,0表示信息都不可以通过。通过忘记门的Sigmoid层可以使细胞忘记信息,其中σ表示sigmod函数,Wf表示遗忘门的权重矩阵,ht-1表示上一层的输出,xt为当前层的输入,bf为遗忘门的偏置项,ft表示遗忘门的输出。ft=σ(Wf·(ht-1,xt)+bf)当在细胞中存储信息时,首先通过输入门的Sigmoid获取将要更新的信息it,然后通过tanh函数创建新的向量最后用ft乘以旧的细胞状态Ct-1实现要遗忘的信息,再与的乘积相加获得细胞状态的更新。Wi、bi分别表示激活函数是sigmod函数时输入门的权重矩阵和输入门的偏置项,WC、bC分别表示激活函数是tanh函数时输入门的权重矩阵和输入门的偏置项,Ct表示当前细胞状态。it=σ(Wi·(ht-1,xt)+bi)通过输出门的Sigmoid层决定输出哪些信息。然后用tanh函数处理本文档来自技高网
...

【技术保护点】
1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi‑LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi‑LSTM模型,训练集的模型记为X_Bi‑LSTM模型,然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。

【技术特征摘要】
1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。2.根据权利要求1所述的基于双向长短时记忆网络模型的中文分词方法,其特征在于:所述方法的具体步骤如下:Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中...

【专利技术属性】
技术研发人员:邵党国郑娜
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1