The invention discloses a Chinese word segmentation method based on bidirectional long-term and short-term memory network model. Firstly, the data sets in any field are obtained, and the data sets are divided into training set and test set. Then, the training set is preprocessed, and the preprocessed training set and the open data set MSR of Microsoft Asia Research Institute are embedded into words respectively. Then, the processed training set and data set M are processed. SR is input into Bi LSTM neural network model for training, and the training set model X_Bi LSTM model and msr_Bi LSTM model are obtained. Then the test set is forecasted by X_Bi LSTM model and msr_Bi LSTM model respectively, and the forecasting probability of the two models is weighted to get the probability of each Chinese character label after combination. Then Viterbe algorithm is used to predict the label probability of the combined Chinese characters. The label probability of each Chinese character belongs to each label is calculated, and the label of the maximum probability belongs to each Chinese character is used as the label of each Chinese character, thus completing Chinese word segmentation. The invention can obtain better result of word segmentation and improve the accuracy of word segmentation.
【技术实现步骤摘要】
一种基于双向长短时记忆网络模型的中文分词方法
本专利技术涉及一种基于双向长短时记忆网络模型的中文分词方法,属于自然语言处理领域。
技术介绍
在中文中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列,即中文分词,因而分词是中文自然语言处理的第一步,这是不同于其他语言的自然语言处理系统的重要特点,也是影响自然语言处理在中文信息处理中应用的重要因素。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。但是,从实用化、效率、功能角度看,其还不能满足实际需求。公知的中文分词主要包括四种方法:1.基于词典的分词方法,如吴春颖(<基于二元语法的N-最大概率中文粗分模型>,2007,27(12):2902-2905);2.基于统计的分词方法,如TsengH(<Aconditionalrandomfieldwordsegmenterforsighanbakeoff2005>,2005:168-171);3.基于理解的分词方法,如WuA(<Wordsegmentationinsentenceanalysis>,1998);4.基于神经网络的分词方法,如ZhengX(<DeeplearningforChinesewordsegmentationandPOStagging>,2013)。其中基于词典的分词方法程序简单易行,分词速度快,但是其分词精度受词典的影响很大,而且不能 ...
【技术保护点】
1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi‑LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi‑LSTM模型,训练集的模型记为X_Bi‑LSTM模型,然后分别用X_Bi‑LSTM模型、msr_Bi‑LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。
【技术特征摘要】
1.一种基于双向长短时记忆网络模型的中文分词方法,其特征在于,首先获得任一领域的数据集,并将数据集分为训练集和测试集,然后将训练集进行预处理,将预处理后的训练集和微软亚洲研究院的公开数据集msr分别进行字嵌入处理,再把处理好的训练集和数据集msr分别输入到双向长短时记忆神经网络模型即Bi-LSTM神经网络模型中进行训练,分别得到训练集的模型和msr_Bi-LSTM模型,训练集的模型记为X_Bi-LSTM模型,然后分别用X_Bi-LSTM模型、msr_Bi-LSTM模型对测试集进行标签预测,并对两种模型的预测概率进行权重组合,得到组合后的各汉字标签的概率,然后利用Viterbe算法对组合后的各汉字的各标签概率进行计算得到各汉字属于各标签的最终概率,对比各汉字在各标签下的概率值,将概率最大值所属标签作为各汉字的标签,从而完成中文分词。2.根据权利要求1所述的基于双向长短时记忆网络模型的中文分词方法,其特征在于:所述方法的具体步骤如下:Step1:首先获得任一领域的文本数据集,并将文本数据集分为训练集和测试集,然后将训练集进行预处理,预处理过程具体为利用BMES标注方式对训练集中的汉字进行标注,其中对于多字词,B为多字词中的第一个字的标签,M为多字词中去除第一个字和最后一个字后其他字的标签,E为多字词中最后一个字的标签,S为单字词的标签,数据集msr为已标注完成的数据集,然后将标注后的训练集和数据集msr进行字嵌入处理,具体过程为根据标点符号对标注后的训练集和数据集msr进行切分,并将切分后的结果分别用数组data和label表示,其中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。