当前位置: 首页 > 专利查询>云南大学专利>正文

一种中文分词方法技术

技术编号:16216421 阅读:48 留言:0更新日期:2017-09-15 22:36
中文分词是将连续的中文字符串按照一定的规范分割成词序列的过程。因为中文句子结构较为复杂,词间没有形式上的分界符,而且有时甚至需要联系下文的信息才能做出分词判断,所以现有中文分词方法在准确率方面还有待提高。该方法首先将待分词的中文文本输入到系统中作为序列A;第二,将序列A传递给词向量查找层,把输入的字符转化为词向量,得到序列B;第三,将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;第四,将序列C作为输入序列传递到条件随机场解码层,生成分词标记标签序列D;最后将序列D转化为用空格隔开的文本序列E。

A Chinese word segmentation method

Chinese word segmentation is the process of dividing successive Chinese strings into word sequences according to certain specifications. Because Chinese sentence structure is more complex, between words without formal delimiters, and sometimes even need to contact the information below to make segmentation judgments, so Chinese existing segmentation methods in terms of accuracy needs to be improved. This method will be the first word Chinese text input as a sequence in A system; second, the sequence A is passed to the word vector search layer, the input characters into word vector sequence, B; third, the sequence of B sequence as the input is passed to the attention mechanism of two long term memory based on neural network and then through a layer of hidden layer, the output sequence of C; fourth, the sequence of C sequence as the input is transferred to the CRF decoding layer, generating mark of word segmentation D tag sequences; finally the sequence of D into E space separated text sequence.

【技术实现步骤摘要】
一种中文分词方法
本专利技术属于自然语言处理和深度学习
,具体为一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
技术介绍
中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位,句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中,词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。中文分词问题作为终于自然语言处理领域的重要基础研究,从20世纪80年代提出到现在,常用的研究方法可以分为以下四类:(1)基于字典的字符串匹配的方法;(2)基于语言规则的方法;(3)基于传统概率统计机器学习模型的方法;(4)基于深度神经网络模型的方法。基于词典的字符串匹配方法速度块,实现简单,但对歧义和词典未收录词处理不好。基于语法规则的方法具有针对性和暂时较高的准确率,但由于句法构造的领域相关性,适应性较差,词典与歧义消解处理难维护。基于传统概率统计机器学习模型的方法有隐马尔可夫模型(HiddenMarkovModel,HMM)方法、最大熵模型(MaximumEntropyModel)方法和条件随机场(conditionalrandomfields,CRF)方法等。这些方法能平等地看待词典词和未登录词的识别,但是模型的训练是基于提取出的人为设定的特征,而且性能受限于特征的选择和提取。基于深度神经网络模型,如长短期记忆(LongShort-TermMemory,LSTM)神经网络,可以尽可能避免特征工程的影响并克服了传统神经网络缺失长期依赖关系的问题,逐渐应用到中文分词等自然语言处理任务中。然而,LSTM神经网络只能记住过去的上文信息。由于中文句子的结构较为复杂,有时需要联系下文的信息才能做出判断。为了实现更加准确的分词,本专利技术把双向长短期记忆神经网络强大的建模能力与CRF在概率模型方面基于局部最优推测标签的能力相结合,并且在模型中加入了注意力机制,提出了一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
技术实现思路
本专利技术的目的在于提出一种注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。说明了如何通过输入的句子生成对应的分词标记序列。为了实现以上目的,本专利技术采用的技术方案,包括以下步骤:步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A。步骤2:将将步骤1中所述的输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B。步骤3:将步骤2中所述的序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C。步骤4:将步骤3中所述的序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D。步骤5:将步骤4得到的分词标记标签序列D转化为用空格隔开的文本序列E。上述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。上述的词向量查找层,指的是通过现有的神经网络模型(Word2Vec)预先训练出的字符与向量对应表。上述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态,及三层长短期记忆神经网络每层的初始化状态,都采用所述句子的句向量。上述的基于注意力机制的双向长短期记忆神经网络所用单元是基于注意力机制的长短期记忆神经网络(LSTMN)单元,其特点是其记忆单元使用注意力机制减少记忆压缩。上述的分词标记标签是指{BMES}标签系统,其中B指Begin表示词首,M指Middle表示词中,E指End表示词尾,s指Single表示单个词。本方法中使用小批量随机梯度下降训练神经网络层。在以下附图和说明中描述了本说明书中所述主题的一些实施例的细节。依据说明、附图和权利要求书,使用基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词的方法的其他特征、方面和优点会是显而易见。附图说明图1是基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法流程图;图2是基于注意力机制的长短期记忆神经网络单元。具体实施方式结合附图1和图2,对依据本专利技术提供的具体实施方式,详细说明如此下。本专利技术旨在提供一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词技术解决方案,包括五个部分,(1)把输入中文文本转换成字符向量;(2)训练并通过基于注意力机制的双向长短期记忆神经网络对序列进行建模;(3)通过线性链式条件随机场(CRF)得到序列的得分向量;(4)由得分向量得到每一个字符所对应的分词标记标签;(5)通过每一个字符所对应的分词标记标签转化为用空格隔开的输出分词文本序列。图1表示从输入文本序列到最终分词序列输出的整个流程。其中,输入句子到输出序列是将句子转换成词向量的过程示例。在其中可以实施下述的系统、组件和技术。将单词转换成词向量,词向量可利用比较成熟的神经网络预先训练出词向量库,如word2vec,Glove,这两个神经网络算法训练出来的词向量,相似词或同类词之间存在一定的线性关系或明显的非线性关系,通过一个词的词向量可以找到它相似的词。为了使得词向量更具有语义,本专利技术采用Word2Vec训练出100维的词向量库。图1中基于注意力机制的双向长短期记忆神经网络,包括一个由前向后传递的基于注意力机制长短期记忆神经网络和一个由后向前的基于注意力机制长短记忆神经网络构成。每个基于注意力机制的双向长短期记忆神经网络由指定长度即块数的LSTMN记忆单元构成,这里采用的序列长度最长是100。每个单元包括输入门、忘记门、记忆门和输出门,即LSTMN记忆单元。双向长短期记忆神经网络,能捕捉到每个词左右上下文的信息,所以能够更好地获得语义。输出向量通过乘以矩阵参数转换成与隐藏层相同维度的向量,矩阵参数通过训练整个神经网络获得。图1示出的条件随机场(CRF)解码层,在本层中综合由基于注意力机制的双向长短期记忆神经网络得到的向量,以及通过条件随机场得到的概率向量,最后得出了分词标记标签的总得分向量。图1中的分词标记标签,表示的是一个维度为4的列向量,这个4表示{BEMS}标志,其中B指Begin词首,E指End词尾,M指Middle词中,s指单字词,找到文本序列对应字符的分词标记标签,即可转化为用空格隔开的输出分词文本序列,如{“BEBME”}转化为{“球拍买完了”}。图2示出的基于注意力机制的长短期记忆神经网络单元。右侧部分是常见的长短期记忆神经网络单元即LSTM单元,阴影部分是与标准LSTM单元不同的地方,在于多了一层对所有隐藏状态与记忆状态实施注意力机制。它明确保存了过去所有的信息通过注意力机制可以学习到怎么分析、调整利用过去所有的信息,方便理解当前的输入,从而可以避免过长的距离导致信息压缩与丢失。上面是对整个神经网络结构和处理过程的完整解释。最终需要训练整个神经网络,才可以使用,输入为一个中文文本,输出的是由空格隔开的中文文本序列,如:input={“球怕卖完了”},output={“球拍买完了”}。使用时,只需要输入一个中文文本序列,就可以输出空格隔开本文档来自技高网
...
一种中文分词方法

【技术保护点】
一种中文分词方法,其特征在于包括以下步骤:步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A;步骤2:将输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B;步骤3:将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;步骤4:将序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D;步骤5:将分词标记标签序列D转化为用空格隔开的文本序列E。

【技术特征摘要】
1.一种中文分词方法,其特征在于包括以下步骤:步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A;步骤2:将输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B;步骤3:将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;步骤4:将序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D;步骤5:将分词标记标签序列D转化为用空格隔开的文本序列E。2.根据权利要求1所述的方法,其中所述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。3.根据权利要求1所述的方法,其中所述的词向量查找层,指的是通过现有的神经网络模型(W...

【专利技术属性】
技术研发人员:金宸李维华王顺芳郭延哺邓春云
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1