一种中文分词方法技术

技术编号：16216421 阅读：48 留言：0更新日期：2017-09-15 22:36

中文分词是将连续的中文字符串按照一定的规范分割成词序列的过程。因为中文句子结构较为复杂，词间没有形式上的分界符，而且有时甚至需要联系下文的信息才能做出分词判断，所以现有中文分词方法在准确率方面还有待提高。该方法首先将待分词的中文文本输入到系统中作为序列A；第二，将序列A传递给词向量查找层，把输入的字符转化为词向量，得到序列B；第三，将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络，并随后通过一层隐藏层，得到输出序列C；第四，将序列C作为输入序列传递到条件随机场解码层，生成分词标记标签序列D；最后将序列D转化为用空格隔开的文本序列E。

A Chinese word segmentation method

Chinese word segmentation is the process of dividing successive Chinese strings into word sequences according to certain specifications. Because Chinese sentence structure is more complex, between words without formal delimiters, and sometimes even need to contact the information below to make segmentation judgments, so Chinese existing segmentation methods in terms of accuracy needs to be improved. This method will be the first word Chinese text input as a sequence in A system; second, the sequence A is passed to the word vector search layer, the input characters into word vector sequence, B; third, the sequence of B sequence as the input is passed to the attention mechanism of two long term memory based on neural network and then through a layer of hidden layer, the output sequence of C; fourth, the sequence of C sequence as the input is transferred to the CRF decoding layer, generating mark of word segmentation D tag sequences; finally the sequence of D into E space separated text sequence.

全部详细技术资料下载

【技术实现步骤摘要】
一种中文分词方法
本专利技术属于自然语言处理和深度学习
，具体为一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
技术介绍
中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文，其自身特点在于中文是以字为基本的书写单位，句子和段落之间通过分界符来划界，但词间并没有形式上的分界符，而在自然语言处理中，词是最小的能够独立活动的有意义的语言成分，所以分词的质量的好坏直接影响之后的自然语言处理任务。中文分词问题作为终于自然语言处理领域的重要基础研究，从20世纪80年代提出到现在，常用的研究方法可以分为以下四类：(1)基于字典的字符串匹配的方法；(2)基于语言规则的方法；(3)基于传统概率统计机器学习模型的方法；(4)基于深度神经网络模型的方法。基于词典的字符串匹配方法速度块，实现简单，但对歧义和词典未收录词处理不好。基于语法规则的方法具有针对性和暂时较高的准确率，但由于句法构造的领域相关性，适应性较差，词典与歧义消解处理难维护。基于传统概率统计机器学习模型的方法有隐马尔可夫模型(HiddenMarkovModel,HMM)方法、最大熵模型(MaximumEntropyModel)方法和条件随机场(conditionalrandomfields,CRF)方法等。这些方法能平等地看待词典词和未登录词的识别，但是模型的训练是基于提取出的人为设定的特征，而且性能受限于特征的选择和提取。基于深度神经网络模型，如长短期记忆（LongShort-TermMemory，LSTM）神经网络，可以尽可能避免特征工程的影响并克服了传...
一种中文分词方法

【技术保护点】
一种中文分词方法，其特征在于包括以下步骤：步骤1：将不超过指定长度的中文文本输入到系统中作为输入序列A；步骤2：将输入序列A传递给词向量查找层，把输入的字符转化为词向量，得到输出序列B；步骤3：将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络，并随后通过一层隐藏层，得到输出序列C；步骤4：将序列C作为输入序列传递到线性链式条件随机场解码层，生成分词标记标签序列D；步骤5：将分词标记标签序列D转化为用空格隔开的文本序列E。

【技术特征摘要】
1.一种中文分词方法，其特征在于包括以下步骤：步骤1：将不超过指定长度的中文文本输入到系统中作为输入序列A；步骤2：将输入序列A传递给词向量查找层，把输入的字符转化为词向量，得到输出序列B；步骤3：将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络，并随后通过一层隐藏层，得到输出序列C；步骤4：将序列C作为输入序列传递到线性链式条件随机场解码层，生成分词标记标签序列D；步骤5：将分词标记标签序列D转化为用空格隔开的文本序列E。2.根据权利要求1所述的方法，其中所述的中文文本是由一个或多个句末带有终结符号的句子构成的文本，并且文本符合中文语法规则，其中终结符包括句号、问号、感叹号、逗号和分号。3.根据权利要求1所述的方法，其中所述的词向量查找层，指的是通过现有的神经网络模型（W...

【专利技术属性】
技术研发人员：金宸，李维华，王顺芳，郭延哺，邓春云，
申请(专利权)人：云南大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人