中文分词系统技术方案

技术编号:22167233 阅读:24 留言:0更新日期:2019-09-21 10:43
本发明专利技术公开了一种中文分词系统,其包括字向量提取模块、字向量分类模块及模型输出模块;字向量提取模块用于提取中文句子的字特征得到中文句子的字向量,字特征维度包括四种词位置分类,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S;字向量分类模块,用于根据中文句子的字向量,得到每个字向量的各种词位置分类的概率;模型输出模块,用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型,中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数,每个字对应4个浮点值,分别表示对应四种词位置分类BMES的概率。本发明专利技术的中文分词系统,能降低中文分词的人工特征工程量,并能够捕捉更远上下文的语义,提高分词的准确率。

Chinese Word Segmentation System

【技术实现步骤摘要】
中文分词系统
本专利技术涉及人工智能的自然语言文本处理技术,特别涉及一种中文分词系统。
技术介绍
自然语言处理(NLP,NaturalLanguageProcessing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类语言的一种技术。自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。在机器学习中,如何使用向量表示词?顾名思义,词向量是用来表示词的向量,通常也被认为是词的特征向量。NLP(自然语言处理)里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档。所以处理NLP的问题,首先就要拿词语开刀。词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(wordembedding),而Word2vec就是词嵌入(wordembedding)的一种。简单点来说就是把一个词语转换成对应向量的表达形式,来让机器读取数据。2013年Google团队发表了word2vec工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuousbagofwords,简称CBOW),以及两种高效训练的方法:负采样(negativesampling)和层序softmax(hierarchicalsoftmax)。CBOW(ContinuousBag-of-WordsModel)又称连续词袋模型,是一个三层神经网络,该模型的特点是输入已知上下文,输出对当前单词的预测。word2vec词向量可以较好地表达不同词之间的相似和类比关系。自然语言处理中,分词技术是一种比较基础的模块。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语一般情况下都能简单且准确的提取出来。而中文日文等文字,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词提取出来。分词的意义非常大,在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位。在具体的应用上,比如在常用的搜索引擎中,term如果是词粒度的话,不仅能够减少每个term的倒排列表长度,提升系统性能,并且召回的结果相关性高更准确。比如搜索query"的确",如果是单字切分的话,则有可能召回"你讲的确实在理"这样的文本。分词方法大致分为两种:基于词典的机械切分,基于统计模型的序列标注切分两种方式。1、基于词典的方法基于词典的方法本质上就是字符串匹配的方法,将一串文本中的文字片段和已有的词典进行匹配,如果匹配到,则此文字片段就作为一个分词结果。2、正向最大匹配,逆向最大匹配正向最大匹配指的是从左到右对一个字符串进行匹配,所匹配的词越长越好,比如"中国科学院计算研究所",按照词典中最长匹配原则的切分结果是:"中国科学院/计算研究所",而不是"中国/科学院/计算/研究所"。逆向最大匹配的顺序是从右向左倒着匹配,如果能匹配到更长的词,则优先选择,比如"他从东经过我家",正向最大匹配得到的结果为"他/从/东经/过/我/家",而逆向最大匹配能够得到正确的结果"他/从/东/经过/我/家"。3、全切分路径选择方法全切分方法就是将所有可能的切分组合全部列出来,并从中选择最佳的一条切分路径。关于路径的选择方式,一般有n最短路径方法,基于词的n元语法模型方法等。n最短路径方法的基本思想就是将所有的切分结果组成有向无环图,每个切词结果作为一个节点,词之间的边赋予一个权重,最终找到权重和最小的一条路径作为分词结果。基于词的n元语法模型可以看作是n最短路径方法的一种优化,不同的是,根据n元语法模型,路径构成时会考虑词的上下文关系,根据语料库的统计结果,找出构成句子最大模型概率。一般情况下,使用unigram和bigram的n元语法模型的情况较多。4、基于序列标注的分词方法基于统计模型的分词方法,简单来讲就是一个序列标注问题。在一段文字中,我们可以将每个字按照他们在词中的位置进行标注,常用的标记有以下四个label:B,Begin,表示这个字是一个词的首字;M,Middle,表示这是一个词中间的字;E,End,表示这是一个词的尾字;S,Single,表示这是单字成词。分词的过程就是将一段字符输入模型,然后得到相应的标记序列,再根据标记序列进行分词。举例来说:"基于字符串匹配的分词方法",经过模型后得到的理想标注序列是:"BEBMEBESBEBE",最终还原的分词结果是"基于/字符串/匹配/的/分词/方法"。在NLP领域中,解决序列标注问题的常见模型主要有HMM和CRF。
技术实现思路
本专利技术要解决的技术问题是提供一种中文分词系统,能降低中文分词的人工特征工程量,能够捕捉更远上下文的语义,提高分词的准确率。为解决上述技术问题,本专利技术提供的中文分词系统,其包括字向量提取模块、字向量分类模块及模型输出模块;所述字向量提取模块,用于提取中文句子的字特征得到中文句子的字向量,字特征维度包括四种词位置分类,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S;所述字向量分类模块,用于根据中文句子的字向量,得到每个字向量的各种词位置分类的概率;所述模型输出模块,用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型,中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数,每个字对应4个浮点值,分别表示对应四种词位置分类BMES的概率。较佳的,所述字向量提取模块使用word2vec算法的CBOW模型提取中文句子的字特征得到中文句子的字向量。较佳的,所述字向量分类模块,将中文句子的字向量的字特征输入到BiLSTM网络中,得到每个字向量的各种词位置分类的概率。较佳的,使用word2vec对所述字向量提取模块得到的中文句子的字向量进行字嵌入,使字向量的字特征维度增加;用字特征维度增加后的字向量的字特征输入到BiLSTM网络中,对中文句子的字向量进行分类,得到每个字向量的各种词位置分类的概率。较佳的,所述模型输出模块,通过对BiLSTM网络输出的隐藏层中加一个CRF层,对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型。较佳的,所述模型输出模块,对BiLSTM网络输出的隐藏层中加一个线性层,最后加一个CRF层,对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型。本专利技术的中文分词系统,接入一个CRF层来进行标注,运用了字嵌入、BiLSTM和CRF结合的方式进行中文分词,充分结合利用了不同算法和神经网络模型的优点,并通过大量的已标注数据和模型不断迭代优化、依赖于神经网络强大的非线性拟合能力,学习出不错的模型,使得中文分词结果更加准确。附图说明为了更清楚地说明本专利技术的技术方案,下面对本专利技术所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获本文档来自技高网
...

【技术保护点】
1.一种中文分词系统,其特征在于,其包括字向量提取模块、字向量分类模块及模型输出模块;所述字向量提取模块,用于提取中文句子的字特征得到中文句子的字向量,字特征维度包括四种词位置分类,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S;所述字向量分类模块,用于根据中文句子的字向量,得到每个字向量的各种词位置分类的概率;所述模型输出模块,用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型,中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数,每个字对应4个浮点值,分别表示对应四种词位置分类BMES的概率。

【技术特征摘要】
1.一种中文分词系统,其特征在于,其包括字向量提取模块、字向量分类模块及模型输出模块;所述字向量提取模块,用于提取中文句子的字特征得到中文句子的字向量,字特征维度包括四种词位置分类,分别为:词的首字B、词的中间字M、词的尾字E、单字成词S;所述字向量分类模块,用于根据中文句子的字向量,得到每个字向量的各种词位置分类的概率;所述模型输出模块,用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订,得到中文句子的目标字向量模型,中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数,每个字对应4个浮点值,分别表示对应四种词位置分类BMES的概率。2.根据权利要求1所述的中文分词系统,其特征在于,所述字向量提取模块使用word2vec算法的CBOW模型提取中文句子的字特征得到中文句子的字向量。3.根据权利要求2所述的中文分词系统,其特征在于,所述字向量分类模块,将中文句子的...

【专利技术属性】
技术研发人员:王志伟
申请(专利权)人:交通银行股份有限公司太平洋信用卡中心
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1