【技术实现步骤摘要】
一种多特征融合的中文分词方法
[0001]本专利技术涉及自然语言处理技术,具体为一种多特征融合的中文分词方法。
技术介绍
[0002]英文词语之间是以空格作为自然分界符的,但是中文文本中词与词之间没有明确的区分标记,而是以连续字符串形式呈现。因此,中文词语分析是中文自然语言处理的基础和关键。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。
[0003]随着深度学习技术的发展,深度学习成为近年中文分词方向上的研究热点。由递归神经网络改进的双向长短期记忆条件随机场模型(BiLSTM-CRF)将中文分词问题转化成了序列标注问题,不仅能够利用上下文信息的特性,而且能够通过CRF层考虑输出标签之间前后的依赖关系,同时具有很好的泛化能力,能够很好地处理分词。然而BiLSTM-CRF模型只使用了字嵌入向量,忽略了文本中很多的语义表示,从而影响分词效果。
技术实现思路
[0004]针对现有中文分词方法忽略了文本中很多的语义表示、影响分词效果等不足,本专利技术要解决 ...
【技术保护点】
【技术特征摘要】
1.一种多特征融合的中文分词方法,其特征在于包括以下步骤:1)模型构建,对输入文本序列进行分布式向量化,得到词向量、位置向量以及偏旁部首向量表示,作为分词模型的嵌入层;将BilSTM网络层和CRF线性层结合训练,得到中文分词模型;2)模型训练,使用已标注结果的文本数据输入到上述BiLSTM-CRF模型,以此训练模型;3)模型预测,使用训练得到的基于BilSTM-CRF的中文分词模型,将待分词句子序列输入到模型中,从而得到分词标签序列。2.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,对模型训练的输入文本序列进行分布式向量化,得到词向量,是将中文句子分词,即sentence=(w1,w2,w3,...,w
i
,......w
n
),w
i
表示句子中第i个词语;使用人工标注后的分词结果,生成词向量x
word
=(x1,x2,x3,...,x
n
)。3.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,位置向量是用0,1,2,...表示该字在词中的位置,用离散的方式生成位置向量表示x
position
=(x1,x2,x3,...x
n
)。4.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤1)中,得到偏旁部首向量包括以下步骤:使用偏旁部首向量按偏旁分类采用one-hot编码,或者将汉字按照构造法分为几个部分,经过CNN网络生成偏旁部首向量;考虑每一个偏旁部首都有一个独特的位置,把一个字的偏旁部首看作一个书写顺序的序列,采用BiLSTM来捕获偏旁部首信息,偏旁部首向量表示x
radical
=(x1,x2,x3,...,x
n
)与其他以字向量为基础的向量进行拼接作为编码端输入。5.根据权利要求1所述的多特征融合的中文分词方法,其特征在于:步骤2)中,训练BilSTM-CRF模型,将BilSTM网络层和CRF线性层结合训练,得到中文分词模型,具体为:利用BilSTM-CRF模型,将分布式向量x<...
【专利技术属性】
技术研发人员:王会珍,姜涛,张新新,
申请(专利权)人:小牛思拓北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。