中文分词系统技术方案

技术编号：22167233 阅读：24 留言：0更新日期：2019-09-21 10:43

本发明专利技术公开了一种中文分词系统，其包括字向量提取模块、字向量分类模块及模型输出模块；字向量提取模块用于提取中文句子的字特征得到中文句子的字向量，字特征维度包括四种词位置分类，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S；字向量分类模块，用于根据中文句子的字向量，得到每个字向量的各种词位置分类的概率；模型输出模块，用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型，中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数，每个字对应4个浮点值，分别表示对应四种词位置分类BMES的概率。本发明专利技术的中文分词系统，能降低中文分词的人工特征工程量，并能够捕捉更远上下文的语义，提高分词的准确率。

Chinese Word Segmentation System

全部详细技术资料下载

【技术实现步骤摘要】
中文分词系统
本专利技术涉及人工智能的自然语言文本处理技术，特别涉及一种中文分词系统。
技术介绍
自然语言处理(NLP，NaturalLanguageProcessing)是一个信息时代最重要的技术之一，简单来讲，就是让计算机能够理解人类语言的一种技术。自然语言是一套用来表达含义的复杂系统。在这套系统中，词是表义的基本单元。在机器学习中，如何使用向量表示词？顾名思义，词向量是用来表示词的向量，通常也被认为是词的特征向量。NLP(自然语言处理)里面，最细粒度的是词语，词语组成句子，句子再组成段落、篇章、文档。所以处理NLP的问题，首先就要拿词语开刀。词语，是人类的抽象总结，是符号形式的(比如中文、英文、拉丁文等等)，所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入(wordembedding)，而Word2vec就是词嵌入(wordembedding)的一种。简单点来说就是把一个词语转换成对应向量的表达形式，来让机器读取数据。2013年Google团队发表了word2vec工具。word2vec工具主要包含两个模型：跳字模型(skip-gram)和连续词袋模型(continuousbagofwords，简称CBOW)，以及两种高效训练的方法：负采样(negativesampling)和层序softmax(hierarchicalsoftmax)。CBOW(ContinuousBag-of-WordsModel)又称连续词袋模型，是一个三层神经网络，该模型的特点是输入已知上下文，输出对当前单词的预测。word2vec词向量...

【技术保护点】
1.一种中文分词系统，其特征在于，其包括字向量提取模块、字向量分类模块及模型输出模块；所述字向量提取模块，用于提取中文句子的字特征得到中文句子的字向量，字特征维度包括四种词位置分类，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S；所述字向量分类模块，用于根据中文句子的字向量，得到每个字向量的各种词位置分类的概率；所述模型输出模块，用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型，中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数，每个字对应4个浮点值，分别表示对应四种词位置分类BMES的概率。

【技术特征摘要】
1.一种中文分词系统，其特征在于，其包括字向量提取模块、字向量分类模块及模型输出模块；所述字向量提取模块，用于提取中文句子的字特征得到中文句子的字向量，字特征维度包括四种词位置分类，分别为：词的首字B、词的中间字M、词的尾字E、单字成词S；所述字向量分类模块，用于根据中文句子的字向量，得到每个字向量的各种词位置分类的概率；所述模型输出模块，用于对中文句子的每个字向量的各种词位置分类的概率根据上下文信息进行修订，得到中文句子的目标字向量模型，中文句子的目标字向量模型的维度为(m,4),m为中文句子的字数，每个字对应4个浮点值，分别表示对应四种词位置分类BMES的概率。2.根据权利要求1所述的中文分词系统，其特征在于，所述字向量提取模块使用word2vec算法的CBOW模型提取中文句子的字特征得到中文句子的字向量。3.根据权利要求2所述的中文分词系统，其特征在于，所述字向量分类模块，将中文句子的...

【专利技术属性】
技术研发人员：王志伟，
申请(专利权)人：交通银行股份有限公司太平洋信用卡中心，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人