一种中文文本的分类方法及系统技术方案

技术编号：20588978 阅读：25 留言：0更新日期：2019-03-16 07:11

本发明专利技术公开了一种中文文本的分类方法，包括：获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵；将所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中，得到所述目标文本的类别标签。上述的分类方法，在对所述目标文本进行分类过程中，不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵，而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文文本的分类方法及系统
本专利技术涉及机器学习
，尤其涉及一种中文文本的分类方法及系统。
技术介绍
近年来，信息全球化使得互联网上的文本信息呈现爆炸式的增长，其中中文文本的比例和影响力与日俱增，针对中文文本的分类方法越来越受到人们的关注。现有技术中，主要通过对中文文本中包含的字和词进行识别，实现中文文本的分类。中文作为一种由象形文字衍生而来的语言，不仅词和字可以表达特定的意义，而且部首(radical)的象形和表意特性使其也成为重要的语义载体。部首本身固有的语义信息在一定程度上可以帮助我们进行概念理解和分类，针对部首的研究和技术方法都十分局限。
技术实现思路
有鉴于此，本专利技术提供了一种中文文本的分类方法及系统，用以解决现有技术中在中文文本进行分类过程中只针对字和词进行识别，而忽略部首对分类影响的问题。具体方案如下：一种中文文本的分类方法，包括：获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵；将所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中，得到所述目标文本的类别标签。上述的方法，可选的，还包括：除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。上述的方法，可选的，获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵，包括：确定所述目标文本中包含的目标字序列和目标词序列；依据所述目标字序列和所述目标词序列，分...

【技术保护点】
1.一种中文文本的分类方法，其特征在于，包括：获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵；将所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中，得到所述目标文本的类别标签。

【技术特征摘要】
1.一种中文文本的分类方法，其特征在于，包括：获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵；将所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中，得到所述目标文本的类别标签。2.根据权利要求1所述的方法，其特征在于，还包括：除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。3.根据权利要求1所述的方法，其特征在于，获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵，目标词向量矩阵和目标词级部首向量矩阵，包括：确定所述目标文本中包含的目标字序列和目标词序列；依据所述目标字序列和所述目标词序列，分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列；将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵。4.根据权利要求1所述的方法，其特征在于，采用预设的训练方法训练得到的预设的目标文本分类模型，包括：获取各个目标待训练文本；将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵，目标待训练词向量矩阵和目标待训练词级部首向量矩阵；构建预设的文本分类模型，其中，所述预设的文本分类模型为四粒度模型；将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵，目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中，调整所述预设的文本分类模型中的各个权重矩阵和偏置向量，令预设的损失函数取值最小，得到预设的目标文本分类模型。5.根据权利要求1所述的方法，其特征在于，将所述目标字向量矩阵、所述目标字级部首向量矩阵，所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中，得到所述目标文本的类别标签，包括：确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列；依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量，确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重；依据所述各个权重和所述各个第一隐向量序列，确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列；依据所述各个第二隐向量序列确定目标向量，将所述目标向量中条件概率的最大值对应的文本...

【专利技术属性】
技术研发人员：陈恩红，刘淇，徐童，陶汉卿，童世炜，赵洪科，金斌斌，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人