一种中文文本的分类方法及系统技术方案

技术编号:20588978 阅读:25 留言:0更新日期:2019-03-16 07:11
本发明专利技术公开了一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类方法,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。

【技术实现步骤摘要】
一种中文文本的分类方法及系统
本专利技术涉及机器学习
,尤其涉及一种中文文本的分类方法及系统。
技术介绍
近年来,信息全球化使得互联网上的文本信息呈现爆炸式的增长,其中中文文本的比例和影响力与日俱增,针对中文文本的分类方法越来越受到人们的关注。现有技术中,主要通过对中文文本中包含的字和词进行识别,实现中文文本的分类。中文作为一种由象形文字衍生而来的语言,不仅词和字可以表达特定的意义,而且部首(radical)的象形和表意特性使其也成为重要的语义载体。部首本身固有的语义信息在一定程度上可以帮助我们进行概念理解和分类,针对部首的研究和技术方法都十分局限。
技术实现思路
有鉴于此,本专利技术提供了一种中文文本的分类方法及系统,用以解决现有技术中在中文文本进行分类过程中只针对字和词进行识别,而忽略部首对分类影响的问题。具体方案如下:一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的方法,可选的,还包括:除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。上述的方法,可选的,获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵,包括:确定所述目标文本中包含的目标字序列和目标词序列;依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。上述的方法,可选的,采用预设的训练方法训练得到的预设的目标文本分类模型,包括:获取各个目标待训练文本;将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。上述的方法,可选的,将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签,包括:确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。一种中文文本的分类系统,包括:获取模块,用于获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;分类模块,用于将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的系统,可选的,还包括:预处理模块,用于除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。上述的系统,可选的,所述获取模块包括:第一确定单元,用于确定所述目标文本中包含的目标字序列和目标词序列;第二确定单元,用于依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;第一转化单元,用于将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。上述的系统,可选的,所述分类模块包括:获取单元,用于获取各个目标待训练文本;第二转化单元,用于将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;构建单元,用于构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;训练单元,用于将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。上述的系统,可选的,所述分类模块包括:第三确定单元,用于确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;第四确定单元,用于依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;第五确定单元,用于依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;分类单元,用于依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本类别标签作为所述目标文本类别标签。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种中文文本的分类方法,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到预设的目标文本分类模型中,得到所述目标文本的类别标签。上述的分类方法,在对所述目标文本进行分类过程中,不但考虑了所述目标文本中的目标字向量矩阵和目标词向量矩阵,而且还将与所述目标字向量矩阵和所述目标词向量矩阵对应的目标字集部首向量矩阵和目标词级部首向量矩阵也加入到了分类过程中。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种中文文本的分类方法流程图;图2为本申请实施例公开的一种映射关系示意图;图3为本申请实施例公开的一种中文文本的分类方法又一流程图;图4为本申请实施例公开的一种中文文本分类框架示意图;图5为本申请实施例公开的一种中文文本的分类系统结构框图。具体实施方式下面将结合本专利技术实施例中本文档来自技高网...

【技术保护点】
1.一种中文文本的分类方法,其特征在于,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。

【技术特征摘要】
1.一种中文文本的分类方法,其特征在于,包括:获取目标文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵;将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签。2.根据权利要求1所述的方法,其特征在于,还包括:除去所述目标文本中词数小于预设的阈值的文本数据和所述目标文本中中文内容小于预设的比例的文本数据。3.根据权利要求1所述的方法,其特征在于,获取目标中文文本中包含的目标字向量矩阵、目标字级部首向量矩阵,目标词向量矩阵和目标词级部首向量矩阵,包括:确定所述目标文本中包含的目标字序列和目标词序列;依据所述目标字序列和所述目标词序列,分别确定与所述目标字序列对应的目标字级部首序列和与所述目标词序列对应的目标词级部首序列;将所述目标字序列、所述目标字级部首序列、所述目标词序列和所述目标词级部首序列转化为预设维度的所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵。4.根据权利要求1所述的方法,其特征在于,采用预设的训练方法训练得到的预设的目标文本分类模型,包括:获取各个目标待训练文本;将每一个目标待训练文本转化为目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵;构建预设的文本分类模型,其中,所述预设的文本分类模型为四粒度模型;将每一个目标待训练字向量矩阵、目标待训练字级部首向量矩阵,目标待训练词向量矩阵和目标待训练词级部首向量矩阵传递给所述预设的文本分类模型中,调整所述预设的文本分类模型中的各个权重矩阵和偏置向量,令预设的损失函数取值最小,得到预设的目标文本分类模型。5.根据权利要求1所述的方法,其特征在于,将所述目标字向量矩阵、所述目标字级部首向量矩阵,所述目标词向量矩阵和所述目标词级部首向量矩阵传递到采用预设的训练方法训练得到的预设的目标文本分类模型中,得到所述目标文本的类别标签,包括:确定与所述目标字向量矩阵和所述目标词向量矩阵对应的各个第一隐向量序列;依据所述各个第一隐向量序列和对应的目标字级部首向量和目标词级部首向量,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵的对应的各个权重;依据所述各个权重和所述各个第一隐向量序列,确定与所述目标字级部首向量矩阵和所述目标词级部首向量矩阵对应的各个第二隐向量序列;依据所述各个第二隐向量序列确定目标向量,将所述目标向量中条件概率的最大值对应的文本...

【专利技术属性】
技术研发人员:陈恩红刘淇徐童陶汉卿童世炜赵洪科金斌斌
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1