一种文本分类方法及系统技术方案

技术编号:23704901 阅读:29 留言:0更新日期:2020-04-08 11:11
本发明专利技术公开了一种文本分类方法及系统,方法包括:获取待分类文本的父标签并转化为父标签词索引向量;将父标签词索引向量与文本词索引向量进行父标签嵌入操作得到文本词索引表征,然后进行转化生成待分类文本的语义向量;利用神经元有序的循环神经网络学习语义向量的层次结构,对层次结构的各层参数进行训练输出文本表征;利用多层感知器对文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;根据文本最后一层标签的概率分布获取文本分类结果。本发明专利技术将神经元有序的循环神经网络和多层感知器的组合模型处理大量标签的文本分类任务,涉及的参数少收敛速度快,通过对文本进行逐层的方式,与现有的平面分类器相比,大大提高了分类性能。

A text classification method and system

【技术实现步骤摘要】
一种文本分类方法及系统
本专利技术涉及机器学习领域,具体涉及一种文本分类方法及系统。
技术介绍
文本分类主要采用基于知识工程的人工分类方法,该方法不仅费时费力,而且分类精度不高,此外,人工主观干预对分类精度影响很大。随后学者们提出了一系列基于机器学习的文本分类方法,如朴素贝叶斯、决策树、K近邻、支持向量机等。基于机器学习的文本分类方法在一定程度上优于专家人工分类的结果,而且文本分类方法在学习过程中不需要或很少需要人工知识的干预,因此可以应用到许多领域。随着信息技术的发展,类别标签的划分粒度越来越细,标签的规模越来越大,标签的结构也越来越复杂。以一篇新闻文章为例,它可能涉及“体育”,“篮球”和“NBA”三大类别。可以发现,这三个类别从左到右存在一个大小包含关系即类别标签具有层次结构,而且在层次结构中,叶子节点的规模往往很大。由于语料库规模的不断扩大以及标签的粒度不断细化,目前的文本分类方法的分类难度也越来越大。Kowsari等人提出了一种层次化深度学习的文本分类方法(HDLTex),该方法以自顶向下的方式将深层神经网络连接起来,在每个父标本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;/n将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;/n将所述文本词索引表征进行转化生成待分类文本的语义向量;/n利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;/n利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;/n根据文本最后一层标签的概率分布,获取文本分类结果。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
获取待分类文本的父标签,将所述父标签转化为父标签词索引向量;
将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征;
将所述文本词索引表征进行转化生成待分类文本的语义向量;
利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练,输出文本表征;
利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布;
根据文本最后一层标签的概率分布,获取文本分类结果。


2.根据权利要求1所述的文本分类方法,其特征在于,所述将父标签词索引向量与文本词索引向量进行父标签嵌入操作,获取文本词索引表征的步骤,通过以下公式进行:



其中,zi,j表示在第j级标签的第i个文本的文本词索引表征,wi表示第i个文本词索引向量,表示向量拼接操作,ci,j-1表示第i个文本的第j-1级标签词索引向量。


3.根据权利要求1所述的文本分类方法,其特征在于,所述利用神经元有序的循环神经网络学习所述语义向量的层次结构,并对层次结构的各层参数进行训练的步骤,包括:
利用神经元有序的循环神经网络根据待分类文本中的语法信息,学习待分类文本语义向量的层次结构;
将前一层级标签训练的网络的权重参数迁移到当前层级标签作为其初始化参数进行训练,对层次结构的各层参数进行训练。


4.根据权利要求3所述的文本分类方法,其特征在于,输出的文本表征通过以下公式表示:



其中,htj表示输入序列在t时刻的隐藏层状态向量,表示对j-1级标签进行分类时网络最终的权重参数,xtj表示t时刻第j级标签的待分类文本的语义向量集合。


5.根据权利要求3所述的文本分类方法,其特征在于,所述利用至少一层多层感知器对所述文本表征进行非线性操作,获取待分类文本各层标签对应的概率分布的步骤,包括:
利用tanh非线性层和softmax非线性层两层全连接层做非线性变...

【专利技术属性】
技术研发人员:张强邓君华赵鲸朋柴博马应龙宋博川贾全烨
申请(专利权)人:全球能源互联网研究院有限公司国网江苏省电力有限公司国网江苏省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1