一种文本分类方法、计算机可读储存介质及系统技术方案

技术编号:20221782 阅读:42 留言:0更新日期:2019-01-28 20:17
本发明专利技术涉及一种文本分类方法、计算机可读储存介质及系统,包括:获取待分类的文本;获得表征待分类的文本的多个字和多个词;获得多个字向量和多个词向量;将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。通过利用堆栈双向循环神经网络,获取表征文本语义的高层次特征;通过融合待分类的文本的字信息和词信息,提高了准确性,提高了效率。

【技术实现步骤摘要】
一种文本分类方法、计算机可读储存介质及系统
本专利技术涉及自然语言处理领域,特别是涉及一种文本分类方法、计算机可读储存介质及系统。
技术介绍
随着互联网技术的发展,人们利用互联网发表可以各种言论,因此也产生了海量的文本信息。这些文本信息表达了人们的选择倾向性,提供了一个信息展示和交流的平台。如何从这些文本信息中获取选择倾向信息,成为了研究的话题。其中,专利技术人在作出本专利技术创造的过程中,发现获取选择信息的方式效率低下、分析准确率低。
技术实现思路
基于此,本专利技术的目的在于,提供一种文本分类方法,其具有提高准确性,提高效率的优点。一种文本分类方法,包括如下步骤:获取待分类的文本;对待分类的文本进行字切割和词切割,获得表征待分类的文本的多个字和多个词;将多个所述字和多个所述词分别进行向量化,获得多个字向量和多个词向量;构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络,并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括如下步骤:获取待分类的文本;对待分类的文本进行字切割和词切割,获得表征待分类的文本的多个字和多个词;将多个所述字和多个所述词分别进行向量化,获得多个字向量和多个词向量;构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络,并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括如下步骤:获取待分类的文本;对待分类的文本进行字切割和词切割,获得表征待分类的文本的多个字和多个词;将多个所述字和多个所述词分别进行向量化,获得多个字向量和多个词向量;构建基于字向量的堆栈双向循环神经网络和基于词向量的堆栈双向循环神经网络,并将多个所述字向量输入到基于字向量的堆栈双向循环神经网络,获得基于字向量的分类结果,将多个所述词向量输入到基于词向量的堆栈双向循环神经网络,获得基于词向量的分类结果;统计表征待分类的文本的字的数目和词的数目,若字数目与词的数目的关系满足设定阈值,则选择基于字向量的分类结果;否则,选择基于词向量的分类结果。2.根据权利要求1所述的文本分类方法,其特征在于,所述构建基于字向量的堆栈双向循环神经网络的步骤,包括:获取多个训练文本、以及各训练文本对应的选择标签;将各训练文本分别进行字切割,获得表征各训练文本的多个字;将表征各训练文本的多个所述字进行向量化,获得多个字向量;将各训练文本对应的多个所述字向量、以及各训练文本对应的选择标签,输入到基于字向量的堆栈双向循环神经网络中进行训练,并优化堆栈双向循环神经网络的各参数,获得基于字向量的堆栈双向循环神经网络。3.根据权利要求2所述的文本分类方法,其特征在于,所述构建基于词向量的堆栈双向循环神经网络的步骤,包括:获取多个训练文本、以及各训练文本对应的选择标签;将各训练文本分别进行词切割,...

【专利技术属性】
技术研发人员:曾碧卿杨健豪黄泳锐
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1