文本分类方法及装置制造方法及图纸

技术编号:16837625 阅读:34 留言:0更新日期:2017-12-19 20:03
本公开涉及文本分类方法及装置。该方法包括:对训练文本进行分词,得到第一分词结果;根据第一分词结果得到第一分词集合;从第一分词集合中抽取关键词,得到第一关键词集合;确定第一分词集合对应的第一词矩阵;确定第一关键词集合对应的第二词矩阵;计算第二词矩阵的第一中心向量;将第一词矩阵中的各个词向量和第一中心向量输入注意力模型,得到训练文本的特征向量,其中,注意力模型采用BiLSTM模型作为编码模型;根据训练文本的特征向量和训练文本的类别,训练文本分类器。本公开训练得到的文本分类器能够提高文本分类的准确度。

Text classification method and device

The present disclosure relates to a text classification method and device. The method comprises the following steps: segmentation of the training text, get the first segmentation results; according to the first segmentation results to get the first word set; extracting keywords from the first word in the collection, the first set of keywords; determine the first word segmentation matrix corresponding to the first set; determining a first set of keywords matrix corresponding to the first second words; second words matrix vector computation center each word; and the first input vector center vector attention model first word in the matrix, get the feature vector, the training texts in which attention model using BiLSTM model as an encoding model; according to the text of the training feature vectors and training text categories, training text classifier. The text classifier obtained by the public training can improve the accuracy of text classification.

【技术实现步骤摘要】
文本分类方法及装置
本公开涉及信息
,尤其涉及一种文本分类方法及装置。
技术介绍
近年来,随着互联网、社交网络、云计算等技术和概念的提出和逐渐普及,每日需要被处理的数据量急剧增长。这其中文本数据一直占据着数据的主导地位,与声音、图像等数据相比较,文本数据具有体积小、信息量大、传播易和获取方便等特点。针对海量文本数据,我们面临着如何进行有效的信息挖掘、分析和处理,以获取所需要的信息的问题。数据量的显著增大越来越能体现机器学习的必要性和重要性。机器学习旨在研究如何让机器模拟人类的思考学习方式,进而让机器自己得到想学习到的最终结果。文本分类是文本挖掘和信息检索的基础技术之一。文本分类即是通过一系列的判定条件对指定的一个或多个文本进行类别的判断(归类的过程)。如何用机器学习的方法将文本进行分类一直是我们关注的方向。通过机器学习来进行文本分类的难点在于计算机没有“自我的意识”,不懂如何根据实际环境因素进行灵活变通,这样分析出的结果可能和人工方式分类结果的准确度相差很大。机器学习分类方法时至今日取得了一些客观的进展。较早的基于机器学习的文本分类方法是朴素贝叶斯(Bayes,NB),它采用相对简单的分类器根据条件概率计算待判断文章的类型。但随着数据量的急剧增大,朴素贝叶斯算法逐渐不再适用。之后出现的KNN(K-NearestNeighbor,K最邻近)算法较适合多文本分类的情况,样本在每个样本集中寻找临近相似的样本,通过找到相似样本的多少确定在哪一个类。然而,KNN只在每个样本类数量都比较均衡的情况下才会较准确。SVM(SupportVectorMachine,支持向量机)算法是目前在机器学习领域使用最广泛、性能最好的分类器之一。但SVM适用于二分类,而文本分类大多是多个分类。决策树算法是一个树结构(可以是二叉树或非二叉树),其每个非叶节点表示一个特征属性,每个分支代表这个特征属性在某个值域上的输出,每个叶节点存放一个类别;决策树算法对连续性字段比较难预测,并存在对时间上混序的数据需要预处理的工作等缺陷。循环神经网络不同于前几个较简单的算法,其模拟了时间顺序上的数据前者对后者的影响力,具有单一输入/输出层和多隐含层的模拟神经结构,然而循环神经网络依然在时间上存在梯度爆炸的问题。当前,虽然基于机器学习的文本分类技术取得了一些进展,但是在大数据环境下,由于文本数据的分布不均匀、关系繁杂、种类繁多和更新速度快等特征,给文本分类带来了严峻的挑战。我们需要对文本分类技术进行更深入的研究,研究更高效的文本分类方法,取得更好的分类效果,以适应DT(DataTechnology,数据科技)时代的发展需要。
技术实现思路
有鉴于此,本公开提出了一种文本分类方法及装置,以获得更准确的文本分类结果。根据本公开的一方面,提供了一种文本分类方法,包括:对训练文本进行分词,得到第一分词结果;根据所述第一分词结果得到第一分词集合;从所述第一分词集合中抽取关键词,得到第一关键词集合;确定所述第一分词集合对应的第一词矩阵;确定所述第一关键词集合对应的第二词矩阵;计算所述第二词矩阵的第一中心向量;将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。在一种可能的实现方式中,将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,包括:将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型;根据所述BiLSTM模型前序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,以及所述BiLSTM模型后序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,确定所述第一词矩阵中的各个词向量对应的注意力概率;根据所述注意力概率,得到所述注意力模型的输出结果;根据所述注意力模型的输出结果,以及所述BiLSTM模型对应于所述第一中心向量的前序和后序的隐藏层状态值,确定所述训练文本的特征向量。在一种可能的实现方式中,根据所述第一分词结果得到第一分词集合,包括:过滤所述第一分词结果中的停用词,得到所述第一分词集合。在一种可能的实现方式中,在根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器之后,所述方法还包括:对测试文本进行分词,得到第二分词结果;根据所述第二分词结果得到第二分词集合;从所述第二分词集合中抽取关键词,得到第二关键词集合;确定所述第二分词集合对应的第三词矩阵;确定所述第二关键词集合对应的第四词矩阵;计算所述第四词矩阵的第二中心向量;将所述第三词矩阵中的各个词向量和所述第二中心向量输入所述注意力模型,得到所述测试文本的特征向量;根据所述测试文本的特征向量对所述文本分类器进行测试,并根据测试结果调整所述文本分类器的参数。在一种可能的实现方式中,在根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器之后,所述方法还包括:对待分类文本进行分词,得到第三分词结果;根据所述第三分词结果得到第三分词集合;从所述第三分词集合中抽取关键词,得到第三关键词集合;确定所述第三分词集合对应的第五词矩阵;确定所述第三关键词集合对应的第六词矩阵;计算所述第六词矩阵的第三中心向量;将所述第五词矩阵中的各个词向量和所述第三中心向量输入所述注意力模型,得到所述待分类文本的特征向量;将所述待分类文本的特征向量输入所述文本分类器,得到所述待分类文本的类别。根据本公开的另一方面,提供了一种文本分类装置,包括:第一分词模块,用于对训练文本进行分词,得到第一分词结果;第一分词集合确定模块,用于根据所述第一分词结果得到第一分词集合;第一关键词集合确定模块,用于从所述第一分词集合中抽取关键词,得到第一关键词集合;第一词矩阵确定模块,用于确定所述第一分词集合对应的第一词矩阵;第二词矩阵确定模块,用于确定所述第一关键词集合对应的第二词矩阵;第一计算模块,用于计算所述第二词矩阵的第一中心向量;第一特征向量确定模块,用于将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;训练模块,用于根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。在一种可能的实现方式中,所述第一特征向量确定模块包括:输入子模块,用于将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型;注意力概率确定子模块,用于根据所述BiLSTM模型前序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,以及所述BiLSTM模型后序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,确定所述第一词矩阵中的各个词向量对应的注意力概率;输出结果确定子模块,用于根据所述注意力概率,得到所述注意力模型的输出结果;特征向量确定子模块,用于根据所述注意力模型的输出结果,以及所述BiLSTM模型对应于所述第一中心向量的前序和后序的隐藏层状态值,确定所述训练文本的特征向量。在一种可能的实现方式中,所述第一分词集合确定模块用于:过滤所述第一分词结果中的停用词,得到所述第一分词集合。在一种可能的实现方式中本文档来自技高网
...
文本分类方法及装置

【技术保护点】
一种文本分类方法,其特征在于,包括:对训练文本进行分词,得到第一分词结果;根据所述第一分词结果得到第一分词集合;从所述第一分词集合中抽取关键词,得到第一关键词集合;确定所述第一分词集合对应的第一词矩阵;确定所述第一关键词集合对应的第二词矩阵;计算所述第二词矩阵的第一中心向量;将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对训练文本进行分词,得到第一分词结果;根据所述第一分词结果得到第一分词集合;从所述第一分词集合中抽取关键词,得到第一关键词集合;确定所述第一分词集合对应的第一词矩阵;确定所述第一关键词集合对应的第二词矩阵;计算所述第二词矩阵的第一中心向量;将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。2.根据权利要求1所述的文本分类方法,其特征在于,将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,包括:将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型;根据所述BiLSTM模型前序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,以及所述BiLSTM模型后序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,确定所述第一词矩阵中的各个词向量对应的注意力概率;根据所述注意力概率,得到所述注意力模型的输出结果;根据所述注意力模型的输出结果,以及所述BiLSTM模型对应于所述第一中心向量的前序和后序的隐藏层状态值,确定所述训练文本的特征向量。3.根据权利要求1所述的方法,其特征在于,根据所述第一分词结果得到第一分词集合,包括:过滤所述第一分词结果中的停用词,得到所述第一分词集合。4.根据权利要求1所述的方法,其特征在于,在根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器之后,所述方法还包括:对测试文本进行分词,得到第二分词结果;根据所述第二分词结果得到第二分词集合;从所述第二分词集合中抽取关键词,得到第二关键词集合;确定所述第二分词集合对应的第三词矩阵;确定所述第二关键词集合对应的第四词矩阵;计算所述第四词矩阵的第二中心向量;将所述第三词矩阵中的各个词向量和所述第二中心向量输入所述注意力模型,得到所述测试文本的特征向量;根据所述测试文本的特征向量对所述文本分类器进行测试,并根据测试结果调整所述文本分类器的参数。5.根据权利要求4中所述的方法,其特征在于,在根据测试结果调整所述文本分类器的参数之后,所述方法还包括:对待分类文本进行分词,得到第三分词结果;根据所述第三分词结果得到第三分词集合;从所述第三分词集合中抽取关键词,得到第三关键词集合;确定所述第三分词集合对应的第五词矩阵;确定所述第三关键词集合对应的第六词矩阵;计算所述第六词矩阵的第三中心向量;将所述第五词矩阵中的各个词向量和所述第三中心向量输入所述注意力模型,得到所述待分类文本的特征向量;将所述待分类文本的特征向量输入所述文本分类器,得到所述待分类文本的类别。6.一种文本分类装置,其特征在于,包括:第一分词模块,用于对训练文本进行分词,得到第一分词结果;第一分词集合确定模块,用于根据所述第一分词结果得到第一分词集合;第一关键词集合确定模块,用于从所述第一分词集合中抽取关键词,得到第一关键词集合;第一词矩阵确定模块,用于确定所述第一分词集合对应的第一词矩阵;第二词矩阵确定模块,用于确定所述第一关键词集合对应的第二词矩...

【专利技术属性】
技术研发人员:姜海王忠儒李海磊
申请(专利权)人:北京丁牛科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1