The present disclosure relates to a text classification method and device. The method comprises the following steps: segmentation of the training text, get the first segmentation results; according to the first segmentation results to get the first word set; extracting keywords from the first word in the collection, the first set of keywords; determine the first word segmentation matrix corresponding to the first set; determining a first set of keywords matrix corresponding to the first second words; second words matrix vector computation center each word; and the first input vector center vector attention model first word in the matrix, get the feature vector, the training texts in which attention model using BiLSTM model as an encoding model; according to the text of the training feature vectors and training text categories, training text classifier. The text classifier obtained by the public training can improve the accuracy of text classification.
【技术实现步骤摘要】
文本分类方法及装置
本公开涉及信息
,尤其涉及一种文本分类方法及装置。
技术介绍
近年来,随着互联网、社交网络、云计算等技术和概念的提出和逐渐普及,每日需要被处理的数据量急剧增长。这其中文本数据一直占据着数据的主导地位,与声音、图像等数据相比较,文本数据具有体积小、信息量大、传播易和获取方便等特点。针对海量文本数据,我们面临着如何进行有效的信息挖掘、分析和处理,以获取所需要的信息的问题。数据量的显著增大越来越能体现机器学习的必要性和重要性。机器学习旨在研究如何让机器模拟人类的思考学习方式,进而让机器自己得到想学习到的最终结果。文本分类是文本挖掘和信息检索的基础技术之一。文本分类即是通过一系列的判定条件对指定的一个或多个文本进行类别的判断(归类的过程)。如何用机器学习的方法将文本进行分类一直是我们关注的方向。通过机器学习来进行文本分类的难点在于计算机没有“自我的意识”,不懂如何根据实际环境因素进行灵活变通,这样分析出的结果可能和人工方式分类结果的准确度相差很大。机器学习分类方法时至今日取得了一些客观的进展。较早的基于机器学习的文本分类方法是朴素贝叶斯(Bayes,NB),它采用相对简单的分类器根据条件概率计算待判断文章的类型。但随着数据量的急剧增大,朴素贝叶斯算法逐渐不再适用。之后出现的KNN(K-NearestNeighbor,K最邻近)算法较适合多文本分类的情况,样本在每个样本集中寻找临近相似的样本,通过找到相似样本的多少确定在哪一个类。然而,KNN只在每个样本类数量都比较均衡的情况下才会较准确。SVM(SupportVectorMachine,支 ...
【技术保护点】
一种文本分类方法,其特征在于,包括:对训练文本进行分词,得到第一分词结果;根据所述第一分词结果得到第一分词集合;从所述第一分词集合中抽取关键词,得到第一关键词集合;确定所述第一分词集合对应的第一词矩阵;确定所述第一关键词集合对应的第二词矩阵;计算所述第二词矩阵的第一中心向量;将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对训练文本进行分词,得到第一分词结果;根据所述第一分词结果得到第一分词集合;从所述第一分词集合中抽取关键词,得到第一关键词集合;确定所述第一分词集合对应的第一词矩阵;确定所述第一关键词集合对应的第二词矩阵;计算所述第二词矩阵的第一中心向量;将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,其中,所述注意力模型采用BiLSTM模型作为编码模型;根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器。2.根据权利要求1所述的文本分类方法,其特征在于,将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型,得到所述训练文本的特征向量,包括:将所述第一词矩阵中的各个词向量和所述第一中心向量输入注意力模型;根据所述BiLSTM模型前序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,以及所述BiLSTM模型后序时所述第一词矩阵中的各个词向量与所述第一中心向量的相似度,确定所述第一词矩阵中的各个词向量对应的注意力概率;根据所述注意力概率,得到所述注意力模型的输出结果;根据所述注意力模型的输出结果,以及所述BiLSTM模型对应于所述第一中心向量的前序和后序的隐藏层状态值,确定所述训练文本的特征向量。3.根据权利要求1所述的方法,其特征在于,根据所述第一分词结果得到第一分词集合,包括:过滤所述第一分词结果中的停用词,得到所述第一分词集合。4.根据权利要求1所述的方法,其特征在于,在根据所述训练文本的特征向量和所述训练文本的类别,训练文本分类器之后,所述方法还包括:对测试文本进行分词,得到第二分词结果;根据所述第二分词结果得到第二分词集合;从所述第二分词集合中抽取关键词,得到第二关键词集合;确定所述第二分词集合对应的第三词矩阵;确定所述第二关键词集合对应的第四词矩阵;计算所述第四词矩阵的第二中心向量;将所述第三词矩阵中的各个词向量和所述第二中心向量输入所述注意力模型,得到所述测试文本的特征向量;根据所述测试文本的特征向量对所述文本分类器进行测试,并根据测试结果调整所述文本分类器的参数。5.根据权利要求4中所述的方法,其特征在于,在根据测试结果调整所述文本分类器的参数之后,所述方法还包括:对待分类文本进行分词,得到第三分词结果;根据所述第三分词结果得到第三分词集合;从所述第三分词集合中抽取关键词,得到第三关键词集合;确定所述第三分词集合对应的第五词矩阵;确定所述第三关键词集合对应的第六词矩阵;计算所述第六词矩阵的第三中心向量;将所述第五词矩阵中的各个词向量和所述第三中心向量输入所述注意力模型,得到所述待分类文本的特征向量;将所述待分类文本的特征向量输入所述文本分类器,得到所述待分类文本的类别。6.一种文本分类装置,其特征在于,包括:第一分词模块,用于对训练文本进行分词,得到第一分词结果;第一分词集合确定模块,用于根据所述第一分词结果得到第一分词集合;第一关键词集合确定模块,用于从所述第一分词集合中抽取关键词,得到第一关键词集合;第一词矩阵确定模块,用于确定所述第一分词集合对应的第一词矩阵;第二词矩阵确定模块,用于确定所述第一关键词集合对应的第二词矩...
【专利技术属性】
技术研发人员:姜海,王忠儒,李海磊,
申请(专利权)人:北京丁牛科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。