一种文本分类方法、装置及存储介质制造方法及图纸

技术编号：18711663 阅读：20 留言：0更新日期：2018-08-21 22:48

本发明专利技术实施例公开了文本分类方法、装置及存储介质，应用于信息处理技术领域。文本分类装置在对待处理文本进行分类时，可以根据主题模型中各个词语的主题分布信息，确定待处理文本中的关键词在主题模型中的第一主题分布信息，然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果，确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系，即第一主题分布信息，这样可以提高对待处理文本进行分类后，得到的分类结果的有效性。特别是对于待处理文本是短文件时，待处理文本中包含的信息较少，本实施例的方法可以很好地应用于对短文本的分类过程中，具有一定的广泛性。

Text categorization method, device and storage medium

The embodiment of the invention discloses a text classification method, a device and a storage medium, which are applied to the technical field of information processing. Text categorization device can determine the first topic distribution information of the keywords in the text to be processed according to the topic distribution information of each word in the subject model, and then the text categorization model can classify the keywords according to the first topic distribution information and the feature information of the text to be processed. The result of the calculation determines the category of the text to be processed. In this way, the text classification model can combine with the topic model to get the effective relationship between the text to be processed and the knowledge outside the text to be processed, that is, the first topic distribution information, which can improve the effectiveness of the classification results after classifying the processed text. Especially when the text to be processed is a short file, the information contained in the text to be processed is less. The method of this example can be well applied to the classification process of short text, and has certain extensiveness.

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置及存储介质
本专利技术涉及信息处理
，特别涉及一种文本分类方法、装置及存储介质。
技术介绍
通常，短文本分类任务着眼于在长度较短的文本上，通常是一句话或者搜索引擎的检索查询(query)，对短文本按照主题或者其它类别信息进行区分。现有技术中，在对短文本进行分类时，主要采用主题模型或神经网络的方法进行分类，具体地：在使用主题模型进行短文本分类时，主要是通过无监督或者半监督的学习方法对短文本类别进行判断，在这个过程中，为了得到有效的词语(或其他符号)关系描述，这类方法通常需要利用一般性的篇章级文本数据构建概率主题模型。但是由于短文本中包含词语较少，直接在短文本上使用主题模型往往无法得到合理的词语关系建模。而在使用神经网络的方法进行短文本分类时，直接通过训练的神经网络的分类器对短文本进行分类。这是最直接的一种短文本分类方案，不需要对短文本中的词语关系进行描述，但是其中神经网络的分类器是在长文本上直接训练得到的，没有不考虑短文本的特点，很多情况下对于短文本的分类效果不佳。
技术实现思路
本专利技术实施例提供一种文本分类方法、装置及存储介质，实现了根据主题模型与文本分类模型的结合对待处理文本进行分类。本专利技术实施例第一方面提供一种文本分类方法，包括：确定主题模型，及确定文本分类模型，所述主题模型包括各个词语的主题分布信息；根据所述各个词语的主题分布信息，确定待处理文本中的关键词在所述主题模型中的第一主题分布信息；通过文本分类模型获取所述待处理文本的特征信息；及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果，确定所述待处理文...

【技术保护点】
1.一种文本分类方法，其特征在于，包括：确定主题模型，及确定文本分类模型，所述主题模型包括各个词语的主题分布信息；根据所述各个词语的主题分布信息，确定待处理文本中的关键词在所述主题模型中的第一主题分布信息；通过文本分类模型获取所述待处理文本的特征信息；及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果，确定所述待处理文本的类别。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：确定主题模型，及确定文本分类模型，所述主题模型包括各个词语的主题分布信息；根据所述各个词语的主题分布信息，确定待处理文本中的关键词在所述主题模型中的第一主题分布信息；通过文本分类模型获取所述待处理文本的特征信息；及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果，确定所述待处理文本的类别。2.如权利要求1所述的方法，其特征在于，所述确定文本分类模型，具体包括：确定所述文本分类模型，及确定所述文本分类模型与主题模型之间的连接结构，所述连接结构用于根据所述各个词语的主题分布信息确定所述第一主题分布信息，并输出给所述文本分类模型；确定第二训练样本，所述第二训练样本中包括训练文本，及所述训练文本中各个词语所属的主题类型；通过所述文本分类模型根据所述第二训练样本中各个训练文本对应的第一主题分布信息，分别确定所述各个训练样本的类别，得到初始分类结果；根据所述初始分类结果计算与所述文本分类模型相关的损失函数值；根据所述损失函数值调整所述文本分类模型中的第二固定参数值。3.如权利要求2所述的方法，其特征在于，如果对所述第二固定参数值的调整满足如下任一停止条件，则停止对所述第二固定参数值的调整：对所述第二固定参数值的调整次数达到预置的次数，当前调整的第二固定参数值与上一次调整的第二固定参数值的差值小于一阈值。4.如权利要求1至3任一项所述的方法，其特征在于，所述根据所述各个词语的主题分布信息，确定待处理文本中的关键词在所述主题模型中的第一主题分布信息，具体包括：将所述待处理文本转化为第二语法格式的待处理文本，所述第二语法格式是所述主题模型中各个词语的语法格式；获取所述第二语法格式的待处理文本的第一特征信息；根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息，所述第一分布矩阵用于指示所述主题模型中各个词语的主题分布信息。5.如权利要求4所述的方法，其特征在于，所述根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息，具体包括：对所述第一分布矩阵进行归一化处理；将所述第一特征信息与所述归一化处理后的第一分布矩阵的乘积作为所述第一主题分布信息。6.如权利要求1至3任一项所述的方法，其特征在于，所述特征信息为所述待处理文本的浅层表达特征信息，则所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果，确定所述待处理文本的类别，具体包括：所述文本分类模型将所述浅层表达特征信息与所述第一主题分布信息进行相加，得到相加后特征信息；所述文本分类模型根据所述相加后特征信息获取所述待处理文本的最终特征信息；所述文本分类模型根据所述最终特征信息进行分类操作，得到所述待处理文本的类别。7.如权利要求6所述的方法，其特征在于，所述浅层表达特征信息为所述待处理文本的全局特征信息，或局部特征信息；所述最终特征信息为所述待处理文本中关键的局部特征信息。8.如权利要求1至3任一项所述的方法，其特征在于，所述特征信息为所述待处理文本的最终特征信息，则所述文本分类模型根据所述第一主...

【专利技术属性】
技术研发人员：宋彦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人