一种文本分类方法、装置及存储介质制造方法及图纸

技术编号:18711663 阅读:20 留言:0更新日期:2018-08-21 22:48
本发明专利技术实施例公开了文本分类方法、装置及存储介质,应用于信息处理技术领域。文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。

Text categorization method, device and storage medium

The embodiment of the invention discloses a text classification method, a device and a storage medium, which are applied to the technical field of information processing. Text categorization device can determine the first topic distribution information of the keywords in the text to be processed according to the topic distribution information of each word in the subject model, and then the text categorization model can classify the keywords according to the first topic distribution information and the feature information of the text to be processed. The result of the calculation determines the category of the text to be processed. In this way, the text classification model can combine with the topic model to get the effective relationship between the text to be processed and the knowledge outside the text to be processed, that is, the first topic distribution information, which can improve the effectiveness of the classification results after classifying the processed text. Especially when the text to be processed is a short file, the information contained in the text to be processed is less. The method of this example can be well applied to the classification process of short text, and has certain extensiveness.

【技术实现步骤摘要】
一种文本分类方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种文本分类方法、装置及存储介质。
技术介绍
通常,短文本分类任务着眼于在长度较短的文本上,通常是一句话或者搜索引擎的检索查询(query),对短文本按照主题或者其它类别信息进行区分。现有技术中,在对短文本进行分类时,主要采用主题模型或神经网络的方法进行分类,具体地:在使用主题模型进行短文本分类时,主要是通过无监督或者半监督的学习方法对短文本类别进行判断,在这个过程中,为了得到有效的词语(或其他符号)关系描述,这类方法通常需要利用一般性的篇章级文本数据构建概率主题模型。但是由于短文本中包含词语较少,直接在短文本上使用主题模型往往无法得到合理的词语关系建模。而在使用神经网络的方法进行短文本分类时,直接通过训练的神经网络的分类器对短文本进行分类。这是最直接的一种短文本分类方案,不需要对短文本中的词语关系进行描述,但是其中神经网络的分类器是在长文本上直接训练得到的,没有不考虑短文本的特点,很多情况下对于短文本的分类效果不佳。
技术实现思路
本专利技术实施例提供一种文本分类方法、装置及存储介质,实现了根据主题模型与文本分类模型的结合对待处理文本进行分类。本专利技术实施例第一方面提供一种文本分类方法,包括:确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;通过文本分类模型获取所述待处理文本的特征信息;及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。本专利技术实施例第二方面提供一种文本分类装置,包括:模型确定单元,用于确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;分布确定单元,用于根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;特征获取单元,用于通过文本分类模型获取所述待处理文本的特征信息;及类别确定单元,用于通过所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。本专利技术实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本专利技术实施例第一方面所述的文本分类方法。本专利技术实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本专利技术实施例第一方面所述的文本分类方法。可见,在本实施例的方法中,文本分类装置在对待处理文本进行分类时,可以根据主题模型中各个词语的主题分布信息,确定待处理文本中的关键词在主题模型中的第一主题分布信息,然后文本分类模型再根据第一主题分布信息与待处理文本的特征信息的计算结果,确定待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文件时,待处理文本中包含的信息较少,本实施例的方法可以很好地应用于对短文本的分类过程中,具有一定的广泛性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种文本分类方法的流程图;图2a是本专利技术一个实施例中一种根据第一主题分布信息与特征信息的计算结果确定待处理文本的类别的示意图;图2b是本专利技术一个实施例中另一种根据第一主题分布信息与特征信息的计算结果确定待处理文本的类别的示意图;图3是本专利技术一个实施例中训练文本分类模型的方法流程图;图4是本专利技术一个实施例中文本分类装置确定的文本分类模型与主题模型之间的结构示意图;图5是本专利技术应用实施例中文本分类装置的示意图;图6是本专利技术应用实施例提供的文本分类方法的流程图;图7是本专利技术实施例提供的一种文本分类装置的结构示意图;图8是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供一种文本分类方法,主要可以应用于任何短文本分类的场景,例如,搜索引擎的查询意图分类,对话系统问题分类,社交媒体文本主题分类,等等。其中,在搜索引擎的查询意图分类中,针对查询类型的短文本,可以通过主题模型分析待查询短文本中的关键词在主题模型上的主题分布概率,然后文本分类模型根据该主题分布概率确定待查询短文本的查询意图。在对话系统问题分类中,如果用户输入到对话系统中的问题存在大量的信息缺失和需要补全的背景知识,并未在输入问题中明确体现出来。因此,在本专利技术实施例中通过主题模型可以一定程度上构建输入问题中词语与其它未在输入问题中出现的词语的关系,进而文本分类模型可以根据主题模型构建的关系确定输入问题的类型。例如,当用户的输入问题为“苹果和黑莓哪个好?”,只从“苹果”和“黑莓”等关键词并不能确定输入问题的意图,是对手机/电子产品进行比较还是对水果的讨论,而通过主题模型可以确定“苹果”和“黑莓”在作为电子产品品牌以及出现类似问题的场景的主题概率更高,因此,文本分类模型会倾向于选择针对手机/电子产品这一类型。本专利技术实施例的文本分类方法还可以应用于长文本的分类,或其它类型文本的输入,比如更低粒度的字或字母的分类,及更高粒度的二元或多元语法(n-gram)的文本分类等。具体地,本专利技术实施例中文本分类装置可以通过如下方法进行文本分类:确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;通过文本分类模型获取所述待处理文本的特征信息;及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。这样文本分类模型可以结合主题模型得到待处理文本与待处理文本之外知识的有效关系,即第一主题分布信息,这样可以提高通过文本分类模型对待处理文本进行分类后,得到的分类结果的有效性。特别是对于待处理文本是短文本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;通过文本分类模型获取所述待处理文本的特征信息;及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:确定主题模型,及确定文本分类模型,所述主题模型包括各个词语的主题分布信息;根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息;通过文本分类模型获取所述待处理文本的特征信息;及所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别。2.如权利要求1所述的方法,其特征在于,所述确定文本分类模型,具体包括:确定所述文本分类模型,及确定所述文本分类模型与主题模型之间的连接结构,所述连接结构用于根据所述各个词语的主题分布信息确定所述第一主题分布信息,并输出给所述文本分类模型;确定第二训练样本,所述第二训练样本中包括训练文本,及所述训练文本中各个词语所属的主题类型;通过所述文本分类模型根据所述第二训练样本中各个训练文本对应的第一主题分布信息,分别确定所述各个训练样本的类别,得到初始分类结果;根据所述初始分类结果计算与所述文本分类模型相关的损失函数值;根据所述损失函数值调整所述文本分类模型中的第二固定参数值。3.如权利要求2所述的方法,其特征在于,如果对所述第二固定参数值的调整满足如下任一停止条件,则停止对所述第二固定参数值的调整:对所述第二固定参数值的调整次数达到预置的次数,当前调整的第二固定参数值与上一次调整的第二固定参数值的差值小于一阈值。4.如权利要求1至3任一项所述的方法,其特征在于,所述根据所述各个词语的主题分布信息,确定待处理文本中的关键词在所述主题模型中的第一主题分布信息,具体包括:将所述待处理文本转化为第二语法格式的待处理文本,所述第二语法格式是所述主题模型中各个词语的语法格式;获取所述第二语法格式的待处理文本的第一特征信息;根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,所述第一分布矩阵用于指示所述主题模型中各个词语的主题分布信息。5.如权利要求4所述的方法,其特征在于,所述根据所述第一特征信息及第一分布矩阵确定所述第一主题分布信息,具体包括:对所述第一分布矩阵进行归一化处理;将所述第一特征信息与所述归一化处理后的第一分布矩阵的乘积作为所述第一主题分布信息。6.如权利要求1至3任一项所述的方法,其特征在于,所述特征信息为所述待处理文本的浅层表达特征信息,则所述文本分类模型根据所述第一主题分布信息与所述特征信息的计算结果,确定所述待处理文本的类别,具体包括:所述文本分类模型将所述浅层表达特征信息与所述第一主题分布信息进行相加,得到相加后特征信息;所述文本分类模型根据所述相加后特征信息获取所述待处理文本的最终特征信息;所述文本分类模型根据所述最终特征信息进行分类操作,得到所述待处理文本的类别。7.如权利要求6所述的方法,其特征在于,所述浅层表达特征信息为所述待处理文本的全局特征信息,或局部特征信息;所述最终特征信息为所述待处理文本中关键的局部特征信息。8.如权利要求1至3任一项所述的方法,其特征在于,所述特征信息为所述待处理文本的最终特征信息,则所述文本分类模型根据所述第一主...

【专利技术属性】
技术研发人员:宋彦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1