文本分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:25802659 阅读:30 留言:0更新日期:2020-09-29 18:36
本申请提供了一种文本分类方法、装置、计算机设备和存储介质,该方法包括:生成多个主题数;针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。本申请能够提供对文本进行分类的分类结果的准确度。

【技术实现步骤摘要】
文本分类方法、装置、计算机设备和存储介质
本申请涉及数据处理
,具体而言,涉及一种文本分类方法、装置、计算机设备和存储介质。
技术介绍
将文本信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用,然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,因此,开展大规模文本聚类分析有着非常重要的意义。现有的文本聚类分析在主题个数增大的情况下,如果限制主题数量,则在不同主题下的文本将会混杂在一起,最终得到的分类结果的准确度比较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本分类方法、装置、计算机设备和存储介质,用以提高文本分类结果的准确度。第一方面,本申请实施例提供了一种文本分类方法,该方法包括:生成多个主题数;针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。在一种实施方式中,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,包括:根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。在一种实施方式中,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数,包括:基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;将最大评估系数对应的主题数作为所述目标主题数。在一种实施方式中,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果,包括:针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;将属于同一个主题的文本确定为一个分类。在一种实施方式中,根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵,包括:针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;基于该词汇集合中包括的各个词汇在该文本中的词频,确定该文本对应的词频向量;所述词频向量中包括文本中包括的各个词汇的词频;基于各文本的词频向量,以及所述文本的总数,确定所述多个文本对应的词频矩阵。第二方面,本申请实施例提供了一种文本分类装置,该装置包括:生成模块,用于生成多个主题数;校准模块,用于针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;选择模块,用于针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;分类模块,用于基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。在一种实施方式中,所述校准模块用于根据以下步骤得到每个文本属于该主题数个主题的校准概率:根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。在一种实施方式中,所述选择模块用于根据以下步骤选择目标主题数:基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;将最大评估系数对应的主题数作为所述目标主题数。第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述文本分类方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述文本分类方法的步骤。本申请实施例提供的文本分类方法,生成多个主题数,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对多个文本进行预分类处理的分类结果,从多个主题数中,选择目标主题数,基于所述目标主题数,对多个文本进行分类处理,得到多个文本的分类结果,这样,通过在多个主题数中选择最佳主题数,利用最佳主题数对多个文本进行聚类,相比任意选择主题数目对本文进行分类,提高了分类结果的准确度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例提供的一种文本分类方法的流程示意图;图2示出了本申请实施例提供的一种文本分类装置的结构示意图;图3示出了本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,该方法包括:/n生成多个主题数;/n针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;/n针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;/n基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,该方法包括:
生成多个主题数;
针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率;
针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数;
基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果。


2.如权利要求1所述的方法,其特征在于,针对多个主题数中的每个主题数,根据多个文本中包括的词汇的词频,对每个文本属于该主题数个主题的初始概率进行校准,得到每个文本属于该主题数个主题的校准概率,包括:
根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵;所述词频矩阵包括每个文本中表征词汇重要性的词汇权重;
针对每个主题数,基于每个文本属于该主题数个主题的初始概率,以及每个文本在每个主题下的初始系数,生成所述多个文本对应的生成矩阵;
按照生成矩阵与词频矩阵之间的距离最小原则,调整每个文本属于该主题数个主题的初始概率,得到每个文本属于该主题数个主题的校准概率。


3.如权利要求1所述的方法,其特征在于,针对多个主题数中的每个主题数,基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类处理的分类结果,从所述多个主题数中,选择目标主题数,包括:
基于每个文本属于该主题数个主题的校准概率对所述多个文本进行预分类的分类结果,以及预设的分类结果和评估系数之间的计算关系,得到该主题数对应的评估系数;
将最大评估系数对应的主题数作为所述目标主题数。


4.如权利要求1所述的方法,其特征在于,基于所述目标主题数,对所述多个文本进行分类处理,得到所述多个文本的分类结果,包括:
针对每个文本,基于该文本属于所述目标主题数个主题的校准概率,从所述目标主题数个主题中,确定该文本所属的主题;
将属于同一个主题的文本确定为一个分类。


5.如权利要求2所述的方法,其特征在于,根据多个文本中包括的词汇的词频,为所述多个文本生成词频矩阵,包括:
针对多个文本中的每个文本,对该文本进行分词处理,得到该文本的词汇集合;
基于该词...

【专利技术属性】
技术研发人员:李函擎
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1