基于朴素贝叶斯的文本分类方法、装置、设备和介质制造方法及图纸

技术编号:35477686 阅读:14 留言:0更新日期:2022-11-05 16:26
本公开的实施例公开了基于朴素贝叶斯的文本分类方法、装置、设备和介质。该方法的一具体实施方式包括:获取目标文本数据;对目标文本数据进行分词处理,得到目标文本词汇集合;从目标文本词汇集合中提取满足预设关键词条件的目标文本词汇作为目标关键词汇,得到目标关键词汇集合;对目标关键词汇集合中的每个目标关键词汇进行向量化处理,以生成目标关键词汇向量,得到目标关键词汇向量集合;将目标关键词汇向量集合输入到朴素贝叶斯文本分类模型中,得到对应目标文本数据的文本类别。该实施方式可以基于朴素贝叶斯模型对文本进行分类,提高了文本分类效率。提高了文本分类效率。提高了文本分类效率。

【技术实现步骤摘要】
基于朴素贝叶斯的文本分类方法、装置、设备和介质


[0001]本公开的实施例涉及计算机
,具体涉及基于朴素贝叶斯的文本分类方法、装置、设备和介质。

技术介绍

[0002]在大数据时代下,随着网络平台的快速发展,大量的文本信息快速增长,如何对文本进行高效准确的分类成为急需解决的技术问题。目前,在对文本进行分类时,通常采用的方式为:基于深度学习模型的文本分类方法对文本进行分类。
[0003]然而,当采用上述方式对文本进行分类时,经常会存在如下技术问题:
[0004]第一,基于深度学习模型的文本分类方法,模型结构复杂,对文本进行分类时花费时间长,文本分类效率相对较低。
[0005]第二,基于深度学习模型的文本分类方法对于数据的依赖性较高,无法处理复杂场景下的文本分类。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了基于朴素贝叶斯的文本分类方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0008]第一方面,本公开的一些实施例提供了一种基于朴素贝叶斯的文本分类方法,该方法包括:获取目标文本数据;对上述目标文本数据进行分词处理,得到目标文本词汇集合;从上述目标文本词汇集合中提取满足预设关键词条件的目标文本词汇作为目标关键词汇,得到目标关键词汇集合;对上述目标关键词汇集合中的每个目标关键词汇进行向量化处理,以生成目标关键词汇向量,得到目标关键词汇向量集合;将上述目标关键词汇向量集合输入到朴素贝叶斯文本分类模型中,得到对应上述目标文本数据的文本类别,其中,上述朴素贝叶斯文本分类模型为预先训练得到的。
[0009]第二方面,本公开的一些实施例提供了一种基于朴素贝叶斯的文本分类装置,装置包括:获取单元,被配置成获取目标文本数据;第一处理单元,被配置成对上述目标文本数据进行分词处理,得到目标文本词汇集合;提取单元,被配置成从上述目标文本词汇集合中提取满足预设关键词条件的目标文本词汇作为目标关键词汇,得到目标关键词汇集合;第二处理单元,被配置成对上述目标关键词汇集合中的每个目标关键词汇进行向量化处理,以生成目标关键词汇向量,得到目标关键词汇向量集合;输入单元,被配置成将上述目标关键词汇向量集合输入到朴素贝叶斯文本分类模型中,得到对应上述目标文本数据的文本类别,其中,上述朴素贝叶斯文本分类模型为预先训练得到的。
[0010]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;
存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
[0011]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
[0012]本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的基于朴素贝叶斯的文本分类方法,可以基于朴素贝叶斯对文本进行分类,提高了文本分类效率。具体来说,造成文本分类效率相对较低的原因在于:基于深度学习模型的文本分类方法,模型结构复杂,对文本进行分类时花费时间长,文本分类效率相对较低。基于此,本公开的一些实施例的基于朴素贝叶斯的文本分类方法,首先,获取目标文本数据。由此,可以得到目标文本数据,从而可以对目标文本数据进行分类。其次,对上述目标文本数据进行分词处理,得到目标文本词汇集合。由此,目标文本词汇集合可以用于向量化处理。然后,从上述目标文本词汇集合中提取满足预设关键词条件的目标文本词汇作为目标关键词汇,得到目标关键词汇集合。由此,得到的目标关键词汇集合可以减少向量化处理的处理量。之后,对上述目标关键词汇集合中的每个目标关键词汇进行向量化处理,以生成目标关键词汇向量,得到目标关键词汇向量集合。由此,可以得到目标文本数据中的目标关键词汇特征从而可以直接用于文本分类。最后,将上述目标关键词汇向量集合输入到朴素贝叶斯文本分类模型中,得到对应上述目标文本数据的文本类别。其中,上述朴素贝叶斯文本分类模型为预先训练得到的。由此,可以直接对上述目标文本数据进行文本分类,得到对应上述目标文本数据的文本类别。也因为基于朴素贝叶斯的文本分类方法模型结构简单,对文本进行分类花费时间短,从而可以提高文本分类效率。由此,基于朴素贝叶斯对文本进行分类,提高了文本分类效率。
附图说明
[0013]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
[0014]图1是根据本公开的基于朴素贝叶斯的文本分类方法的一些实施例的流程图;
[0015]图2是根据本公开的基于朴素贝叶斯的文本分类装置的一些实施例的结构示意图;
[0016]图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
[0017]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0018]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0019]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单
元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0020]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0021]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0022]下面将参考附图并结合实施例来详细说明本公开。
[0023]图1示出了根据本公开的基于朴素贝叶斯的文本分类方法的一些实施例的流程100。该基于朴素贝叶斯的文本分类方法,包括以下步骤:
[0024]步骤101,获取目标文本数据。
[0025]在一些实施例中,基于朴素贝叶斯的文本分类方法的执行主体(例如计算机设备)可以通过有线连接方式或者无线连接方式获取目标文本数据。其中,上述目标文本数据可以为需要进行文本分类处理的文本数据。需要指出的是,上述无线连接方式可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于朴素贝叶斯的文本分类方法,包括:获取目标文本数据;对所述目标文本数据进行分词处理,得到目标文本词汇集合;从所述目标文本词汇集合中提取满足预设关键词条件的目标文本词汇作为目标关键词汇,得到目标关键词汇集合;对所述目标关键词汇集合中的每个目标关键词汇进行向量化处理,以生成目标关键词汇向量,得到目标关键词汇向量集合;将所述目标关键词汇向量集合输入到朴素贝叶斯文本分类模型中,得到对应所述目标文本数据的文本类别,其中,所述朴素贝叶斯文本分类模型为预先训练得到的。2.根据权利要求1所述的方法,其中,所述朴素贝叶斯文本分类模型是通过以下步骤训练得到的:获取样本集,其中,所述样本集中的样本包括样本文本和对应所述样本文本的类别标签;对所述样本集包括的每个样本文本进行分词处理,以生成样本文本词汇组,得到样本文本词汇组集合;对所述样本文本词汇组集合中的每个样本文本词汇组进行样本关键词汇提取处理,得到样本关键词汇组集合,其中,所述样本关键词汇组集合中的样本关键词汇组对应所述样本文本词汇组集合中的样本文本词汇组;对所述样本关键词汇组集合中的每个样本关键词汇组进行向量化处理,以生成样本关键词汇向量组,得到样本关键词汇向量组集合;根据所述样本关键词汇向量组集合,生成样本关键词汇矩阵;根据所述样本关键词汇矩阵和所述样本集包括的各个类别标签,以初始朴素贝叶斯文本分类模型,训练得到朴素贝叶斯文本分类模型,其中,所述朴素贝叶斯文本分类模型包括所述各个类别标签所对应的各个先验概率和各个条件概率。3.根据权利要求1所述的方法,其中,在所述获取目标文本数据之前,所述方法还包括:接收用户输入的文本数据;将所述文本数据存储至文本数据缓存。4.根据权利要求3所述的方法,其中,所述获取目标文本数据,包括:响应于确定当前时间满足预设的间隔时长条件,从所述文本数据缓存获取目标文本数据。5.根据权利要求4所述的方法,其中,所述从所述文本数据缓存获取目标文本数据,包括...

【专利技术属性】
技术研发人员:刘强
申请(专利权)人:杭州易有料科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1