文本分类方法、文本分类装置、电子设备及存储介质制造方法及图纸

技术编号:34697708 阅读:9 留言:0更新日期:2022-08-27 16:33
本申请实施例提供了一种文本分类方法、文本分类装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待分类的原始文本;通过预设的主题词识别模型对原始文本进行主题词识别,得到实体主题词;对原始文本和实体主题词进行拼接处理,得到目标嵌入特征向量;通过预设的文本分类模型和参考分类标签对目标嵌入特征向量进行分类概率计算,得到每一参考分类标签对应的分类概率值;根据分类概率值对参考分类标签进行筛选处理,得到原始文本的目标分类标签。本申请实施例能够提高文本分类的准确性。类的准确性。类的准确性。

【技术实现步骤摘要】
文本分类方法、文本分类装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种文本分类方法、文本分类装置、电子设备及存储介质。

技术介绍

[0002]在常见的分类场景中,常常是采用人工判断的方式来对物料(例如、文本素材或者图像素材等等)进行分类处理,这一方式往往存在较大的人为主观性,会影响分类准确性,因此,如何提高文本分类的准确性,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种文本分类方法、文本分类装置、电子设备及存储介质,旨在提高文本分类的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种文本分类方法,所述方法包括:
[0005]获取待分类的原始文本;
[0006]通过预设的主题词识别模型对所述原始文本进行主题词识别,得到实体主题词;
[0007]对所述原始文本和所述实体主题词进行拼接处理,得到目标嵌入特征向量;
[0008]通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到每一所述参考分类标签对应的分类概率值;
[0009]根据所述分类概率值对所述参考分类标签进行筛选处理,得到所述原始文本的目标分类标签。
[0010]在一些实施例,所述通过预设的主题词识别模型对所述原始文本进行主题词识别,得到实体主题词的步骤,包括:
[0011]通过所述主题词识别模型对所述原始文本进行分词处理,得到目标文本词段;
[0012]根据预设的权重参数对所述目标文本词段进行关键词提取,得到文本关键词集合;
[0013]对所述文本关键词集合中的文本关键词进行组合处理,得到所述实体主题词。
[0014]在一些实施例,所述通过所述主题词识别模型对所述原始文本进行分词处理,得到目标文本词段的步骤,包括:
[0015]通过预设的分词器对所述原始文本进行词汇识别,得到词段实体特征;
[0016]根据所述词段实体特征对所述原始文本进行分词处理,得到初始文本词段;
[0017]对所述初始文本词段进行过滤处理,得到所述目标文本词段。
[0018]在一些实施例,所述根据预设的权重参数对所述目标文本词段进行关键词提取,得到文本关键词集合的步骤,包括:
[0019]对所述目标文本词段进行重要性排序,得到文本词段序列;
[0020]根据所述权重参数对所述文本词段序列进行权重分配,得到加权词段序列;
[0021]对所述加权词段序列进行词段筛选,得到所述文本关键词集合。
[0022]在一些实施例,所述对所述原始文本和所述实体主题词进行拼接处理,得到目标嵌入特征向量的步骤,包括:
[0023]对所述原始文本进行词嵌入处理,得到文本嵌入特征向量;
[0024]对所述实体主题词进行词嵌入处理,得到主题词嵌入特征向量;
[0025]根据预设的拼接顺序对所述文本嵌入特征向量和所述主题词嵌入特征向量进行拼接处理,得到所述目标嵌入特征向量。
[0026]在一些实施例,所述通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到每一所述参考分类标签对应的分类概率值的步骤,包括:
[0027]获取所述参考分类标签;
[0028]对所述参考分类标签进行词嵌入处理,得到参考分类标签向量;
[0029]通过所述文本分类模型对所述参考分类标签向量和所述目标嵌入特征向量进行向量相似度计算,得到所述分类概率值。
[0030]在一些实施例,所述通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到每一所述参考分类标签对应的分类概率值的步骤之前,所述方法包括预先训练所述文本分类模型,具体包括:
[0031]获取标签文本和参考分类标签;
[0032]对所述标签文本进行主题词识别,得到样本主题词;
[0033]对所述标签文本和所述样本主题词进行拼接处理,得到样本嵌入特征向量;
[0034]通过所述文本分类模型和所述参考分类标签对所述样本嵌入特征向量进行分类概率计算,得到样本分类预测值;
[0035]通过所述文本分类模型的损失函数和所述样本分类预测值进行损失值计算,得到模型损失值;
[0036]根据所述模型损失值对所述文本分类模型进行网格化调参,以优化所述文本分类模型。
[0037]为实现上述目的,本申请实施例的第二方面提出了一种文本分类装置,所述装置包括:
[0038]所述装置包括:
[0039]文本获取模块,用于获取待分类的原始文本;
[0040]主题词识别模块,用于通过预设的主题词识别模型对所述原始文本进行主题词识别,得到实体主题词;
[0041]拼接模块,用于对所述原始文本和所述实体主题词进行拼接处理,得到目标嵌入特征向量;
[0042]概率计算模块,用于通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到每一所述参考分类标签对应的分类概率值;
[0043]筛选模块,用于根据所述分类概率值对所述参考分类标签进行筛选处理,得到所述原始文本的目标分类标签。
[0044]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现
所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
[0045]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
[0046]本申请提出的文本分类方法、文本分类装置、电子设备及存储介质,其通过获取待分类的原始文本;并通过预设的主题词识别模型对原始文本进行主题词识别,得到实体主题词,能够较为方便地获取到能够代表原始文本的文本内容的实体主题词,通过实体主题词直观地反映出原始文本的主题内容。进一步地,对原始文本和实体主题词进行拼接处理,得到目标嵌入特征向量;通过预设的文本分类模型和参考分类标签对目标嵌入特征向量进行分类概率计算,得到每一参考分类标签对应的分类概率值,这一方式能够通过分类概率值来反映出目标嵌入特征向量与每一参考分类标签的相关程度,能够有利于确定目标嵌入特征向量的所属分类标签,因此,可以根据分类概率值对参考分类标签进行筛选处理,得到原始文本的目标分类标签,能够提高文本分类的准确性。
附图说明
[0047]图1是本申请实施例提供的文本分类方法的流程图;
[0048]图2是图1中的步骤S102的流程图;
[0049]图3是图2中的步骤S201的流程图;
[0050]图4是图2中的步骤S202的流程图;...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类的原始文本;通过预设的主题词识别模型对所述原始文本进行主题词识别,得到实体主题词;对所述原始文本和所述实体主题词进行拼接处理,得到目标嵌入特征向量;通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到每一所述参考分类标签对应的分类概率值;根据所述分类概率值对所述参考分类标签进行筛选处理,得到所述原始文本的目标分类标签。2.根据权利要求1所述的文本分类方法,其特征在于,所述通过预设的主题词识别模型对所述原始文本进行主题词识别,得到实体主题词的步骤,包括:通过所述主题词识别模型对所述原始文本进行分词处理,得到目标文本词段;根据预设的权重参数对所述目标文本词段进行关键词提取,得到文本关键词集合;对所述文本关键词集合中的文本关键词进行组合处理,得到所述实体主题词。3.根据权利要求2所述的文本分类方法,其特征在于,所述通过所述主题词识别模型对所述原始文本进行分词处理,得到目标文本词段的步骤,包括:通过预设的分词器对所述原始文本进行词汇识别,得到词段实体特征;根据所述词段实体特征对所述原始文本进行分词处理,得到初始文本词段;对所述初始文本词段进行过滤处理,得到所述目标文本词段。4.根据权利要求2所述的文本分类方法,其特征在于,所述根据预设的权重参数对所述目标文本词段进行关键词提取,得到文本关键词集合的步骤,包括:对所述目标文本词段进行重要性排序,得到文本词段序列;根据所述权重参数对所述文本词段序列进行权重分配,得到加权词段序列;对所述加权词段序列进行词段筛选,得到所述文本关键词集合。5.根据权利要求1所述的文本分类方法,其特征在于,所述对所述原始文本和所述实体主题词进行拼接处理,得到目标嵌入特征向量的步骤,包括:对所述原始文本进行词嵌入处理,得到文本嵌入特征向量;对所述实体主题词进行词嵌入处理,得到主题词嵌入特征向量;根据预设的拼接顺序对所述文本嵌入特征向量和所述主题词嵌入特征向量进行拼接处理,得到所述目标嵌入特征向量。6.根据权利要求1所述的文本分类方法,其特征在于,所述通过预设的文本分类模型和参考分类标签对所述目标嵌入特征向量进行分类概率计算,得到...

【专利技术属性】
技术研发人员:周敏芳任彧王建明肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1