文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38228521 阅读:16 留言:0更新日期:2023-07-25 17:57
本申请公开了一种文本分类方法、装置、电子设备及存储介质。其中,方法包括:获取第一文本;对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征;对所述第一特征进行离线训练,生成所述第一特征中不同类别的特征分别对应的中心代理文本;对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离;将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类结果;根据多个所述第一中心代理文本与多个第二中心代理文本的分类结果确定所述第一文本的类别标签。标签。标签。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,网络上存在着大量的农业信息,如何有效整合海量的农业信息供广大农民使用,成为人们关注的焦点。农业文本分类能够有效整合信息从而应用于信息检索、农业推荐等场景。
[0003]机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0004]针对中文文本而言,字是构成词的独立基本单元,从构成词的字中可以推断出词的语义信息。然而,目前针对中文文本分类的方法通常是将词向量或者字向量作为构成文本特征的基本单元,字向量丢失了中文词语的信息,词向量没有字维度上的信息。另外,现有技术计算文本间距离,往往采用线性的方式,如欧氏距离等,难以获取文本特性,而采用词移(Wasserstein)等距离作为度量,又难以解决计算效率低下的问题。同时,如果结合文本距离进行分类,往往需要结合KNN等线性算法,难以实现非线性数据分类,导致准确率不高。

技术实现思路

[0005]为解决相关技术问题,本申请实施例提供一种文本分类方法、装置、电子设备及存储介质。
[0006]本申请实施例的技术方案是这样实现的:
[0007]本申请实施例提供了一种文本分类方法,包括:
[0008]获取第一文本;
[0009]对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征;
[0010]对所述第一特征进行离线训练,生成所述第一特征中不同类别的特征分别对应的中心代理文本;
[0011]对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离;所述第一中心代理文本为所述不同类别的特征中的第一类别特征对应的中心代理文本;所述第二中心代理文本为所述不同类别的特征中除所述第一类别特征以外的任一类别的特征对应的中心代理文本;所述第一类别
特征为所述不同类别的特征中的任一类别特征;
[0012]将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类结果;
[0013]根据多个所述第一中心代理文本与多个第二中心代理文本的分类结果确定所述第一文本的类别标签。
[0014]上述方案中,所述对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征,包括:
[0015]对所述第一文本进行预训练,得到所述第一文本中的至少一个词向量和所述至少一个词向量中每个词向量对应的第一权重;
[0016]根据所述每个词向量的语义信息确定存在语义关联的词向量集合;
[0017]基于所述词向量集合和所述词向量集合中的每个词向量对应的第一权重确定所述第一特征。
[0018]上述方案中,所述基于所述词向量集合和所述词向量集合中的每个词向量对应的权重确定所述第一特征,包括:
[0019]根据所述词向量集合中的每个词向量对应的第一权重对所述词向量集合中的每个词向量进行平均处理,得到所述词向量集合中的每个词向量的第二特征;
[0020]根据所述词向量集合和所述词向量集合中的每个词向量对应的权重确定最大的词向量值对应的第三特征;
[0021]根据所述第二特征和所述最大的词向量值对应的第三特征确定所述第一特征。
[0022]上述方案中,所述对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离,包括:
[0023]根据所述第一特征对预设算法进行初始化,得到所述第一特征对应的第二权重;
[0024]将所述第一特征中不同类别的特征分别对应的中心代理文本输入至所述预设算法更新所述第一特征对应的第二权重,得到所述第一特征中不同类别的特征分别对应的中心代理文本的第三权重;
[0025]所述第一特征中不同类别的特征分别对应的中心代理文本的第三权重确定所述第一中心代理文本与所述第二中心代理文本的词移距离。
[0026]上述方案中,所述方法还包括:
[0027]根据所述词移距离获得核函数矩阵;
[0028]基于所述核函数矩阵改进向量机(SVM)算法,得到所述预设的核函数分类模型。
[0029]上述方案中,所述将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类结果,包括:
[0030]将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类平面函数;
[0031]判断所述分类平面函数的值是否大于等于预设阈值;
[0032]在所述分类平面函数的值大于等于所述预设阈值的情况下,确定所述第一中心代理文本的第一类别标签;
[0033]在所述分类平面函数的值小于所述预设阈值的情况下,确定所述第二中心代理文本的第二类别标签。
[0034]上述方案中,所述根据多个所述第一中心代理文本与多个第二中心代理文本的分类结果获取所述第一文本的分类结果,包括:
[0035]获得多个所述第一中心代理文本对应的多个第一类别标签以及所述第二中心代理文本对应的多个第二类别标签;
[0036]根据所述多个第一类别标签和所述多个第二类别标签确定所述第一文本的类别标签。
[0037]本申请实施例还提供了一种文本分类装置,包括:
[0038]获取单元,用于获取第一文本;
[0039]预处理单元,用于对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征;
[0040]训练单元,用于对所述第一特征进行离线训练,生成所述第一特征中不同类别的特征分别对应的中心代理文本;
[0041]学习单元,用于对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离;所述第一中心代理文本为所述不同类别的特征中的第一类别特征对应的中心代理文本;所述第二中心代理文本为所述不同类别的特征中除所述第一类别特征以外的任一类别的特征对应的中心代理文本;所述第一类别特征为所述不同类别的特征中的任一类别特征;
[0042]得到单元,用于将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类结果;
[0043]确定单元,用于根据多个所述第一中心代理文本与多个第二中心代理文本的分类结果确定所述第一文本的类别标签。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取第一文本;对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征;对所述第一特征进行离线训练,生成所述第一特征中不同类别的特征分别对应的中心代理文本;对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离;所述第一中心代理文本为所述不同类别的特征中的第一类别特征对应的中心代理文本;所述第二中心代理文本为所述不同类别的特征中除所述第一类别特征以外的任一类别的特征对应的中心代理文本;所述第一类别特征为所述不同类别的特征中的任一类别特征;将所述词移距离输入至预设的核函数分类模型,得到所述第一中心代理文本与第二中心代理文本的分类结果;根据多个所述第一中心代理文本与多个第二中心代理文本的分类结果确定所述第一文本的类别标签。2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本进行预处理,得到所述第一文本中表征词向量语义信息的第一特征,包括:对所述第一文本进行预训练,得到所述第一文本中的至少一个词向量和所述至少一个词向量中每个词向量对应的第一权重;根据所述每个词向量的语义信息确定存在语义关联的词向量集合;基于所述词向量集合和所述词向量集合中的每个词向量对应的第一权重确定所述第一特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述词向量集合和所述词向量集合中的每个词向量对应的权重确定所述第一特征,包括:根据所述词向量集合中的每个词向量对应的第一权重对所述词向量集合中的每个词向量进行平均处理,得到所述词向量集合中的每个词向量的第二特征;根据所述词向量集合和所述词向量集合中的每个词向量对应的权重确定最大的词向量值对应的第三特征;根据所述第二特征和所述最大的词向量值对应的第三特征确定所述第一特征。4.根据权利要求1所述的方法,其特征在于,所述对所述第一特征中不同类别的特征分别对应的中心代理文本进行监督学习,得到第一中心代理文本与第二中心代理文本的词移距离,包括:根据所述第一特征对预设算法进行初始化,得到所述第一特征对应的第二权重;将所述第一特征中不同类别的特征分别对应的中心代理文本输入至所述预设算法更新所述第一特征对应的第二权重,得到所述第一特征中不同类别的特征分别对应的中心代理文本的第三权重;所述第一特征中不同类别的特征分别对应的中心代理文本的第三权重确定所述第一中心代理文本与所述第二中心代理文本的词移距离。5.根据权利...

【专利技术属性】
技术研发人员:夏艺菲李泽源苗海委李舜铭陈建
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1