一种文本分类方法及电子设备技术

技术编号:39246088 阅读:8 留言:0更新日期:2023-10-30 11:58
本申请公开了一种文本分类方法及电子设备,获取到待分类的文本并得到对应的第一词向量矩阵之后,基于词过滤模型可以确定出第一词向量矩阵中多个第一词向量各自的类别贡献度,根据多个第一词向量各自的类别贡献度,对多个第一词向量进行筛选,得到第二词向量矩阵。基于词过滤模型可以滤除掉口语词的词向量、语气词的词向量等,进而得到的第二词向量矩阵。最后将第二词向量矩阵输入文本分类模型确定文本的目标类别,这样避免了口语词、语气词等对于文本分类模型的干扰,提高了文本分类的准确性。本申请所保护的方案具有准确率高、推理速度快的特点,具备鲁棒性、可解释性和可靠性,符合可信赖性特点。合可信赖性特点。合可信赖性特点。

【技术实现步骤摘要】
一种文本分类方法及电子设备


[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法及电子设备。

技术介绍

[0002]文本分类任务是文本信息挖掘的重要问题,在自然语言处理领域是一个重要课题。随着深度学习模型技术的快速发展,现有技术中出现了基于文本分类模型实现文本分类的技术方案,包括获取待分类的文本,将待分类的文本输入文本分类模型,进而输出待分类的文本的类别。
[0003]但是,用户输入的文本一般具有不规范性,也就是说文本中会包含口语词、语气词等。而这些口语词、语气词对于文本分类模型,会造成较多的分类干扰,使得基于文本分类模型输出的文本的类别的准确性较差。即现有技术存在文本分类准确性较差的问题。

技术实现思路

[0004]本申请提供了一种文本分类方法及电子设备,用以解决现有技术存在文本分类准确性较差的问题。
[0005]第一方面,本申请提供了一种文本分类方法,所述方法包括:
[0006]获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;
[0007]将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;
[0008]将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。
[0009]第二方面,本申请提供了一种文本分类装置,所述装置包括:
[0010]词向量转换模块,用于获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;
[0011]第一确定模块,用于将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;
[0012]第二确定模块,用于将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。
[0013]第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0014]存储器,用于存放计算机程序;
[0015]处理器,用于执行存储器上所存放的程序时,实现所述的方法步骤。
[0016]第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法步骤。
[0017]本申请提供了一种文本分类方法及电子设备,所述方法包括:获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。
[0018]上述的技术方案具有如下优点或有益效果:
[0019]本申请中,预先训练了词过滤模型,获取到待分类的文本并得到对应的第一词向量矩阵之后,基于词过滤模型可以确定出第一词向量矩阵中多个第一词向量各自的类别贡献度,根据多个第一词向量各自的类别贡献度,对多个第一词向量进行筛选,得到第二词向量矩阵。由于文本中的口语词、语气词等对于文本分类的贡献度较低,因此基于词过滤模型可以滤除掉口语词的词向量、语气词的词向量等,进而得到的第二词向量矩阵。最后将第二词向量矩阵输入文本分类模型确定文本的目标类别,这样避免了口语词、语气词等对于文本分类模型的干扰,提高了文本分类的准确性。本申请所保护的方案具有准确率高、推理速度快的特点,具备鲁棒性、可解释性和可靠性,符合可信赖性特点。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请提供的文本分类过程示意图;
[0022]图2为本申请提供的文本分类过程示意图;
[0023]图3为本申请提供的文本分类过程示意图;
[0024]图4为本申请提供的文本分类过程示意图;
[0025]图5为本申请提供的基于所述文本分类模型确定所述文本的目标类别的过程示意图;
[0026]图6为本申请提供的词过滤模型的训练过程示意图;
[0027]图7为本申请提供的词的注意力矩阵示意图;
[0028]图8为本申请提供的知识图谱翻译模型的训练过程示意图;
[0029]图9为本申请提供的文本分类模型的训练过程示意图;
[0030]图10为本申请提供的对模型参数进行调整的过程示意图;
[0031]图11为本申请提供的文本分类的模型框架图;
[0032]图12为本申请提供的文本分类EEARCNN模型架构图;
[0033]图13为本申请提供的模型训练精确度对比分析示意图;
[0034]图14为本申请提供的F1值及用时分析示意图;
[0035]图15为本申请提供的模型准确率对比分析示意图;
[0036]图16为本申请提供的文本分类装置结构示意图;
[0037]图17为本申请提供的电子设备结构示意图。
具体实施方式
[0038]为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
[0039]需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0040]本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
[0041]术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
[0042]术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
[0043本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。2.如权利要求1所述的方法,其特征在于,基于所述词过滤模型确定多个第一词向量各自的类别贡献度包括:针对所述多个第一词向量,基于所述词过滤模型确定所述第一词向量对应于各文本类别的贡献值;确定所述各文本类别的贡献值的均方差;根据所述均方差确定所述第一词向量的类别贡献度。3.如权利要求1所述的方法,其特征在于,对所述多个第一词向量进行筛选,得到第二词向量矩阵之后,所述方法还包括:针对所述第二词向量矩阵中的多个第二词向量,利用预先保存的知识图谱和知识图谱翻译模型,确定所述第二词向量对应的知识子图向量;其中,所述知识子图向量中包含所述第二词向量、与所述第二词向量连接的第三词向量、以及所述第二词向量和所述第三词向量之间的关系向量;将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别包括:将所述第二词向量矩阵和所述多个第二词向量分别对应的知识子图向量输入所述文本分类模型,基于所述文本分类模型确定所述文本的目标类别。4.如权利要求3所述的方法,其特征在于,确定所述第二词向量对应的知识子图向量之后,将所述知识子图向量输入所述文本分类模型之前,所述方法还包括:根据所述知识子图向量中的第二词向量和第三词向量的指向连接关系,确定头实体向量和尾实体向量;基于所述知识图谱翻译模型,确定所述头实体向量和所述关系向量的和值向量,并确定所述和值向量与所述尾实体向量的距离;若所述距离大于预设的距离阈值,滤除所述知识子图向量;若所述距离不大于预设的距离阈值,保留所述知识子图向量,并将保留的所述知识子图向量输入所述文本分类模型。5.如权利要求3所述的方法,其特征在于,基于所述文本分类模型确定所述文本的目标类别包括:基于所述文本分类模型中的双向循环神经子网络,针对所述第二词向量矩阵中的多个第二词向量,根据所述第二词向量和前向相邻的第四词向量,确定所述第二词向量对应的前文表示向量;根据所述第二词向量和后向相邻的第五词向量,确定所述第二词向量对应的后文表示向量;采用所述前文表示向量、所述第二词向量和所述后文表示向量拼接得到的向量组,对所述第二词向量进行更新;将更新后的第二词向量矩阵和所述多个第二词向量分别对应的知识子图向量输入所
述文本分类模型中的类别输出子网络,基于所述类别输出子网络确定所述文本的目标类别。6.如权利要求1所述的方法,其特征在于,所述词过滤模型的训练过程包括:将第一训练集中的第一样本文...

【专利技术属性】
技术研发人员:袁岩张宁张淯易
申请(专利权)人:海信集团控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1