【技术实现步骤摘要】
一种文本分类方法及电子设备
[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法及电子设备。
技术介绍
[0002]文本分类任务是文本信息挖掘的重要问题,在自然语言处理领域是一个重要课题。随着深度学习模型技术的快速发展,现有技术中出现了基于文本分类模型实现文本分类的技术方案,包括获取待分类的文本,将待分类的文本输入文本分类模型,进而输出待分类的文本的类别。
[0003]但是,用户输入的文本一般具有不规范性,也就是说文本中会包含口语词、语气词等。而这些口语词、语气词对于文本分类模型,会造成较多的分类干扰,使得基于文本分类模型输出的文本的类别的准确性较差。即现有技术存在文本分类准确性较差的问题。
技术实现思路
[0004]本申请提供了一种文本分类方法及电子设备,用以解决现有技术存在文本分类准确性较差的问题。
[0005]第一方面,本申请提供了一种文本分类方法,所述方法包括:
[0006]获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;
[0007]将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;
[0008]将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。
[0009]第二方面,本申请提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类的文本,对所述文本进行切词和词向量转换,得到所述文本对应的第一词向量矩阵;其中,所述第一词向量矩阵中包含多个词的第一词向量;将所述第一词向量矩阵输入词过滤模型,基于所述词过滤模型确定多个第一词向量各自的类别贡献度;根据所述多个第一词向量各自的类别贡献度,对所述多个第一词向量进行筛选,得到第二词向量矩阵;将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别。2.如权利要求1所述的方法,其特征在于,基于所述词过滤模型确定多个第一词向量各自的类别贡献度包括:针对所述多个第一词向量,基于所述词过滤模型确定所述第一词向量对应于各文本类别的贡献值;确定所述各文本类别的贡献值的均方差;根据所述均方差确定所述第一词向量的类别贡献度。3.如权利要求1所述的方法,其特征在于,对所述多个第一词向量进行筛选,得到第二词向量矩阵之后,所述方法还包括:针对所述第二词向量矩阵中的多个第二词向量,利用预先保存的知识图谱和知识图谱翻译模型,确定所述第二词向量对应的知识子图向量;其中,所述知识子图向量中包含所述第二词向量、与所述第二词向量连接的第三词向量、以及所述第二词向量和所述第三词向量之间的关系向量;将所述第二词向量矩阵输入文本分类模型,基于所述文本分类模型确定所述文本的目标类别包括:将所述第二词向量矩阵和所述多个第二词向量分别对应的知识子图向量输入所述文本分类模型,基于所述文本分类模型确定所述文本的目标类别。4.如权利要求3所述的方法,其特征在于,确定所述第二词向量对应的知识子图向量之后,将所述知识子图向量输入所述文本分类模型之前,所述方法还包括:根据所述知识子图向量中的第二词向量和第三词向量的指向连接关系,确定头实体向量和尾实体向量;基于所述知识图谱翻译模型,确定所述头实体向量和所述关系向量的和值向量,并确定所述和值向量与所述尾实体向量的距离;若所述距离大于预设的距离阈值,滤除所述知识子图向量;若所述距离不大于预设的距离阈值,保留所述知识子图向量,并将保留的所述知识子图向量输入所述文本分类模型。5.如权利要求3所述的方法,其特征在于,基于所述文本分类模型确定所述文本的目标类别包括:基于所述文本分类模型中的双向循环神经子网络,针对所述第二词向量矩阵中的多个第二词向量,根据所述第二词向量和前向相邻的第四词向量,确定所述第二词向量对应的前文表示向量;根据所述第二词向量和后向相邻的第五词向量,确定所述第二词向量对应的后文表示向量;采用所述前文表示向量、所述第二词向量和所述后文表示向量拼接得到的向量组,对所述第二词向量进行更新;将更新后的第二词向量矩阵和所述多个第二词向量分别对应的知识子图向量输入所
述文本分类模型中的类别输出子网络,基于所述类别输出子网络确定所述文本的目标类别。6.如权利要求1所述的方法,其特征在于,所述词过滤模型的训练过程包括:将第一训练集中的第一样本文...
【专利技术属性】
技术研发人员:袁岩,张宁,张淯易,
申请(专利权)人:海信集团控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。