文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:36778931 阅读:14 留言:0更新日期:2023-03-08 22:09
本发明专利技术属于计算机领域,公开了一种文本分类方法、装置、设备及存储介质。该方法通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对待分类向量文本进行局部特征提取,获得局部特征;将全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。由于本发明专利技术是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本发明专利技术上述方式能够提高文本分类的准确率。高文本分类的准确率。高文本分类的准确率。

【技术实现步骤摘要】
文本分类方法、装置、设备及存储介质


[0001]本专利技术涉及文本分类
,尤其涉及一种文本分类方法、装置、设备及存储介质。

技术介绍

[0002]文本分类是自然语言处理领域的一项基本任务,也是近些年来重点研究内容之一。简单来说,文本分类任务就是将海量的文档通过现有的一些方法或手段将它们分成一个或者多个类别。文本分类技术在问题回答、垃圾邮件检测、情感分析、新闻分类、内容审核等都有十分广泛的应用。其最核心的内容就是从文本中抽取出最关键的特征信息,然后将特征映射到对应的类别。
[0003]传统的提取文本特征的方法主要有基于规则和统计的方法、基于机器学习的方法以及近些年在文本分类领域表现更好的深度学习方法。例如,采用传统的统计机器学习模型,首先利用词频

逆文本频率指数算法将文本向量化,再结合支持向量机(support vector machine,SVM)、逻辑回归等模型进行建模,进而确定文本分类结果,上述方法虽然在某些方面可以提高分类的效果,但由于需要手工提取文本特征同时又忽略了特征之间的关系,容易导致文本分类准确率不高。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种文本分类方法、装置、设备及存储介质,旨在解决现有技术利用词频逆文本频率指数算法进行文本分类导致文本分类准确率不高的技术问题。
[0006]为实现上述目的,本专利技术提供了一种文本分类方法,所述方法包括以下步骤:
[0007]通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
[0008]通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
[0009]将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
[0010]根据所述多尺度特征向量获得文本分类结果。
[0011]可选地,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤之前,还包括:
[0012]获取待分类文本的中心词向量;
[0013]根据所述中心词向量确定所述待分类文本的上下文词向量;
[0014]根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。
[0015]可选地,所述预设多尺度双重模型包括卷积层、池化层、上采样层以及跳跃连接层;
[0016]所述通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征的步骤,包括:
[0017]通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;
[0018]通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;
[0019]通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;
[0020]通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。
[0021]可选地,所述通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征的步骤,包括:
[0022]将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;
[0023]通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:
[0024]Q
i
=w
·
A[i:i+h

1][0025]其中,Q
i
用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的高度,A[i:i]用于表征矩阵从第i行到第i行的子矩阵。
[0026]可选地,所述通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征的步骤,包括:
[0027]通过所述上采样层采用双线性内插的方式对所述压缩后的特征进行维度扩展,获得维度扩展后的特征。
[0028]可选地,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤,包括:
[0029]通过预设双向长短时记忆网络确定所述待分类向量文本的隐藏状态输出;
[0030]基于预设注意力机制对所述隐藏状态输出进行加权,获得加权结果;
[0031]根据所述加权结果确定全局上下文特征。
[0032]可选地,所述根据所述多尺度特征向量获得文本分类结果的步骤,包括:
[0033]通过预设多尺度联合模型中的全连接层对所述多尺度特征向量进行文本分类,获得文本分类结果。
[0034]此外,为实现上述目的,本专利技术还提供一种文本分类装置,所述装置包括:
[0035]全局上下文特征提取模块,用于通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;
[0036]局部特征提取模块,用于通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;
[0037]特征拼接模块,用于将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;
[0038]文本分类结果确定模块,用于根据所述多尺度特征向量获得文本分类结果。
[0039]此外,为实现上述目的,本专利技术还提出一种文本分类设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序配置为实现如上文所述的文本分类方法的步骤。
[0040]此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上文所述的文本分类方法的步骤。
[0041]本专利技术通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;根据所述多尺度特征向量获得文本分类结果。由于本专利技术是对待分类向量文本进行全局特征提取和局部特征提取,将提取的全局上下文特征和局部特征进行特征拼接,获得多尺度特征向量;根据多尺度特征向量获得文本分类结果。相对于现有的利用词频逆文本频率指数算法将文本向量化进而对文本进行分类的方式,本专利技术上述方式能够提高文本分类的准确率。
附图说明
[0042]图1是本专利技术实施例方案涉及的硬件运行环境的文本分类设备的结构示意图;
[0043]图2为本专利技术文本分类方法第一实施例的流程示意图;
[0044]图3为本专利技术文本分类方法第二实施例的流程示意图;
[0045]图4为本专利技术文本分类装置第一实施例的结构框图。
[0046]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0047]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括以下步骤:通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征;通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征;将所述全局上下文特征和所述局部特征进行特征拼接,获得多尺度特征向量;根据所述多尺度特征向量获得文本分类结果。2.如权利要求1所述的文本分类方法,其特征在于,所述通过预设双向长短时记忆网络对待分类向量文本进行全局特征提取,获得全局上下文特征的步骤之前,还包括:获取待分类文本的中心词向量;根据所述中心词向量确定所述待分类文本的上下文词向量;根据所述中心词向量和所述上下文词向量确定所述待分类文本对应的待分类向量文本。3.如权利要求1所述的文本分类方法,其特征在于,所述预设多尺度双重模型包括卷积层、池化层、上采样层以及跳跃连接层;所述通过预设多尺度双重模型对所述待分类向量文本进行局部特征提取,获得局部特征的步骤,包括:通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征;通过所述池化层对所述待处理特征进行特征压缩,获得压缩后的特征;通过所述上采样层对所述压缩后的特征进行维度扩展,获得维度扩展后的特征;通过所述跳跃连接层对所述维度扩展后的特征进行特征拼接,获得局部特征。4.如权利要求3所述的文本分类方法,其特征在于,所述通过所述卷积层对所述待分类向量文本进行特征提取,获得待处理特征的步骤,包括:将所述待分类向量文本转换为预设词嵌入维度的二维矩阵;通过所述卷积层采用预设大小的卷积核通过以下公式对所述二维矩阵进行卷积操作,以提取待处理特征:Q
i
=w
·
A[i:i+h

1]其中,Q
i
用于表征待处理特征,w用于表征参数化滤波器的权重矩阵,h用于表征卷积核的...

【专利技术属性】
技术研发人员:郑禄牛悦宋中山陈心浩帖军尹帆孙翀龙吕佳
申请(专利权)人:中南民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1