一种基于改进TextCNN的新闻文本分类方法技术

技术编号:34448178 阅读:78 留言:0更新日期:2022-08-06 16:45
本发明专利技术提供了一种基于改进TextCNN的新闻文本分类方法,改进后的TextCNN包括输入层,卷积池化层,输出层。输入层:通过词向量word embeddings将词转化成词向量,利用全局注意力机制对词向量中的每个元素进行权重赋值,从而突出显著特征抑制无用特征。卷积池化层:一共有三种规格的卷积核,大小分别为2、3、4,卷积核的数量是256,卷积核的宽度为词向量大小,池化层融合了平均池化和最大池化操作,使用MLP层进一步提取平均池化和最大池化产生的特征,提升特征的全局表示能力。输出层:池化层的向量输入到全连接层中,最后经过softsign激活后得到最终的词向量表示特征,输出为维度为10向量,向量的每一个维度对应一个类别。该方法有利于提高新闻文本分类的准确率。利于提高新闻文本分类的准确率。利于提高新闻文本分类的准确率。

【技术实现步骤摘要】
一种基于改进TextCNN的新闻文本分类方法


[0001]本专利技术涉及自然语言处理中文本分类
,具体涉及一种基于改进TextCNN的新闻文本分类方法。

技术介绍

[0002]随着互联网技术的飞速发展,各种社交媒体不断产生文本、图像、音频和视频等各类信息,其中最简单、最方便的信息就是文本。新闻、微博、在线评论等中文短文本信息的主要特点是简洁,其中包含的有效信息很少。小样本的选择直接导致在文本分类中难以找到相对准确和有用的信息。此外,简短的文本信息在互联网上的更新速度非常快,但这些文本信息在各个领域中都是非常重要的研究数据,例如信息搜索、个性化消息推荐、关系提取和用户意图分析。因此,如何快速有效地获取文本信息中有价值的数据变得越来越重要。
[0003]随着社交网络和移动终端技术的飞速发展,互联网上的文字信息越来越直接。媒体越来越普遍。这些在线文本数据的主要特点是它们非常迅速和复杂随着互联网的发展许多用户正在使用这些信息。如何利用文字处理技术从这些信息数据中提取有价值的功能,进而分析每个用户的兴趣和问题,成为互联网时代研究的重点领域之一。
[0004]深度学习的发展,对自然语言处理的研究具有非常大意义的影响。深度神经网络优势在于使用了多层的非线性映射结构,从而有效的克服了浅层网络中的各种缺陷。深度神经网络使用多层结构训练时,不单单能够学习到更多的特征,同时不会使用大量的参数造成过多的复杂的计算。另外深度学习在处理分布式特征的数据时,选择将低层的特征进行组合,映射成为高层的特征,也就是利用逐层学习的方法获得输入数据更多的特征。
[0005]基于机器学习的文本分类模型目前已趋于成熟,常见的机器学习分类算法有KNN算法,朴素贝叶斯算法,决策树算法等算法,这些算法在文本分类上都取得了不错的分类效果,但也存在着一定的缺陷,比如:在对文本进行特征表示时不能很好的处理语义和语序信息,并存在数据高纬度和稀疏性等问题;这些问题在一定程度上都影响着文本的分类效率。分类器算法的设计上也有着一定的局限性,对于特定的文本数据分类效果优良,但对于规模庞大的文本数据无法取得很好的分类效果,因此,就需要寻找更好的特征表示方法和文本分类模型。

技术实现思路

[0006]本专利技术的目的在于提供一种基于改进TextCNN的新闻文本分类方法,该方法有利于提高新闻文本分类的准确率,改进后的TextCNN包括输入层,卷积池化层,输出层,参阅图1所示。
[0007]1)、输入层:对文本数据集进行预处理,包括中文分词、停用词过滤、特征提取等,接着加载预训练词向量或者随机初始化,对字词进行向量化,利用全局注意力机制对词向量中的每个元素进行权重赋值,从而突出显著特征抑制无用特征。
[0008]2)、卷积池化层:一共有三种规格的卷积核,大小分别为2、3、4,卷积核的数量是
256,卷积核的宽度为词向量大小,移动的范围是卷积核的大小。池化层常用的是max pooling,提取出最大值,可捕获其最重要的特征,这样每一个卷积核得到特征就是一个值,average

pooling更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点,更多的体现在信息的完整传递这个维度上,在减少维度的同时,更有利信息传递到下一个模块进行特征提取,故在改进的TextCNN中池化层采用的是融合了平均池化和最大池化操作,使用MLP层进一步提取平均池化和最大池化产生的特征,提升特征的全局表示能力。
[0009]3)、输出层:该层的输入是卷积池化层,将平均池化和最大池化产生的特征,通过softsign激活后得到最终的词向量表示特征,输出为维度为10向量,向量的每一个维度对应一个类别。
附图说明
[0010]图1是本专利技术中改进的TextCNN框架图
[0011]图2是本专利技术中改进TextCNN模型用于文本分类的流程图
具体实施方式
[0012]结合说明书附图对专利技术的实施方式进行描述,中文文本分类主要分为以下步骤,参阅图2所示。
[0013]1、文本分词
[0014]文本分词是利用相应的分词算法将文本切分成一个个词语,目前中文分词中最常用的分词算法主要有三大类:基于字符串匹配、基于概率统计和基于语义理解三种。本专利技术使用的分词算法是基于字符串匹配,基于字符串匹配的分词方法是先构建一个词典,再将文本的每个词与词典中的词进行字符串匹配,若匹配成功则分词成功,这种方法简单高效。
[0015]2、去除停用词
[0016]去除停用词是指去除文本中的标点符号以及在文本中出现频率较高且对文本分类不起太大作用的词,这些词对文本的语义表达上没有实质性和决定性的作用,只是为了保证文本在语法结构上的规范完整性,在文章中起到承接上下文和加强语气的作用,比如“是、和、的、了”等常见的介词、连词等词。为了简化文本,需要把这些对文章没有实际意义的词剔除掉以筛选出关键的特征词,进而更好地表征文本信息。
[0017]3、特征选择
[0018]特征选择是在文本预处理分词之后从众多文本词语中筛选出能够表示文本主要信息的关键词操作。一般做法是通过使用某种评价函数对所有特征项进行评分,然后从高到低对评分进行排序并选择分值较高的若干个作为特征项。特征选择主要有TF

IDF、互信息、信息增益、卡方统计量等方法。本专利技术使用的特征选择方法是TF

IDF,TF表示某个词在文本中出现的次数占该文本中总词数的比值,通过设定一定的阈值,将低于该阈值的词筛选过滤掉,这样能够在一定程度上筛选出对文本比较重要的特征词。IDF表示文本总数与包含某个词的文本数之间商的对数值。
[0019]4、构建词向量
[0020]word2vec是基于神经网络的词的分布表示方法,它将词语表示为低维的向量实现
词嵌入,在一个嵌入空间中进行表达。通过学习文本用词向量的方式表征词的语义信息,即在词嵌入空间中距离相近的词语之间有着相似的语义信息。通过计算空间距离的距离来判断两个词之间是否存在语义相关性,通过词向量的线性组合通常可以产生有意义的结果,从而获取词的语义信息。
[0021]5、使用改进TextCNN文本分类
[0022]首先对文本数据集进行预处理,包括中文分词、停用词过滤、特征提取等,接着加载预训练词向量或者随机初始化,对字词进行向量化,利用全局注意力机制对词向量中的每个元素进行权重赋值,从而突出显著特征抑制无用特征。一共有三种规格的卷积核,大小分别为2、3、4,卷积核的数量是256,卷积核的宽度为词向量大小,移动的范围是卷积核的大小。池化层常用的是max pooling,提取出最大值,可捕获其最重要的特征,这样每一个卷积核得到特征就是一个值,average

pooling更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点,更多的体现在信息的完整传递这个维度上,在减少维度的同时,更有利信息传递到下一个模块进行特征提取,故在改本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进TextCNN的新闻文本分类方法,其特征在于:本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,卷积池化层,输出层:1)、输入层:对文本数据集进行预处理,包括中文分词、停用词过滤、特征提取等,接着加载预训练词向量或者随机初始化,对字词进行向量化,利用全局注意力机制对词向量中的每个元素进行权重赋值,从而突出显著特征抑制无用特征。2)、卷积池化层:一共有三种规格的卷积核,大小分别为2、3、4,卷积核的数量是256,卷积核的宽度为词向量大小,移动的范围是卷积核的大小。池化层常用的是max pooling,提取出最大值,可捕获其最重要的特征,这样每一个卷积核得到特征就是一个值,average

pooling更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点,更多的体现在信息的完整传递这个维度上,在减少维度的同时,更有利信息传递到下一个模块进行特征提取,故在改进的TextCNN中池化层采用的是融合了平均池化和最大池化操作,使用MLP层进一步提取平均池化和最大池化产生...

【专利技术属性】
技术研发人员:董晨李舒婷鲍志伟于业齐梁镇洹施建国李沙沙
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1