基于自注意力机制和卷积神经网络的文本分类算法制造技术

技术编号：29790007 阅读：14 留言：0更新日期：2021-08-24 18:08

本发明专利技术公开了基于自注意力机制和卷积神经网络的新闻文本分类算法，本算法的目的是将新闻内容进行分类处理。该方法的步骤主要包括：摘要抽取，构建词向量，向量拼接与融合，进行多头自注意力计算，特征提取计算卷积和池化，特征提取后向量计算进行分类。文本分类算法往往只考虑短文本的特征提取，对于长文本的分类方法基本使用截断式，但截断式方法会大幅降低特征提取的准确性。基于以上考虑，本发明专利技术提出了在文本处理阶段对长本文新闻进行摘要抽取处理，这样既能保留源文本的特征信息，也能降低时间复杂度。经过自注意力和卷积网络后更能使分类任务准确。

全部详细技术资料下载

【技术实现步骤摘要】
基于自注意力机制和卷积神经网络的文本分类算法
本专利技术属于自然语言处理领域，在自然语言处理领域涉及文本分类预测类别算法。
技术介绍
网络新闻的用户规模达到6.86亿人，占网民总体的80.3%。如何对这些庞杂的网络新闻数据进行高效的分类和管理，用户又该如何快速的获取自己感兴趣的新闻，已然成为一个急需解决的问题。对新闻进行科学的分类既能方便不同的阅读群体根据需求快速选取自身感兴趣的新闻，也能够有效满足对海量的新闻素材提供科学的检索需求。传统的文本分类方法不能自提取特征，需要人工提取特征。因此，为了解决传统方法存在的缺陷，基于多头注意力机制和卷积神经网络的新闻分类算法可以通过神经网络结构自提取特征，而且具有出色的文本特征表示和建模能力。深度学习作为当下人工智能领域最热门前沿的技术，具有较强的特征表示能力，在自然语言处理中具有很广泛的应用，使用深度学习方法的文本分类，不仅能够解决传统机器学习不能处理语义层面的问题，而且能够解决当数据量较大时分类效率低下等问题，是一个极其重要的研究课题，因此，使用深度学习的方法对文本分类进行研究在理论和应用层面都有着很重要的意义。多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征。在多头注意力机制中，输入特征通过不同的权值矩阵被线性映射到不同的信息子空间，并在每个子空间完成相同的注意力计算，以对文本潜在的结构和语义进行充分学习。卷积神经网络利用自身独特的结构特征，通过卷积计算对文本集隐含的特征进行学习，在一定程度上能够对文本的特征语义进...

【技术保护点】
1.基于自注意力机制和卷积神经网络的新闻文本分类算法，包括如下步骤：/n步骤S1：摘要抽取/n针对新闻正文内容过长，使用BertSum算法进行摘要抽取，作为正文输入;/n步骤S2：构建词向量/n将新闻的标题和抽取出的摘要分别输入ERNIE预训练模型，分别得到二者词向量分别为

【技术特征摘要】
1.基于自注意力机制和卷积神经网络的新闻文本分类算法，包括如下步骤：
步骤S1：摘要抽取
针对新闻正文内容过长，使用BertSum算法进行摘要抽取，作为正文输入;
步骤S2：构建词向量
将新闻的标题和抽取出的摘要分别输入ERNIE预训练模型，分别得到二者词向量分别为和;
步骤S3：向量拼接与融合
将构建好的标题向量和摘要向量进行矩阵拼接；送入一个全连接层，得到融合后的向量;
步骤S4：进行多头自注意力计算
多头自注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征；具体说，输入矩阵Q、K、V对应注意力计算的三个重要组件；进行特征提取;
步骤S5：卷积和池化
将向量送入卷积神经网络进一步进行特征提取，卷积神经网络主要由五部分组成：输入层、卷积层、池化层、全连接层和输出层；其中卷积层和池化层是卷积神经网络所特有的结构，进行特征提取的结构；
步骤S6：进行分类
经过特征提取后的向量送入全连接层然后使用Softmax进行单标签分类；获取类别。

2.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法，其特征在于：
步骤S1的进行摘要抽取的方法为基于摘要与原文档在语义上应该有较大匹配度的考量，本方法提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的抽取结果；经过本步骤之后将正文长文本摘要成短文本后进行其他步骤可以节省大量时间。

3.根据权利要求1所述的基于自注意力机制和卷积神经网路的新闻文本分类算法，其特征在于：
步骤S4中的将进行多头注意力计算方法为：
利用多头自注意力机制词向量进行特征抽取，以对文本上下文内部语义结构进行有效建模，充分挖掘高层语义特征；多头注意力机制可以简单有效的对上下文依赖关系进行抽象，并捕获句法和语义特征；具体说，输入矩阵Q、K、V对应注意力(at...

【专利技术属性】
技术研发人员：郑虹，秦硕，郑肇谦，
申请(专利权)人：长春工业大学，
类型：发明
国别省市：吉林;22

全部详细技术资料下载我是这个专利的主人