一种基于多特征融合的短文本分类方法及系统技术方案

技术编号:25042026 阅读:13 留言:0更新日期:2020-07-29 05:32
本发明专利技术涉及一种基于多特征融合的短文本分类方法及系统,首先,通过对文本进行预处理,包括分词、停用词处理、特征选择等;其次,将处理后的文本分别使用词频和逆词序方法、卷积神经网络、长短时记忆网络算法提取特征,形成三种特征向量;然后,将这三类特征融合,使用注意力机制对融合特征加权,突出重要特征;最后,融合特征经过分类器得到短文本分类结果。本发明专利技术使用词频逆词序特征建立特征词典,对文本进行向量化表示;并且结合滤波器和长短时记忆网络提取特征,将三类特征融合用以丰富短文本特征,使用注意力机制分配权重,稳定分类效果。

【技术实现步骤摘要】
一种基于多特征融合的短文本分类方法及系统
本专利技术属于自然语言处理领域,具体涉及一种基于多特征融合的短文本分类方法及系统。
技术介绍
随着大数据时代的到来,纸质文档快速向电子化、数字化转变,文本分类成为自然语言处理中最常见的任务之一。随着网络技术的进步与电子社交媒体的发展一种新的文本类型——短文本成为网络信息的重要表现形式。短文本已经成为个人在网络平台上发表意见和分享信息的重要形式。短文本数据具有广泛的应用,比如问答系统中用户提出的问题、社交网络交流论坛的聊天记录、评论网站的情感分析等。短文本指的是长度较短的文本,它是和文档或长文本相对而言的。与长文本相比,短文本主要有以下几个特点:(1)文本长度较小。短文本可以是一个小的段落、几句话、一句话甚至是是一个短语。常见于新闻标题、问答系统和社交网络评论等场景。(2)特征稀疏。短文本信息内容简短,所包含的具有实际意义的词仅有十几个,从中抽取有效的特征词较困难。(3)实时性强且规模较大。网络生活中处处可见大量的文本信息,并且每天都在飞速增长。(4)文本格式不标准。从短文本的表述形式上看,虽然言简意赅但经常出现一些没有规则的不规范词语或拼写错误,这在很大程度上增加了本文的噪音。目前已经有很多学者研究短文本分类,主要可以基于特征扩展的方法和基于深度学习的方法。前者通过一些方法,发现潜在语义,对短文本进行扩展,提高分类效果。后者基于神经网络的词嵌入技术,使用深度学习模型对短文本进行分类。但目前的短文本分类技术主要存在以下问题:(1)基于机器学习方法面对特定的场景与资源,特征工程步骤依赖于领域知识,计算效率低,难以推广到其他场景。而且使用词袋特征表示文本,会丢失文本的词序信息,而且会造成文本特征维度过高,信息含量稀疏,只表示了文本很浅层的内容。特别是在面对短文本分类时,特征的稀疏性严重,很难有较好的结果。(2)目前的模型无法有效解决短文本带来的特征稀疏问题,难以达到较好的分类结果。短文本的特点使得文本的特征提取和特征稀疏成为制约短文本分类效果的关键问题。无法有效解决短文本的特征稀疏问题,在分类时难以取得较好的结果。
技术实现思路
专利技术目的:为解决现有技术中存在的问题,本专利技术提供一种能提高短文本分类准确率的基于多特征融合的短文本分类方法及系统。
技术实现思路
:本专利技术提供一种基于多特征融合的短文本分类方法,具体包括以下步骤:(1)将已有标签的短文本数据作为训练集,待分类的短文本为测试集;(2)将训练集中同类别文本前后拼接,形成较长文本,采用词频和逆词序方法计算特征,并根据单词对应的结果构建特征词典,并用其向量化文本,获得对应短文本特征a;(3)采用预训练词向量初始化文本,使用不同尺寸的过滤器,提取文本特征,并且使用maxpooling方法选出最有代表性的特征,形成短文本特征b;(4)采用具有门结构的长短时记忆网络,提取经过词向量初始化文本的词序特征,将得到编码输出到全连接层调整成合适的特征矩阵输出,获得短文本特征c;(5)将获得的三类不同特征a,b,c拼接成为融合特征f,采用权重分配方法对融合特征加权;(6)采用多层感知机并用softmax函数作为激活函数,数字最大的类别即为短文本的类别。进一步地,所述步骤(2)通过以下公式实现:其中,tfi,j代表词语wi在文档di中出现频率,ni,j为wi在文档di中出现的次数,分母为文档di中所有词语出现次数综合,k为文档dj中不同词语的个数;idfi代表词语wi在文本库d中的逆向文档频率,nd为文本库d中文档的总个数,df(d,wi)为文档库d中包含词语wi的文档个数。进一步地,所述步骤(3)通过以下公式实现:Ci=f(w×xi:i+g-1+b)(4)M=max(c1,c2,...,cn-g+1)=max{C}(5)其中,w是滤波器的权重,g是卷积核的尺寸,xi:i+g-1表示i到i+g-1个词向量组成的句子向量,b是偏置,f是非线性激活函数如ReLU或tanh。进一步地,所述步骤(5)所述的权重分配方法为:其中,Q、K、V是每个特征的3个不同向量,通过特征向量X乘以不同的权重矩阵WQ、WK、WV得到,对每个向量计算score值,即QKT,为了梯度稳定,使用归一化除以本专利技术还提供一种基于多特征融合的短文本分类系统,包括预处理模块、特征提取模块、特征融合及加权模块及结果分类模块;所述预处理模块对原始文本进行预处理,去除原始文本中的多余噪声;所述特征提取模块,分别使用词频和逆词序方法、卷积神经网络、长短时记忆网络算法提取特征,形成三种特征向量;所述特征融合及加权模块,将获得的三类特征拼接成特征矩阵,使用注意力机制对每个特征配以不同的权重,来区分特征对文本识别重要性的大小;所述结果分类模块,将加权后的特征输入全连接层进一步学习,最后经过softmax层得到分类结果;所述预处理模块将经过预处理的原始文本输入到特征提取模块,获得文本的三种特征表示;并将三种特征输入到特征融合及加权模块,对特征融合加权;将加权后的特征输入到结果分类模块中,获得分类结果。有益效果:与现有技术相比,本专利技术的有益效果:1、本专利技术通过对短文本拼接计算得来的词频逆词序值建立特征词典,对文本进行向量化表示,并且结合CNN和LSTM提取特征,将三类特征融合用以丰富短文本特征,解决短文本特征稀疏,特征提取困难的问题;2、本专利技术使用注意力机制分配权重,用以解决特征冲突影响分类结果,使得模型结果更加稳定,对于重点特征的聚焦更加准确,使得多特征融合的利用效果更好,从而提高了短文本分类准确率。附图说明图1是基于多特征融合的短文本分类方法的流程示意图;图2是基于多特征融合的短文本分类方法的系统架构示意图。具体实施方式下面结合说明书附图对本专利技术的具体实施方式作进一步详细的说明。如图1所示,本专利技术所涉及一种基于多特征融合的短文本分类方法,短文本分类必然面对文本特点带来的特征稀疏问题。考虑到传统的特征扩展方法面对特定的场景与资源,特征工程步骤依赖于领域知识,计算效率低,难以推广到其他场景。本专利技术提出的词频逆词序值的利用方法并没有此类局限,并且结合其他两种方法提取特征,用以融合解决特征稀疏问题。考虑到多特征融合带来的特征冲突问题,使得方法的重点不明确不稳定,本专利技术利用注意力机制对融合特征分配权重,使得重点特征得到充分利用,提高分类结果的稳定性。具体包括如下步骤:1、将已有标签的短文本数据作为训练集S,待分类的短文本文本测试集T,进入步骤2;需要对获得的文本进行处理,去除文本中的多余噪声,如标点、停用词等。2、将训练集S中同类别文本前后拼接,形成较长文本,采用词频和逆词序方法(TF-IDF)计算特征,并根据单词对应的结果构建特征词典,并用其向量化文本,获得对应短文本特征a。短文本的统计特征很难发挥作用,将同类的短文本拼接,可以获得该类型的长文本数据。再使用如下公式本文档来自技高网
...

【技术保护点】
1.一种基于多特征融合的短文本分类方法,其特征在于,包括以下步骤:/n(1)将已有标签的短文本数据作为训练集,待分类的短文本为测试集;/n(2)将训练集中同类别文本前后拼接,形成较长文本,采用词频和逆词序方法计算特征,并根据单词对应的结果构建特征词典,并用其向量化文本,获得对应短文本特征a;/n(3)采用预训练词向量初始化文本,使用不同尺寸的过滤器,提取文本特征,并且使用maxpooling方法选出最有代表性的特征,形成短文本特征b;/n(4)采用具有门结构的长短时记忆网络,提取经过词向量初始化文本的词序特征,将得到编码输出到全连接层调整成合适的特征矩阵输出,获得短文本特征c;/n(5)将获得的三类不同特征a,b,c拼接成为融合特征f,采用权重分配方法对融合特征加权;/n(6)采用多层感知机并用softmax函数作为激活函数,数字最大的类别即为短文本的类别。/n

【技术特征摘要】
1.一种基于多特征融合的短文本分类方法,其特征在于,包括以下步骤:
(1)将已有标签的短文本数据作为训练集,待分类的短文本为测试集;
(2)将训练集中同类别文本前后拼接,形成较长文本,采用词频和逆词序方法计算特征,并根据单词对应的结果构建特征词典,并用其向量化文本,获得对应短文本特征a;
(3)采用预训练词向量初始化文本,使用不同尺寸的过滤器,提取文本特征,并且使用maxpooling方法选出最有代表性的特征,形成短文本特征b;
(4)采用具有门结构的长短时记忆网络,提取经过词向量初始化文本的词序特征,将得到编码输出到全连接层调整成合适的特征矩阵输出,获得短文本特征c;
(5)将获得的三类不同特征a,b,c拼接成为融合特征f,采用权重分配方法对融合特征加权;
(6)采用多层感知机并用softmax函数作为激活函数,数字最大的类别即为短文本的类别。


2.根据权利要求1所述一种基于多特征融合的短文本分类方法,其特征在于,所述步骤(2)通过以下公式实现:









其中,tfi,j代表词语wi在文档di中出现频率,ni,j为wi在文档di中出现的次数,分母为文档di中所有词语出现次数综合,k为文档dj中不同词语的个数;idfi代表词语wi在文本库d中的逆向文档频率,nd为文本库d中文档的总个数,df(d,wi)为文档库d中包含词语wi的文档个数。


3.根据权利要求1所述一种基于多特征融合的短文本分类方法,其特征在于,...

【专利技术属性】
技术研发人员:徐小龙刘聪
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1