一种基于多特征融合的短文本分类方法及系统技术方案

技术编号：25042026 阅读：13 留言：0更新日期：2020-07-29 05:32

本发明专利技术涉及一种基于多特征融合的短文本分类方法及系统，首先，通过对文本进行预处理，包括分词、停用词处理、特征选择等；其次，将处理后的文本分别使用词频和逆词序方法、卷积神经网络、长短时记忆网络算法提取特征，形成三种特征向量；然后，将这三类特征融合，使用注意力机制对融合特征加权，突出重要特征；最后，融合特征经过分类器得到短文本分类结果。本发明专利技术使用词频逆词序特征建立特征词典，对文本进行向量化表示；并且结合滤波器和长短时记忆网络提取特征，将三类特征融合用以丰富短文本特征，使用注意力机制分配权重，稳定分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征融合的短文本分类方法及系统
本专利技术属于自然语言处理领域，具体涉及一种基于多特征融合的短文本分类方法及系统。
技术介绍
随着大数据时代的到来，纸质文档快速向电子化、数字化转变，文本分类成为自然语言处理中最常见的任务之一。随着网络技术的进步与电子社交媒体的发展一种新的文本类型——短文本成为网络信息的重要表现形式。短文本已经成为个人在网络平台上发表意见和分享信息的重要形式。短文本数据具有广泛的应用，比如问答系统中用户提出的问题、社交网络交流论坛的聊天记录、评论网站的情感分析等。短文本指的是长度较短的文本，它是和文档或长文本相对而言的。与长文本相比，短文本主要有以下几个特点：(1)文本长度较小。短文本可以是一个小的段落、几句话、一句话甚至是是一个短语。常见于新闻标题、问答系统和社交网络评论等场景。(2)特征稀疏。短文本信息内容简短，所包含的具有实际意义的词仅有十几个，从中抽取有效的特征词较困难。(3)实时性强且规模较大。网络生活中处处可见大量的文本信息，并且每天都在飞速增长。(4)文本格式不标准。从短文本的表述形式上看，虽然言简意赅但经常出现一些没有规则的不规范词语或拼写错误，这在很大程度上增加了本文的噪音。目前已经有很多学者研究短文本分类，主要可以基于特征扩展的方法和基于深度学习的方法。前者通过一些方法，发现潜在语义，对短文本进行扩展，提高分类效果。后者基于神经网络的词嵌入技术，使用深度学习模型对短文本进行分类。但目前的短文本分类技术主要存在以下问题：(1)基于机器学习方法面对特定的场景与资源，特...

【技术保护点】
1.一种基于多特征融合的短文本分类方法，其特征在于，包括以下步骤：/n(1)将已有标签的短文本数据作为训练集，待分类的短文本为测试集；/n(2)将训练集中同类别文本前后拼接，形成较长文本，采用词频和逆词序方法计算特征，并根据单词对应的结果构建特征词典，并用其向量化文本，获得对应短文本特征a；/n(3)采用预训练词向量初始化文本，使用不同尺寸的过滤器，提取文本特征，并且使用maxpooling方法选出最有代表性的特征，形成短文本特征b；/n(4)采用具有门结构的长短时记忆网络，提取经过词向量初始化文本的词序特征，将得到编码输出到全连接层调整成合适的特征矩阵输出，获得短文本特征c；/n(5)将获得的三类不同特征a，b，c拼接成为融合特征f，采用权重分配方法对融合特征加权；/n(6)采用多层感知机并用softmax函数作为激活函数，数字最大的类别即为短文本的类别。/n

【技术特征摘要】
1.一种基于多特征融合的短文本分类方法，其特征在于，包括以下步骤：
(1)将已有标签的短文本数据作为训练集，待分类的短文本为测试集；
(2)将训练集中同类别文本前后拼接，形成较长文本，采用词频和逆词序方法计算特征，并根据单词对应的结果构建特征词典，并用其向量化文本，获得对应短文本特征a；
(3)采用预训练词向量初始化文本，使用不同尺寸的过滤器，提取文本特征，并且使用maxpooling方法选出最有代表性的特征，形成短文本特征b；
(4)采用具有门结构的长短时记忆网络，提取经过词向量初始化文本的词序特征，将得到编码输出到全连接层调整成合适的特征矩阵输出，获得短文本特征c；
(5)将获得的三类不同特征a，b，c拼接成为融合特征f，采用权重分配方法对融合特征加权；
(6)采用多层感知机并用softmax函数作为激活函数，数字最大的类别即为短文本的类别。

2.根据权利要求1所述一种基于多特征融合的短文本分类方法，其特征在于，所述步骤(2)通过以下公式实现：

其中，tfi,j代表词语wi在文档di中出现频率，ni,j为wi在文档di中出现的次数，分母为文档di中所有词语出现次数综合，k为文档dj中不同词语的个数；idfi代表词语wi在文本库d中的逆向文档频率，nd为文本库d中文档的总个数，df(d,wi)为文档库d中包含词语wi的文档个数。

3.根据权利要求1所述一种基于多特征融合的短文本分类方法，其特征在于，...

【专利技术属性】
技术研发人员：徐小龙，刘聪，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人