短文本内容分类方法和系统技术方案

技术编号:19056917 阅读:50 留言:0更新日期:2018-09-29 12:11
本发明专利技术公开了一种短文本内容分类方法,其包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。本发明专利技术还公开了一种短文本内容分类系统,可实现前述的短文本内容分类方法。

【技术实现步骤摘要】
短文本内容分类方法和系统
本专利技术涉及信息处理
,并且特别涉及一种基于深度神经网络的短文本内容分类方法和系统。
技术介绍
以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介,因而成为社会公共舆论、企业品牌和产品推广和传统媒体传播的主要平台。截止2017年9月,全球性的微博服务站点Twitter的月活跃用户达到3.3亿,而中文微博平台新浪微博的月度活跃用户数达到3.76亿、日活跃用户达到1.65亿。数以亿计的活跃用户来自不同的社会文化背景且遍布全球,每时每刻都在生成大量包含用户的意见和情绪的文本信息。潜在用户会通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法,因此针对特定应用需求来识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息,是当前互联网信息处理、数据挖掘、计算语言学等领域的一个热点研究问题,在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。然而,由于微博的文本短小、语法结构不完整、而且其中的表述随意和充斥噪声,使得微博文本的分类面临极大的挑战。现有的分类方式主要是采用人工方式来构建分类特征,而分类特征多使用词袋模型,难以刻画词序信息,且面临了维数爆炸和数据稀疏的问题。此外,微博的文本经常出现“明褒暗贬”或隐式的表述方式,而人工构建特征的方式难以发现和描述这类隐含的语义关系。
技术实现思路
本专利技术提出了一种短文本内容分类方法和系统,避免了维数爆炸和数据稀疏的问题,并有效地提升了短文本内容的分类性能。在一个方面,提出了一种短文本内容分类方法,其包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量和分类特征向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。在一些具体实施例中,生成该短文本内容的上下文情感特征值向量tc;以及生成该短文本内容的先验情感特征值向量SenScore(t)。在一些具体实施例中,使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;使用第二模型训练生成该短文本内容的句子级特征向量td;以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot。在一些具体实施例中,将该多层次文本语义向量ot输入该深度卷积神经网络的池化层,以生成向量o't;以及将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量ti'。在一些具体实施例中,连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量ti',以生成向量y';将该向量y'输入该深度卷积神经网络的全连接层,以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值P(i|t,θ),并将该概率值P(i|t,θ)为最大的该内容类别作为该短文本内容的类别。在一些具体实施例中,该先验情感特征值其中wi是该短文本内容中的单词项,n是该短文本内容的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息,PMI(wi,neg)是单词项wi与负向情感分类的点互信息。在一些具体实施例中,该输出向量y=Wy'+b,其中W是该深度卷积神经网络的输出层的转移矩阵,b是该输出层的偏置系数。在一些具体实施例中,该概率值在一些具体实施例中,该向量在另一个方面,提出了一种短文本内容分类系统,其包括处理器和存储器,该存储器中存储有短文本内容分类单元。该短文本内容分类单元用于:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。本专利技术通过取得社交网络平台的短文本内容,再取得短文本内容的上下文情感特征值和先验情感特征值,并使用模型训练生成短文本内容的词向量,解决了短文本内容的词向量的维数爆炸和数据稀疏的问题。此外,还利用多窗口卷积操作来取得不同粒度的短文本内容的语义关系,并组合池化操作而从不同层次对短文本内容的语义表示进行抽象化,最后再组合不同层次的情感特征向量,从而能够更加全面和多样的描述短文本内容的情感语义特征,进而提高短文本内容的分类性能。附图说明包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其他实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。图1是根据本专利技术的一个实施例的短文本内容分类方法的流程图;以及图2是根据本专利技术的一个实施例的短文本内容分类系统的示意图。具体实施方式在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本专利技术的说明性具体实施例来示出。应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本专利技术的范围。因此以下详细描述不应当在限制的意义上被采用,并且本专利技术的范围由所附权利要求来限定。图1示出了根据本专利技术的一个实施例的短文本内容分类方法的流程图。在一实施例中,该短文本内容分类方法由图2所示的短文本内容分类系统实现。如图1所示,该短文本内容分类方法包括以下步骤:S10:取得社交网络平台P(图未示)的短文本内容C(图未示)。社交网络平台P(例如微博)的短文本内容C(例如微博的文本内容)由于表达形式多样,可能包含大量的特殊符号、超链接、非文本字符以及不含情感特征的信息,在进一步对短文本内容C进行处理前,可先删除这些信息,以降低文本处理的词汇表空间、减少数据噪声信息。在一实施例中,步骤S10包括:通过社交网本文档来自技高网...

【技术保护点】
1.一种短文本内容分类方法,其特征在于,包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量和分类特征向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。

【技术特征摘要】
1.一种短文本内容分类方法,其特征在于,包括:取得社交网络平台的短文本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该短文本内容的词向量和分类特征向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。2.根据权利要求1所述的方法,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括:生成该短文本内容的上下文情感特征值向量tc;以及生成该短文本内容的先验情感特征值向量SenScore(t)。3.根据权利要求1所述的方法,其特征在于,使用模型训练生成该短文本内容的词向量的步骤包括:使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;使用第二模型训练生成该短文本内容的句子级特征向量td;以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot。4.根据权利要求1所述的方法,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括:将该多层次文本语义向量ot输入该深度卷积神经网络的池化层,以生成向量o′t;以及将该向量o′t再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作,使得该最后一层的该Top-K池化操作输出向量t′i。5.根据权利要求1所述的方法,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括:连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';将该向量y'输入该深度卷积神经网络的全连接层,以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。6.一种短文本内容分类系统...

【专利技术属性】
技术研发人员:赵建强申强江汉祥
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1