短文本内容分类方法和系统技术方案

技术编号：19056917 阅读：50 留言：0更新日期：2018-09-29 12:11

本发明专利技术公开了一种短文本内容分类方法，其包括：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。本发明专利技术还公开了一种短文本内容分类系统，可实现前述的短文本内容分类方法。

全部详细技术资料下载

【技术实现步骤摘要】
短文本内容分类方法和系统
本专利技术涉及信息处理
，并且特别涉及一种基于深度神经网络的短文本内容分类方法和系统。
技术介绍
以微博为代表的新兴社交媒体已经成为广大网络用户获取新闻资讯、社会交往、自我表达、分享观点、传播信息和社会参与的重要媒介，因而成为社会公共舆论、企业品牌和产品推广和传统媒体传播的主要平台。截止2017年9月，全球性的微博服务站点Twitter的月活跃用户达到3.3亿，而中文微博平台新浪微博的月度活跃用户数达到3.76亿、日活跃用户达到1.65亿。数以亿计的活跃用户来自不同的社会文化背景且遍布全球，每时每刻都在生成大量包含用户的意见和情绪的文本信息。潜在用户会通过阅读这些具有主观色彩的信息来了解大众舆论对于某一事件或产品的看法，因此针对特定应用需求来识别、分析和挖掘微博中所包含的有价值的用户情感、态度和意见信息，是当前互联网信息处理、数据挖掘、计算语言学等领域的一个热点研究问题，在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意义。然而，由于微博的文本短小、语法结构不完整、而且其中的表述随意和充斥噪声，使得微博文本的分类面临极大的挑战。现有的分类方式主要是采用人工方式来构建分类特征，而分类特征多使用词袋模型，难以刻画词序信息，且面临了维数爆炸和数据稀疏的问题。此外，微博的文本经常出现“明褒暗贬”或隐式的表述方式，而人工构建特征的方式难以发现和描述这类隐含的语义关系。
技术实现思路
本专利技术提出了一种短文本内容分类方法和系统，避免了维数爆炸和数据稀疏的问题，并有效地提升了短文本内容的分类性能。在一个方面，提出了一种短...

【技术保护点】
1.一种短文本内容分类方法，其特征在于，包括：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量和分类特征向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。

【技术特征摘要】
1.一种短文本内容分类方法，其特征在于，包括：取得社交网络平台的短文本内容；取得该短文本内容的上下文情感特征值和先验情感特征值；使用模型训练生成该短文本内容的词向量和分类特征向量；利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化；使用双向长短时记忆网络获得该短文本内容的语义表征；以及组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。2.根据权利要求1所述的方法，其特征在于，取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括：生成该短文本内容的上下文情感特征值向量tc；以及生成该短文本内容的先验情感特征值向量SenScore(t)。3.根据权利要求1所述的方法，其特征在于，使用模型训练生成该短文本内容的词向量的步骤包括：使用第一模型训练生成该短文本内容的分布式词向量t＝[w1,w2,...,wn]，其中wi是该短文本内容中的单词项wi，每个单词项wi都是一个向量；将该分布式词向量t输入到一个深度卷积神经网络的卷积层，以生成该短文本内容的上下文局部特征向量xt＝[x1,x2,...xt]；将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn；使用第二模型训练生成该短文本内容的句子级特征向量td；以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td，以生成多层次文本语义向量ot。4.根据权利要求1所述的方法，其特征在于，利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系，并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括：将该多层次文本语义向量ot输入该深度卷积神经网络的池化层，以生成向量o′t；以及将该向量o′t再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top-K池化操作，直到取得最后一层的该文本语义特征表示并输出向量再进行该Top-K池化操作，使得该最后一层的该Top-K池化操作输出向量t′i。5.根据权利要求1所述的方法，其特征在于，组合不同层次的情感特征向量并取得输出向量，使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括：连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i，以生成向量y'；将该向量y'输入该深度卷积神经网络的全连接层，以取得输出向量y；以及使用第一函数对该输出向量y进行计算，以取得该短文本内容属于一或多个内容类别的概率值，并将该概率值为最大的该内容类别作为该短文本内容的类别。6.一种短文本内容分类系统...

【专利技术属性】
技术研发人员：赵建强，申强，江汉祥，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人