一种基于文本特征嵌入的中文短文本情感分类方法技术

技术编号:13922628 阅读:94 留言:0更新日期:2016-10-27 23:44
本发明专利技术公开了一种基于文本特征嵌入的中文短文本情感分类方法,采用文本特征嵌入的方式进行特征提取,首先通过词嵌入将词表示为较短长度的向量,一方面降低了特征的维度,另一方面可以较好地描述词与词之间的相似关系;然后根据不同的词在文本中所处的位置对词向量进行加权,从而进行文本特征嵌入,得到较低维度的文本特征,在基础上进行中文短文本情感分类,从而提高中文短文本情感分类精度。另外,由于网络语言变化快,中文短文本的随意性强,本发明专利技术采用增量学习的方式不断更新词向量,使其能够紧跟待训练文本的变化,以提高文本情感分类的精度。

【技术实现步骤摘要】

本专利技术属于信息
,涉及一种针对Twitter文本事件抽取的方法。
技术介绍
随着互联网技术的飞速发展和通讯设备的普及化、移动化,微博、网络社群等便捷的网络应用迅速崛起,更多的人在网络上获取信息并对其表明态度、发表看法。Internet逐渐发展成为信息发布、获取和传递的主要载体。把握互联网用户在网络中发表的观点、情感,可准确评价产品、服务的受欢迎程度,以改善产品、服务的质量;把握事件的发生发展过程中网民的态度,正确进行舆情监控和引导;透析不同网民的个人喜好,正确进行信息推荐。因此对互联网文本进行情感分析具有重要的现实意义。由于产品评论和主流社交媒体(如微博)上面以短文本为主,包含信息较少,并且口语化严重,加上中文的变化性强,对短文本的情感分析存在较大困难,因此研究中文短文本情感分类方法具有重要的理论研究价值。文本情感分类一般包括文本预处理、文本特征提取、分类器训练与预测三个步骤,其中核心是文本特征提取与分类器的选择,由于文本情感分类研究中对分类器的选择已有较多研究,本专利技术着重研究文本特征提取。文本特征提取一般有文本特征选择和文本特征嵌入两种方式,其中特征选择是最常用的方法,即从高维的基本特征中选择一些对分类任务有利的特征来表示样本,以增强分类器的区分性从而提高精度;而特征嵌入采用一定的数学方法将高维的基本特征向量嵌入到一个固定长度的低维特征向量中,以降低特征维度。对于文本分类,文本基本特征主要是词,文本特征选择即选择对分类任务有利的词组成分类特征,文本特征嵌入即将词和文本嵌入到固定长度的分布式向量中作为分类特征。由于中文短文本的开放性、随意性和口语化,分词难以取得很好效果,词义与上下文关系较大,在不同的语境下相同的词可表现出不同的情感,传统基于向量空间模型和特征选择的方法存在特征空间稀疏,无法表示词与词之间相似程度等问题,无法很好地对中文短文本进行情感分类。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术提供一种基于文本特征嵌入的中文短文本情感分类方法,用于解决中文短文本情感分类算法精度有待于进一步提高的问题。本专利技术中使用如下的定义和计算公式。(1)分布式词向量。分布式词向量就是将传统的通过向量空间模型得来的高维稀疏词向量映射到一个低维空间的词向量,分布式词向量的相似性代表两个词的相似性。即对于数据集的词表V,对应一个映射矩阵C∈Rm×|V|,其中C(j)∈Rm为词wj对应的词向量,m为指定的分布式词向量长度,词向量矩阵C往往是作为一组参数,伴随着语言模型的大量训练而获得,本专利技术的词向量是采用Word2Vec词向量训练方法,首先在所有Wiki中文数据上进行初始化训练,然后根据采集的数据流进行在线增量训练得到的,是对普适性和领域性的一个折中。(2)基于加权词向量的文本特征嵌入。对于一个文本D={w1,w2,...wd本文档来自技高网
...

【技术保护点】
一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于,包含如下步骤:步骤1)采用Wiki中文所有数据进行初始化词向量训练;步骤2)以Wiki中文训练出的词向量为初始向量,采用分类相关数据集进行词向量优化训练;步骤3)采用步骤2)训练出的词向量,对分类训练集中文本进行特征嵌入;步骤4)以步骤3)得到的文本分布式特征向量为文本特征,采用logistic分类进行分类器训练;步骤5)采集需要进行情感分类的中文短文本;步骤6)对采集到的数据进行预处理,首先进行去重处理,然后对剩下的文本进行分词并去除停用词;步骤7)如需要更新词向量,以新采集到的数据为训练集,重复步骤2)至步骤4),分别进行词向量、分类训练集文本向量和logistic分类器的更新训练;步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量,对待分类文本进行特征嵌入;步骤9)以步骤8)中得到的文本向量为特征,采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。

【技术特征摘要】
1.一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于,包含如下步骤:步骤1)采用Wiki中文所有数据进行初始化词向量训练;步骤2)以Wiki中文训练出的词向量为初始向量,采用分类相关数据集进行词向量优化训练;步骤3)采用步骤2)训练出的词向量,对分类训练集中文本进行特征嵌入;步骤4)以步骤3)得到的文本分布式特征向量为文本特征,采用logistic分类进行分类器训练;步骤5)采集需要进行情感分类的中文短文本;步骤6)对采集到的数据进行预处理,首先进行去重处理,然后对剩下的文本进行分词并去除停用词;步骤7)如需要更新词向量,以新采集到的数据为训练集,重复步骤2)至步骤4),分别进行词向量、分类训练集文本向量和logistic分类器的更新训练;步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量,对待分类文本进行特征嵌入;步骤9)以步骤8)中得到的文本向量为特征,采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。2.如权利要求1所述的一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于:步骤1)具体包括如下步骤:步骤...

【专利技术属性】
技术研发人员:张胜李沛程佳军丁兆云张鑫王晖沈大勇陈科第叶栋乔凤才
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1