【技术实现步骤摘要】
本专利技术属于信息
,涉及一种针对Twitter文本事件抽取的方法。
技术介绍
随着互联网技术的飞速发展和通讯设备的普及化、移动化,微博、网络社群等便捷的网络应用迅速崛起,更多的人在网络上获取信息并对其表明态度、发表看法。Internet逐渐发展成为信息发布、获取和传递的主要载体。把握互联网用户在网络中发表的观点、情感,可准确评价产品、服务的受欢迎程度,以改善产品、服务的质量;把握事件的发生发展过程中网民的态度,正确进行舆情监控和引导;透析不同网民的个人喜好,正确进行信息推荐。因此对互联网文本进行情感分析具有重要的现实意义。由于产品评论和主流社交媒体(如微博)上面以短文本为主,包含信息较少,并且口语化严重,加上中文的变化性强,对短文本的情感分析存在较大困难,因此研究中文短文本情感分类方法具有重要的理论研究价值。文本情感分类一般包括文本预处理、文本特征提取、分类器训练与预测三个步骤,其中核心是文本特征提取与分类器的选择,由于文本情感分类研究中对分类器的选择已有较多研究,本专利技术着重研究文本特征提取。文本特征提取一般有文本特征选择和文本特征嵌入两种方式,其中特征选择是最常用的方法,即从高维的基本特征中选择一些对分类任务有利的特征来表示样本,以增强分类器的区分性从而提高精度;而特征嵌入采用一定的数学方法将高维的基本特征向量嵌入到一个固定长度的低维特征向量中,以降低特征维度。对于文本分类,文本基本特征主要是词,文本特征选择即选择对分类任务有利的词组成分类特征,文本特征嵌入即将词和文本嵌入到固定长度的分布式向量中作为分类特征。由于中文短文本的开放性、随意性 ...
【技术保护点】
一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于,包含如下步骤:步骤1)采用Wiki中文所有数据进行初始化词向量训练;步骤2)以Wiki中文训练出的词向量为初始向量,采用分类相关数据集进行词向量优化训练;步骤3)采用步骤2)训练出的词向量,对分类训练集中文本进行特征嵌入;步骤4)以步骤3)得到的文本分布式特征向量为文本特征,采用logistic分类进行分类器训练;步骤5)采集需要进行情感分类的中文短文本;步骤6)对采集到的数据进行预处理,首先进行去重处理,然后对剩下的文本进行分词并去除停用词;步骤7)如需要更新词向量,以新采集到的数据为训练集,重复步骤2)至步骤4),分别进行词向量、分类训练集文本向量和logistic分类器的更新训练;步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量,对待分类文本进行特征嵌入;步骤9)以步骤8)中得到的文本向量为特征,采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。
【技术特征摘要】
1.一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于,包含如下步骤:步骤1)采用Wiki中文所有数据进行初始化词向量训练;步骤2)以Wiki中文训练出的词向量为初始向量,采用分类相关数据集进行词向量优化训练;步骤3)采用步骤2)训练出的词向量,对分类训练集中文本进行特征嵌入;步骤4)以步骤3)得到的文本分布式特征向量为文本特征,采用logistic分类进行分类器训练;步骤5)采集需要进行情感分类的中文短文本;步骤6)对采集到的数据进行预处理,首先进行去重处理,然后对剩下的文本进行分词并去除停用词;步骤7)如需要更新词向量,以新采集到的数据为训练集,重复步骤2)至步骤4),分别进行词向量、分类训练集文本向量和logistic分类器的更新训练;步骤8)采用上一次更新过程中步骤2)训练出的分布式词向量,对待分类文本进行特征嵌入;步骤9)以步骤8)中得到的文本向量为特征,采用上一次更新过程中步骤4)训练出的logistic分类器进行文本情感分类。2.如权利要求1所述的一种基于文本特征嵌入的中文短文本情感分类方法,其特征在于:步骤1)具体包括如下步骤:步骤...
【专利技术属性】
技术研发人员:张胜,李沛,程佳军,丁兆云,张鑫,王晖,沈大勇,陈科第,叶栋,乔凤才,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。