System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多元特征与Stacking集成学习的网络文本情感分析方法技术_技高网

基于多元特征与Stacking集成学习的网络文本情感分析方法技术

技术编号:40699816 阅读:2 留言:0更新日期:2024-03-22 10:57
本发明专利技术涉及文本情感分析技术领域,尤其涉及基于多元特征与Stacking集成学习的网络文本情感分析方法。包括:对网络文本进行数据情感极性的人工标注和预处理操作;从所述训练数据集和测试数据集的网络文本中,抽取出文本特征并构建出四种特征向量:语义特征向量、情感特征向量、词性特征向量与表情特征向量;将所述语义特征向量、情感特征向量、词性特征向量与表情特征向量拼接融合,构建出网络文本的文本向量;训练得到文本情感分类器,通过所述文本情感分类器对网络文本进行文本情感分类。本发明专利技术能更全面、准确地表示网络文本内容,结合网络文本数据集实现情感分类时,能有效提高情感分类准确率,从而改善情感分类效果。

【技术实现步骤摘要】

本专利技术涉及文本情感分析,尤其涉及基于多元特征与stacking集成学习的网络文本情感分析方法。


技术介绍

1、对于社交平台而言,以微博为例,作为一种集信息分享,传播与获取的新型社交平台,因其门坎低,使用简捷等特点,深受广大用户喜爱。通过该平台,用户可随时随地发布140字以内的内容来抒发内心情感,也可对评论他人发布的内容来表达自己的观点与态度。

2、随着网络用户数量的逐渐增多,网络平台中产生的数据也呈现指数级的增长。人们被海量的数据包围着,陷入了困扰。然而,这些数据反映了用户对某些事物或现象的观点与态度,携带了一定的情感信息,若对其进行充分挖掘,将产生巨大的商业价值与社会价值。在此背景下,文本情感倾向性分析技术的出现为其解了燃眉之急,带领人们走出信息过载的困境。它是近年来的研究热点,主要对带有情感色彩的主观性文本进行情感倾向性判断(正面情感或负面情感),获悉用户对某个事物、事件所具有的观点与态度,进而为用户制定决策提供数据支撑。一方面,它有助于政府机构了解网民对相关政策所持有的观点与意见,进一步有效改善服务策略,做到惠民利民;此外,能有效监管网络舆情,及时遏制不良信息的迅速蔓延,促进有益信息的快速传播,以维护社会和谐与稳定。另一方面,它也有助于企业及时获悉顾客对所售产品的反馈信息,有效改进产品质量或服务策略,实现精准营销,扩大收益;同时,对顾客购买产品时提供一定的借鉴与参考,辅助于其做购买决策。

3、目前,网络情感分类方法主要分为2种:基于情感词典的情感分析方法和基于机器学习的情感分类方法。其中,前者较依赖于情感词典的构建,但很难构建一个比较完善的情感词典来囊括不断出现的网络新词等未登录词,且耗时耗力;而后者则克服了这一缺陷,减轻了人工构建词典的沉重负担,较流行。但其情感分析效果易受文本特征选择,文本向量化表示及分类器的构建等因素影响。许多研究者基于文本特征选择与向量化表示方面展开了研究,并取得了一定的成果,但这些研究多是从网络文本内容角度出发,抽取单个特征或综合2到3个特征来作为文本特征词,并结合word2vec进行文本向量化表示,未能充分考虑文本中词的语义、词性、情感、表情等内容特征,以及结构化信息中的评论、转发与点赞数等传播特征对情感分析的影响,文本向量化表示能力有所欠缺,一致情感分类性能不佳。

4、在网络情感分类器构建方面,研究者们大多基于单个机器学习算法结合网络数据,构建情感分类模型,分类效果欠佳。随着集成学习算法在文本分类中展露头角,对于集成学习算法在网络情感分类中的应用也得到了广泛的关注。相较于单个机器学习分类算法,集成学习算法能够综合多个弱的基分类器形成强分类器,应用于文本分类,分类效果更好。目前,常见集成学习算法有:bagging算法、boosting算法及stacking算法。前两类集成学习算法因在生成基分类器时采用同一算法而被归为同质集成学习算法,而stacking算法属于异质集成算法,是目前性能最好的集成学习器,多应用于各个领域实现分类、预测任务。它先用不同机器学习算法训练数据获取各基分类器;随后把上层分类结果输入元分类器再次训练生成分类器,从而得到最终输出结果。该算法的效果取决于元分类器与基分类器的选择,同时也受到基分类器与元分类器输入数据的影响。原始的stacking算法在训练元分类器时未充分考虑文本属于不同情感类别的预测信息,也忽略了各基分类器输出信息的重要程度。因此,将其应用于网络文本数据实现情感分类时,效果并不太理想,有待进一步提升。

5、为此,我们提出了本专利技术的基于多元特征与stacking集成学习的网络文本情感分析方法。


技术实现思路

1、本专利技术的目的是提供基于多元特征与stacking集成学习的网络文本情感分析方法,用于解决现有技术在对网络文本数据实现情感分类时,未充分考虑文本属于不同情感类别的预测信息,也忽略了各基分类器输出信息的重要程度,进而导致效果并不太理想的问题。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、本专利技术提供一种基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,包括以下步骤:

4、s1.获取网络文本数据集,并将所述网络文本数据集划分为训练数据集和测试数据集;

5、s2.对所述训练数据集进行数据情感极性的人工标注,即标注文本属于正向情感类别或负向情感类别;

6、s3.对所述训练数据集和测试数据集进行预处理操作;

7、s4.从所述训练数据集和测试数据集的网络文本中,抽取出文本特征并构建出四种特征向量:语义特征向量、情感特征向量、词性特征向量与表情特征向量;

8、s5.将所述语义特征向量、情感特征向量、词性特征向量与表情特征向量拼接融合,构建出网络文本的文本向量;

9、s6.训练得到文本情感分类器,通过所述文本情感分类器对网络文本进行文本情感分类。

10、进一步地,所述预处理操作包括:噪声信息滤除、表情与标点符号提取、分词与词性标注及停用词去除。

11、进一步地,所述语义特征向量构建方法包括:

12、对于网络文本dk(1≤k≤k),基于word2vec模型获取每个特征词termi(1≤i≤m)对应的n维词向量(n=100);

13、使用tf-idf算法来计算特征词termi的权重tfidfi,并与特征词的n维词向量相乘,得加权词向量,即得到特征词的语义特征向量,表示如下:

14、w'i=(tfidfi*wi1,tfidfi*wi2,......,tfidfi*win),(1≤i≤n)

15、其中,k为网络文本总数,m为网络文本dk中特征词总个数。

16、进一步地,所述情感特征向量的构建方法包括:

17、通过现有情感词典并结合网络搜集方式扩建得到8类新情感词典:基础情感词典、否定词词典、程度副词词典、连词词典、主张词词典、标点符号词典、表情符号词典及网络情感词典;所述基础情感词典包含正向情感词和负向情感词;

18、将上述8类情感词典中的词汇总在一起,然后再划分为7种情感词:正向情感词、负向情感词、否定词、程度副词、连词、主张词与标点符号;

19、对划分的7种情感词进行权重赋予;

20、针对网络文本dk(1≤k≤k),计算每一个特征词termi(1≤i≤m)的情感特征向量,表示如下:

21、e'i=wwi(ei1,ei2,......,eij,......,ei7),(1≤j≤7)

22、其中,e'i表示第i个特征词termi的情感特征向量,eij取值为0或1,依赖于特征词termi是否属于第j类词语,wwi为特征词termi的所属类别所赋予的权重。

23、进一步地,所述词性特征向量的构建方法包括:

24、构建出11种词性,针对网络文本dk(1≤k≤k),计算每一个特征词termi的词性特征向量,表示如下:...

【技术保护点】

1.基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述预处理操作包括:噪声信息滤除、表情与标点符号提取、分词与词性标注及停用词去除。

3.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述语义特征向量构建方法包括:

4.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述情感特征向量的构建方法包括:

5.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述词性特征向量的构建方法包括:

6.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述表情特征向量的构建方法包括:

7.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述S5中,将所述语义特征向量、情感特征向量、词性特征向量与表情特征向量拼接融合,构建出网络文本的文本向量,包括:

8.根据权利要求7所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述文本向量还拼接融合有传播特征,具体拼接融合步骤包括:

9.根据权利要求1所述的基于多元特征与Stacking集成学习的网络文本情感分析方法,其特征在于,所述文本情感分类器的训练方法如下:

...

【技术特征摘要】

1.基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,所述预处理操作包括:噪声信息滤除、表情与标点符号提取、分词与词性标注及停用词去除。

3.根据权利要求1所述的基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,所述语义特征向量构建方法包括:

4.根据权利要求1所述的基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,所述情感特征向量的构建方法包括:

5.根据权利要求1所述的基于多元特征与stacking集成学习的网络文本情感分析方法,其特征在于,所述词性特征向量...

【专利技术属性】
技术研发人员:陈红阳左雪
申请(专利权)人:重庆人文科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1