一种基于百度贴吧的网民学业情绪分析方法技术

技术编号:18591887 阅读:50 留言:0更新日期:2018-08-04 20:00
一种基于百度贴吧的网民学业情绪分析方法,包括:数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;数据预处理;首先,去除数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,学业情绪标注包括人工标注机器学习和机器标注;对学业情绪分类结果进行相关性与差异性分析。本发明专利技术运用学业情绪人工分类和采用机器学习方法对数据集进行情绪分类,判断整体情绪,并统计各情绪强度和占比,最后根据时间序列、情绪拐点和关键事件、学业情绪的群体特征等多个方面,对高考事件中网民的学业情绪的时间发展特征和群体特征进行多角度分析。

An analysis method of netizens' academic emotions based on Baidu Post Bar

A method based on Baidu's post bar Internet users' Academic Emotion analysis, including: data acquisition and extraction; collecting the theme posts of the college entrance examination in Baidu postings, forming data sets; data preprocessing; first, removing non text information from the content of data in the data concentration; secondly, Chinese participle and vocabulary in the text of the post Part of the word analysis, removal of related disuse words, academic emotion classification, data pretreated data set according to 13 classes of academic mood to carry out academic mood annotation, Academic Emotion tagging includes manual labelling machine learning and machine annotation; study the classification results of Academic Emotion and difference analysis. This invention uses the artificial classification of Academic Emotion and the machine learning method to classify the data set, judge the whole emotion, and count the intensity and the proportion of the emotion, and finally, according to the time series, the emotional inflection point and the key events, the group characteristics of the academic emotion, and so on, the Academic Emotion of the netizen in the college entrance examination event. The characteristics of time development and group characteristics are analyzed from multiple perspectives.

【技术实现步骤摘要】
一种基于百度贴吧的网民学业情绪分析方法
本专利技术属于数据分析领域,具体涉及一种基于百度贴吧的网民学业情绪分析方法。
技术介绍
目前关于学业情绪的研究采用的大多都是问卷调查的方法,其他研究方法比较缺失,教育心理学本身的复杂性和不可操控性造成了其研究方法的单一性的缺点;其二、由于人力、物力的局限,目前研究学业情绪,大多集中在某些区域学生或某类学生群体,样本范围有限;其三、学业情绪研究对象为具体自然人学生,对于这些学生在网络上的匿名行为特征没有研究。其四、对高考这一个特殊事件的学业情绪研究较少。大数据分析技术的兴起为解决以上问题创造了条件。高考吧作为当前网民(以高中生和其家长为主)常用的网络社交平台之一,集合了历年高考相关事件的信息帖,因而直观展现了以高中生为主体的学业相关的各类信息,其中包括反映学生学业情绪的情绪信息。在高考考试、成绩出分、志愿填报、录取查询等相关时间段,高考吧中的话题量和活跃人数显著上升。通过对高考吧中的帖子内容和发帖人的观察,反映出网民对不同高考事件的看法和心理状态,从而表现出不同的学业情绪。同时,网民的性别和注册时长等属性也可能诱发相应的学业情绪。
技术实现思路
本专利技术的目的是提供一种基于百度贴吧的网民学业情绪分析方法。因此,本专利技术采用以下技术方案。一种基于百度贴吧的网民学业情绪分析方法,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;步骤4、对学业情绪分类结果进行相关性与差异性分析。优选的,数据预处理后的数据集分为训练集和测试集,对所述训练集进行人工标注机器学习,对所述测试集进行机器标注。优选的,所述人工标注机器学习包括:(1)收集和整理情绪关键词,形成情绪关键词库;(2)人工对测试集中的帖子进行选择和情绪标注;(3)TF-IDF自然语言处理,提取出相关的情绪关键词,更新情绪关键词库;(4)对每个帖子的情绪关键词词频x做了归一化处理,去除异常值,通过线性转化函数进行处理,得到最终的归一化词频y:其中,minvalue和maxvalue是人工定义的帖子的上限和下限;超过上限的词频,调整为上限值,最终y为0到5之间的一个值,并向上取整;(5)使用多元回归算法,计算出某种学业情绪分类下的情绪强度,其具体公式如下:Z=W1×y1+w2×y2+…+wn×yn其中,Z是某种学业情绪分类下的情绪强度,假设有n个情绪关键词,yi表示情绪关键词的词频,wi表示情绪关键词在学业情绪分类下的权重。优选的,所述机器标注包括,通过人工标注机器学习训练的每个情绪关键词在每种学业情绪分类下的权重,计算出帖子在学业情绪分类下的情绪强度,具体的计算公式为:Z′=w1×y1+w2×y2+…+wn×yn其中,Z′为帖子在学业情绪分类下的情绪强度。优选的,所述13类学业情绪包括:高兴、自豪、希望、满足、平静、放松、焦虑、羞愧、生气、无助、厌倦、沮丧、疲乏心烦。优选的,所述13类学业情绪分为积极高唤醒、积极低唤醒、消极高唤醒和消极低唤醒四个维度。本专利技术的有益效果是:本专利技术运用学业情绪人工分类和采用机器学习方法对数据集进行情绪分类,判断整体情绪,并统计各情绪强度和占比,最后根据时间序列、情绪拐点和关键事件、学业情绪的群体特征等多个方面,对高考事件中网民的学业情绪的时间发展特征和群体特征进行多角度分析。本专利技术采用互联网信息采集技术和自然语言处理技术等大数据研究方法进行学业情绪研究,研究的新范式和经验对于今后运用大数据技术进行情绪心理学研究具有借鉴意义。附图说明图1是本专利技术中学业情绪分析方法步骤示意图。图2是本专利技术中人工标注机器学习和机器标注框架图。图3是本专利技术中四类维度情绪-时间走势图。图4是本专利技术中四类维度学业情绪在高考事件中的估算边际均值。图5是本专利技术中男女积极低唤醒情绪在高考事件中的估算边际均值。图6是本专利技术中男女放松情绪在高考事件中的估算边际均值。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,一种基于百度贴吧的网民学业情绪分析方法包括以下步骤。第一步:百度高考吧数据提取与数据预处理。百度贴吧是一种基于关键词的主题交流社区,它与搜索紧密结合,准确把握用户需求,为兴趣而生。高考吧目前共有超过230万的关注用户,主题帖数量超过6000万。每个主题帖子包含了楼主的发帖内容和成百上千个回帖。同时,每个用户的信息中也包含了年龄、性别等基本信息。高考吧是百度贴吧中高考线管话题热度最高的贴吧,因此选用高考吧最为研究对象。高考吧的界面包含帖子标题,发帖人,时间,回复等信息。本专利技术抓取高考吧主题帖子,并对每个帖子的回复抓取最多2000楼,形成最终数据集。采集信息包括内容信息如:标题,发帖用户名,内容(包括,回帖),发帖时间,回贴数量等,和用户信息如性别,贴吧吧龄,发帖数等。通过对2015年全年数据进行统计可得,在6,7月份高考季节,贴吧的活跃度和发帖量都是出现了井喷的状态,其数量远远高于其它月份。本专利技术重点关注6,7月份的高考吧数据,共提取相关吧贴119873条。第二步:数据预处理。由于百度高考帖吧的内容主要由中文表述,同时其中包含了大量的图片、表情包、动画等内容,在进行统计分析之前,我们需要对其进行清洗和处理。首先,我们去除了帖子内容中的非文本信息,包括链接引用、图片、表情包等等不需要的内容。然后需要对其进行中文分词。对于文本中的词汇进行词性分析,去除相关的停用词如助词、介词等。句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,主要考虑两个问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。我们把S表示句子;NP、VP、PP是名词、动词、介词短语(短语级别);N、V、P分别是名词、动词、介词。并且生成句子的语法树,定义如下的一套上下文无关语法。1)N表示一组非叶子节点的标注,例如{S、NP、VP、N...}2)Σ表示一组叶子结点的标注。3)R表示一组规则,每条规则可以表示为X->Y1Y2...Yn,X∈N,Yi∈(N∪Σ)4)S表示语法树开始的标注例如,句子themansleeps就可以表示为(S(NP(DTthe)(NNman))(VPsleeps))。本专利技术使用举例:原始帖子标题为“【军校国防生】军校苦吗?平时自由不?学长进来指点下哈,迷茫了”,经过中文分词工具处理与去掉停用词之后,得到结果为“NN军校NN国防生NN军校VP苦NN自由NN学长V指点NN迷茫”。第三步:学业情绪分类。按照大数据和数据分析的相关研究思路,把整体数据集分成训练集(trainingdataset)和测试集(testdata本文档来自技高网...

【技术保护点】
1.一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;步骤4、对学业情绪分类结果进行相关性与差异性分析。

【技术特征摘要】
1.一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;步骤4、对学业情绪分类结果进行相关性与差异性分析。2.根据权利要求1所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,数据预处理后的数据集分为训练集和测试集,对所述训练集进行人工标注机器学习,对所述测试集进行机器标注。3.根据权利要求2所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述人工标注机器学习包括:(1)收集和整理情绪关键词,形成情绪关键词库;(2)人工对测试集中的帖子进行选择和情绪标注;(3)TF-IDF自然语言处理,提取出相关的情绪关键词,更新情绪关键词库;(4)对每个帖子的情绪关键词词频x做了归一化处理,去除异常值,通过线性转化函数进行处理,得到最终的归一化词频y:其中...

【专利技术属性】
技术研发人员:金苍宏方格格赵品通吴明晖刘泽民朱凡微袁伟
申请(专利权)人:浙江大学城市学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1