A method based on Baidu's post bar Internet users' Academic Emotion analysis, including: data acquisition and extraction; collecting the theme posts of the college entrance examination in Baidu postings, forming data sets; data preprocessing; first, removing non text information from the content of data in the data concentration; secondly, Chinese participle and vocabulary in the text of the post Part of the word analysis, removal of related disuse words, academic emotion classification, data pretreated data set according to 13 classes of academic mood to carry out academic mood annotation, Academic Emotion tagging includes manual labelling machine learning and machine annotation; study the classification results of Academic Emotion and difference analysis. This invention uses the artificial classification of Academic Emotion and the machine learning method to classify the data set, judge the whole emotion, and count the intensity and the proportion of the emotion, and finally, according to the time series, the emotional inflection point and the key events, the group characteristics of the academic emotion, and so on, the Academic Emotion of the netizen in the college entrance examination event. The characteristics of time development and group characteristics are analyzed from multiple perspectives.
【技术实现步骤摘要】
一种基于百度贴吧的网民学业情绪分析方法
本专利技术属于数据分析领域,具体涉及一种基于百度贴吧的网民学业情绪分析方法。
技术介绍
目前关于学业情绪的研究采用的大多都是问卷调查的方法,其他研究方法比较缺失,教育心理学本身的复杂性和不可操控性造成了其研究方法的单一性的缺点;其二、由于人力、物力的局限,目前研究学业情绪,大多集中在某些区域学生或某类学生群体,样本范围有限;其三、学业情绪研究对象为具体自然人学生,对于这些学生在网络上的匿名行为特征没有研究。其四、对高考这一个特殊事件的学业情绪研究较少。大数据分析技术的兴起为解决以上问题创造了条件。高考吧作为当前网民(以高中生和其家长为主)常用的网络社交平台之一,集合了历年高考相关事件的信息帖,因而直观展现了以高中生为主体的学业相关的各类信息,其中包括反映学生学业情绪的情绪信息。在高考考试、成绩出分、志愿填报、录取查询等相关时间段,高考吧中的话题量和活跃人数显著上升。通过对高考吧中的帖子内容和发帖人的观察,反映出网民对不同高考事件的看法和心理状态,从而表现出不同的学业情绪。同时,网民的性别和注册时长等属性也可能诱发相应的学业情绪。
技术实现思路
本专利技术的目的是提供一种基于百度贴吧的网民学业情绪分析方法。因此,本专利技术采用以下技术方案。一种基于百度贴吧的网民学业情绪分析方法,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分 ...
【技术保护点】
1.一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;步骤4、对学业情绪分类结果进行相关性与差异性分析。
【技术特征摘要】
1.一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述分析方法包括以下步骤:步骤1、数据采集和提取;采集百度贴吧中高考吧主题帖子,形成数据集;步骤2、数据预处理;首先,去除所述数据集中的帖子内容中的非文本信息;其次,进行中文分词,对帖子文本中的词汇进行词性分析,去除相关的停用词;步骤3、学业情绪分类;对数据预处理后的数据集按照13类学业情绪进行学业情绪标注,所述学业情绪标注包括人工标注机器学习和机器标注;步骤4、对学业情绪分类结果进行相关性与差异性分析。2.根据权利要求1所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,数据预处理后的数据集分为训练集和测试集,对所述训练集进行人工标注机器学习,对所述测试集进行机器标注。3.根据权利要求2所述的一种基于百度贴吧的网民学业情绪分析方法,其特征在于,所述人工标注机器学习包括:(1)收集和整理情绪关键词,形成情绪关键词库;(2)人工对测试集中的帖子进行选择和情绪标注;(3)TF-IDF自然语言处理,提取出相关的情绪关键词,更新情绪关键词库;(4)对每个帖子的情绪关键词词频x做了归一化处理,去除异常值,通过线性转化函数进行处理,得到最终的归一化词频y:其中...
【专利技术属性】
技术研发人员:金苍宏,方格格,赵品通,吴明晖,刘泽民,朱凡微,袁伟,
申请(专利权)人:浙江大学城市学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。