当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于机器学习的公园文本评论情绪打分方法技术

技术编号:24168930 阅读:73 留言:0更新日期:2020-05-16 02:19
本发明专利技术公开了一种基于机器学习的公园评论文本情绪打分方法及系统,该方法包括:获取评论文本数据,对获取的评论文本数据进行预处理,包括分词和去停用词处理,然后对评论文本进行向量化表示,然后输入回归器,并与情绪分数建立映射关系,利用训练好的模型进行情感分析。本发明专利技术通过对公园评论文本进行特征向量表示,建立该特征向量与情绪分数之间的关系,进行训练,利用训练好的模型进行情绪打分。该分数具有连续性和多样性,能够得到公众评论的情绪积极度,该方法高效、快捷、成本低,适于城市公园领域的研究工作,能够实现对用户的情绪进行大规模的快速分析。

An emotion scoring method of Park text review based on machine learning

【技术实现步骤摘要】
一种基于机器学习的公园文本评论情绪打分方法
本专利技术涉及机器学习
,具体涉及一种基于机器学习的公园文本评论情绪打分方法。
技术介绍
随着互联网应用技术的发展,用户逐渐成为互联网上的内容的重要创造者。用户可通过互联网表达自己的情绪和情感。面对巨量社会媒体所带来的文本数据的冲击下,文本评论信息不仅仅是消费者选择的依据,也能为提供者的重要决策提供建议。对评论信息的分析重要是情感分析,情感分析一般通过情绪打分的方式进行。目前情绪打分方法主要分为两大类,第一大类是基于规则和情感词典来实现,但是该方法有较强的文本内容针对性,且对隐性的情感的表达识别效果不佳,得分结果也不易标准化;第二大类的方法基于机器学习,通过带有标注的文本作为训练集,通过合适的模型选择去预测未知文本的情感得分,但是该方法主要用于简单的情感消极或积极分类,却忽略了情感得分的连续性和多样性。现有针对公园领域的情感研究较少,且多数研究仍然使用传统的问卷调查法去获得使用者对公园的情感满意度评价,缺少方法延展性和灵活性,不适用于大规模数据下全样本的情感分析。可知,文本情感分析领域的方法忽略了情感的积极程度,仅考虑单一的正负维度;而城市公园研究领域缺乏快捷的打分方法实现对用户的情绪进行大规模快速分析。综上,需要一种高效、快捷的情绪打分方法,以研究分析公园领域的服务。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,研究出一种基于机器学习的公园评论文本情感分析方法及系统,该方法包括:获取评论文本数据,对获取的评论文本数据进行预处理,包括分词和去停用词处理,然后对评论文本进行向量化表示,然后输入回归器,并与情绪分数建立映射关系,利用训练好的模型进行情感分析。本专利技术通过对公园评论文本进行特征向量表示,建立该特征向量与情绪分数之间的关系,进行训练,利用训练好的模型进行情绪打分。该分数具有连续性和多样性,能够得到公众评论的情绪积极度,该方法高效、快捷、成本低,适于城市公园领域的研究工作,能够实现对用户的情绪进行大规模的快速分析,从而完成本专利技术。本专利技术的目的在于提供一种基于机器学习的公园评论文本情感分析方法,所述方法包括:获取评论文本数据;对评论文本数据进行预处理;对评论文本进行向量化表示;利用回归器进行训练学习;利用训练好的模型进行情绪打分。其中,所述评论文本为短评论文本,优选为字符串长度在300以内的文本,所述预处理包括对评论文本数据进行清洗、分词处理,所述清洗包括采用正则表达式去除网页链接和表情符号,所述分词处理优选采用基于python的结巴分词工具进行。其中,所述预处理还包括采用去停用词表对评论文本进行去停用词处理。其中,所述停用词表为经过修正后的停用词表,所述停用词表删除了包含情感词、转折否定词,优选采用多源情感词典对停用词表进行修正。其中,对评论文本进行向量化表示包括:采用word2vec模型将分词后的评论文本的词语转化为词向量,然后对每条评论文本中的词向量进行处理,得到每条评论文本的特征向量,优选地,每条评论文本的特征向量以各个词向量的算术平均值表示。其中,所述词向量的维度为300维。其中,利用回归器进行训练学习包括:将每条评论文本的特征向量输入到XGBregressor回归器中进行训练,通过专家打分方法对获取的评论文本进行情绪打分,得到特征向量与情绪分数之间的回归关系。优选地,所述方法还包括对训练好的模型进行测试,所述测试采用依据该模型得到的评论文本的打分,与专家打分进行比对而进行。其中,依据规则将情绪分数映射到分值区间,优选地,所述分值区间为1-7分,情绪分数为整数,其中1分表示最消极的情绪,7分表示最积极的情绪,4分为中立的情绪其中,所述系统包括评论文本数据获取模块,评论文本数据预处理模块,向量化处理模块,训练模块,预测模块。其中,所述预测模块用于对未知评论文本进行情绪打分。本专利技术所具有的有益效果为:本专利技术通过机器学习训练的模型,对未知的公园短文本评论基于情感积极度的高低给出分值,例如1-7分的分值,有效的弥补了公园研究领域文本情感分析方法的空白,能够对情感积极度做出评价,针对文本情感分析领域的正负面情感分类具有更好的应用价值。附图说明图1示出本专利技术一种优选实施方式的情绪打分方法的流程示意图;图2示出本专利技术一种优选实施方式的情绪打分方法的流程示意图;图3示出本专利技术一种优选实施方式的情绪打分系统的模块示意图。具体实施方式下面通过附图和优选实施方式对本专利技术进一步详细说明。通过这些说明,本专利技术的特点和优点将变得更为清楚明确。根据本专利技术,提供一种基于机器学习的公园文本评论情绪打分方法,该方法包括:获取评论文本数据;对评论文本数据进行预处理;对评论文本进行向量化表示;利用回归器进行训练学习;采用训练好的模型进行情绪打分。本专利技术的方法是用于研究公众对公园领域的情感程度,对情感积极度做出评价,提供的情绪打分方法的流程示意图如图1-2所示。根据本专利技术,评论文本为公园的短文本评论,短文本优选为字符串长度在300以内的文本。根据本专利技术,该公园短文本评论可通过爬取工具从互联网上爬取大规模公园领域文本评论数据,例如采用爬取工具从点评软件上获取,点评软件例如大众点评、美团网等,优选采用Python爬取点评软件上公园的短评论文本数据。本专利技术中,点评软件上的关于公园的短文本评论数据量大,且为开放平台,采用从点评软件中爬取数据的方式能够方便快捷的获得大量的文本评论数据,数据较全面。根据本专利技术,将获取的公园评论文本数据进行保存,写入本地文件。根据本专利技术,在爬取工具获取公园评论文本数据后,需要对这些数据进行预处理,使得数据更加有价值,将对情绪打分结果无影响或偏差较大的文本评论数据过滤除掉,提高情绪打分分析结果的准确性。本专利技术中,爬取的评论文本数据中包括非情感标签的表情符号、网页链接等,与评论文本的情绪打分结果无关,需要去除,实现对获取的评论文本数据进行数据清洗,减少数据噪声。根据本专利技术,对评论文本进行预处理包括清洗处理(数据清洗),优选地,清洗处理包括采用正则表达式去除评论文本中的网页链接和符号(非情感表情)。本专利技术中,正则表达式能够去除例如“/”、“,”、“;”、“。”等符号和网页链接,实现对评论文本数据的清洗,去除数据噪声。根据本专利技术,点评软件上可能存在重复的评论,因此可对重复的评论文本进行删除,只保留一条有用的评论文本即可。根据本专利技术,采用Simash算法去重法、编辑距离去重法,基于K-Shingling去重法等中的一种或几重。其中,编辑距离去重法阈值较小,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,若阈值设置过大,会导致很多错删,而设置过小则会导致数据的丢失,本专利技术的公园的评论文本数据是短文本评论且多本文档来自技高网...

【技术保护点】
1.一种基于机器学习的公园评论文本情绪打分方法,其特征在于,所述方法包括:/n获取评论文本数据;/n对评论文本数据进行预处理;/n对评论文本进行向量化表示;/n利用回归器进行训练学习;/n利用训练好的模型进行情绪打分。/n

【技术特征摘要】
1.一种基于机器学习的公园评论文本情绪打分方法,其特征在于,所述方法包括:
获取评论文本数据;
对评论文本数据进行预处理;
对评论文本进行向量化表示;
利用回归器进行训练学习;
利用训练好的模型进行情绪打分。


2.根据权利要求1所述的方法,其特征在于,所述评论文本为短评论文本,优选为字符串长度在300以内的文本,
所述预处理包括对评论文本数据进行清洗、分词处理,所述清洗包括采用正则表达式去除网页链接和表情符号,所述分词处理采用分词工具进行,所述分词工具优选选自斯坦福分词工具、哈工大LTP、中科院计算所NLPIR、清华大学THULAC或基于Python的jieba(结巴)分词工具,例如jieba分词工具。


3.根据权利要求1所述的方法,其特征在于,所述预处理还包括采用去停用词表对评论文本进行去停用词处理。


4.根据权利要求3所述的方法,其特征在于,所述停用词表为经过修正后的停用词表,所述停用词表删除了包含情感词、转折否定词,优选采用多源情感词典对停用词表进行修正。


5.根据权利要求1所述的方法,其特征在于,对评论文本进行向量化表示包括:采用word2vec模型将分词后的评论文本的词...

【专利技术属性】
技术研发人员:王志芳朱钟炜缪应璐周瑶瑾王思睿
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1