一种基于机器学习的公园文本评论情绪打分方法技术

技术编号：24168930 阅读：89 留言：0更新日期：2020-05-16 02:19

本发明专利技术公开了一种基于机器学习的公园评论文本情绪打分方法及系统，该方法包括：获取评论文本数据，对获取的评论文本数据进行预处理，包括分词和去停用词处理，然后对评论文本进行向量化表示，然后输入回归器，并与情绪分数建立映射关系，利用训练好的模型进行情感分析。本发明专利技术通过对公园评论文本进行特征向量表示，建立该特征向量与情绪分数之间的关系，进行训练，利用训练好的模型进行情绪打分。该分数具有连续性和多样性，能够得到公众评论的情绪积极度，该方法高效、快捷、成本低，适于城市公园领域的研究工作，能够实现对用户的情绪进行大规模的快速分析。

An emotion scoring method of Park text review based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的公园文本评论情绪打分方法
本专利技术涉及机器学习
，具体涉及一种基于机器学习的公园文本评论情绪打分方法。
技术介绍
随着互联网应用技术的发展，用户逐渐成为互联网上的内容的重要创造者。用户可通过互联网表达自己的情绪和情感。面对巨量社会媒体所带来的文本数据的冲击下，文本评论信息不仅仅是消费者选择的依据，也能为提供者的重要决策提供建议。对评论信息的分析重要是情感分析，情感分析一般通过情绪打分的方式进行。目前情绪打分方法主要分为两大类，第一大类是基于规则和情感词典来实现，但是该方法有较强的文本内容针对性，且对隐性的情感的表达识别效果不佳，得分结果也不易标准化；第二大类的方法基于机器学习，通过带有标注的文本作为训练集，通过合适的模型选择去预测未知文本的情感得分，但是该方法主要用于简单的情感消极或积极分类，却忽略了情感得分的连续性和多样性。现有针对公园领域的情感研究较少，且多数研究仍然使用传统的问卷调查法去获得使用者对公园的情感满意度评价，缺少方法延展性和灵活性，不适用于大规模数据下全样本的情感分...

【技术保护点】
1.一种基于机器学习的公园评论文本情绪打分方法，其特征在于，所述方法包括：/n获取评论文本数据；/n对评论文本数据进行预处理；/n对评论文本进行向量化表示；/n利用回归器进行训练学习；/n利用训练好的模型进行情绪打分。/n

【技术特征摘要】
1.一种基于机器学习的公园评论文本情绪打分方法，其特征在于，所述方法包括：
获取评论文本数据；
对评论文本数据进行预处理；
对评论文本进行向量化表示；
利用回归器进行训练学习；
利用训练好的模型进行情绪打分。

2.根据权利要求1所述的方法，其特征在于，所述评论文本为短评论文本，优选为字符串长度在300以内的文本，
所述预处理包括对评论文本数据进行清洗、分词处理，所述清洗包括采用正则表达式去除网页链接和表情符号，所述分词处理采用分词工具进行，所述分词工具优选选自斯坦福分词工具、哈工大LTP、中科院计算所NLPIR、清华大学THULAC或基于Python的jieba(结巴)分词工具，例如jieba分词工具。

3.根据权利要求1所述的方法，其特征在于，所述预处理还包括采用去停用词表对评论文本进行去停用词处理。

4.根据权利要求3所述的方法，其特征在于，所述停用词表为经过修正后的停用词表，所述停用词表删除了包含情感词、转折否定词，优选采用多源情感词典对停用词表进行修正。

5.根据权利要求1所述的方法，其特征在于，对评论文本进行向量化表示包括：采用word2vec模型将分词后的评论文本的词...

【专利技术属性】
技术研发人员：王志芳，朱钟炜，缪应璐，周瑶瑾，王思睿，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人