【技术实现步骤摘要】
一种基于机器学习的公园文本评论情绪打分方法
本专利技术涉及机器学习
,具体涉及一种基于机器学习的公园文本评论情绪打分方法。
技术介绍
随着互联网应用技术的发展,用户逐渐成为互联网上的内容的重要创造者。用户可通过互联网表达自己的情绪和情感。面对巨量社会媒体所带来的文本数据的冲击下,文本评论信息不仅仅是消费者选择的依据,也能为提供者的重要决策提供建议。对评论信息的分析重要是情感分析,情感分析一般通过情绪打分的方式进行。目前情绪打分方法主要分为两大类,第一大类是基于规则和情感词典来实现,但是该方法有较强的文本内容针对性,且对隐性的情感的表达识别效果不佳,得分结果也不易标准化;第二大类的方法基于机器学习,通过带有标注的文本作为训练集,通过合适的模型选择去预测未知文本的情感得分,但是该方法主要用于简单的情感消极或积极分类,却忽略了情感得分的连续性和多样性。现有针对公园领域的情感研究较少,且多数研究仍然使用传统的问卷调查法去获得使用者对公园的情感满意度评价,缺少方法延展性和灵活性,不适用于大规模数据下全样本的情感分 ...
【技术保护点】
1.一种基于机器学习的公园评论文本情绪打分方法,其特征在于,所述方法包括:/n获取评论文本数据;/n对评论文本数据进行预处理;/n对评论文本进行向量化表示;/n利用回归器进行训练学习;/n利用训练好的模型进行情绪打分。/n
【技术特征摘要】
1.一种基于机器学习的公园评论文本情绪打分方法,其特征在于,所述方法包括:
获取评论文本数据;
对评论文本数据进行预处理;
对评论文本进行向量化表示;
利用回归器进行训练学习;
利用训练好的模型进行情绪打分。
2.根据权利要求1所述的方法,其特征在于,所述评论文本为短评论文本,优选为字符串长度在300以内的文本,
所述预处理包括对评论文本数据进行清洗、分词处理,所述清洗包括采用正则表达式去除网页链接和表情符号,所述分词处理采用分词工具进行,所述分词工具优选选自斯坦福分词工具、哈工大LTP、中科院计算所NLPIR、清华大学THULAC或基于Python的jieba(结巴)分词工具,例如jieba分词工具。
3.根据权利要求1所述的方法,其特征在于,所述预处理还包括采用去停用词表对评论文本进行去停用词处理。
4.根据权利要求3所述的方法,其特征在于,所述停用词表为经过修正后的停用词表,所述停用词表删除了包含情感词、转折否定词,优选采用多源情感词典对停用词表进行修正。
5.根据权利要求1所述的方法,其特征在于,对评论文本进行向量化表示包括:采用word2vec模型将分词后的评论文本的词...
【专利技术属性】
技术研发人员:王志芳,朱钟炜,缪应璐,周瑶瑾,王思睿,
申请(专利权)人:北京大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。