一种应用于金融Web领域的文本情感倾向分析方法技术

技术编号：12270885 阅读：155 留言：0更新日期：2015-11-04 17:38

本发明专利技术公开一种应用于金融Web领域的文本情感倾向分析方法，对Web金融文本信息筛选数据来源并进行数据获取，根据Web金融文本特点构建金融情感词典，设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web进行文本情感倾向分类，本发明专利技术分类准确率高、分类速度快，且本发明专利技术能通过对Web金融文本的情感倾向分类有效的分析金融市场整体情绪，对金融趋势预测具有重要的帮助和指导意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种利用金融情感词典和中文语法特征对Web金融文本进行情感倾向分析的，属于自然语言处理和机器学习

技术介绍
随着互联网和信息技术的发展，Web信息量得到了前所未有的增长，越来越多的机构和个人通过互联网途径以各种方式表达对各种事物观点、态度和立场，如豆瓣影评、新闻评论、社交网站等。海量的Web观点信息对于电子商务、市场预测等各个方面有重要的意义以及巨大的商业价值，而金融行业Web信息量是互联网信息增长最快，受影响最大的行业，对Web金融文本信息进行情感倾向分析以进行更加深入的研究已经成为国内外热门研究课题。文本情感倾向性分析属于文本情感分析的一部分，如今已是自然语言处理和机器学习领域的研究热点。通过情感倾向性分析，可以掌握文本的褒贬性倾向。在金融领域，新闻舆情被认为是反映国家宏观政策的执行情况，体现市场和行业景气程度和投资者的交易热情的重要指标。而要有效利用Web金融信息来进行各种分析，就必须将文本信息数字化。文本倾向性分析，计算文本的情感倾向值是分析文本褒贬性和将文本信息数字化的有效手段之一。通过计算文本的情感倾向值来分析文本的情感倾向，是文本情感倾向性分析的主要方法。其中具有代表性的工作是，Turney等运用点互信息和潜在语义分析的方法计算目标词汇和种子词的关联度，进而分析目标词汇的倾向性。香港城市大学的Yuen等在 Turney的工作基础上，对汉语极性词的自动获取进行了研究。复旦大学的朱嫣岚等利用 Hownet提供的语义相似度和语义相关场，计算目标词汇与已标注褒贬性的种子词间的相似度...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105022725.html" title="一种应用于金融Web领域的文本情感倾向分析方法原文来自X技术">应用于金融Web领域的文本情感倾向分析方法</a>

【技术保护点】
一种应用于金融Web领域的文本情感倾向分析方法，其特征在于，具体包括以下步骤：步骤A、筛选金融数据来源并设计多线程网络爬虫获取Web金融数据；步骤B、对获取的Web金融文本数据进行文本预处理；步骤C、根据情感分类特征，结合人工标注和现有词典扩展的方法构建金融情感词典，并采用多人标注取众数的方法确定情感词汇的情感倾向和强度；步骤D、提出无关信息清理算法，依据主题相关和主题无关关键词对Web金融新闻的无关信息进行识别清理；步骤E、根据金融情感词典的不同使用以及中文语法特征，提出Web金融文本情感倾向分类算法，对Web金融文本信息进行情感倾向分类，即将Web金融文本情感倾向分为正面情感、负面情感和中立情感。

【技术特征摘要】

【专利技术属性】
技术研发人员：严勤，丁聪，吕勇，夏阁，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人