当前位置: 首页 > 专利查询>铭传大学专利>正文

一种新闻文本情绪倾向分析方法技术

技术编号:10051705 阅读:235 留言:0更新日期:2014-05-15 23:04
本发明专利技术提出了一种新闻文本情绪倾向分析方法,该方法包括以下步骤:拆解文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累计每个分句中所有词汇的属性,以推算出每个分句的情绪倾向;以单个句子为单位累加每个分句的情绪倾向,从而计算出文本情绪倾向熵值,以决定文本的情绪倾向。

【技术实现步骤摘要】
【专利摘要】本专利技术提出了,该方法包括以下步骤:拆解文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累计每个分句中所有词汇的属性,以推算出每个分句的情绪倾向;以单个句子为单位累加每个分句的情绪倾向,从而计算出文本情绪倾向熵值,以决定文本的情绪倾向。【专利说明】
本专利技术涉及,尤其涉及一种使用有限状态自动机与熵值的新闻文本情绪倾向分析方法
技术介绍
财经领域的新闻文本情绪倾向分析的相关研究证实,财经新闻的内容常会影响金融市场的股票价格、交易量,甚至公司未来的营收;因此具有重要的实际运用价值。目前有关新闻文本情绪倾向分析的现有技术中,已存在利用机器学习技术来自动判断财经新闻的情绪倾向为乐观或悲观的技术。但是该技术尚须经过情绪语言的模型训练与测试,所以必须收集相当大数量的历史数据用于训练,以及必须先行计算语料的词汇机率分布等数据,故其应用上较受限制,存在进一步改善的空间。因此,如何进一步改善新闻文本情绪倾向分析的现有技术,以使其无须经过情绪语言的模型训练与测试,以及无须计算语料的词汇机率分布,并提高使用效率,是需要进一步探讨的课题。
技术实现思路
本专利技术主要目的在于提出。本专利技术提供的新闻文本情绪倾向分析方法,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机(finite state automata);对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用情绪词汇库与否定修饰词汇库对若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用有限状态自动机与代表符号,以推算每个分句的情绪倾向属于乐观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵(entropy)值;依据计算出的熵值决定新闻文本的情绪倾向属于乐观、悲观或中性。可选的,本专利技术提供的新闻文本情绪倾向分析方法中,每个分句的情绪倾向的判定过程是在每个分句的目前状态基础上加入分句的下一个词汇后,由有限状态自动机根据最新加入的词汇转换下一状态;而在进一步加入再下一个词汇前,下一状态又取代原有目前状态成为目前状态,如此循环运作,直至所有分句均被判定完毕;当分句的目前状态为乐观,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和乐观;当分句的目前状态为悲观,分句的下一词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成悲观、悲观、乐观和悲观;当分句的目前状态为中性,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和中性;每个分句的情绪倾向起始状态均为中性,当某一个特定分句的最终状态为乐观时,表示该特定分句的情绪倾向为乐观;当特定分句的最终状态为悲观时,表示该特定分句的情绪倾向为悲观;当特定分句的最终状态为中性时,表示该特定分句的情绪倾向为中性。可选的,本专利技术提供的新闻文本情绪倾向分析方法中,以句子为单位分别累加的步骤进一步包含下列步骤:对每种情绪倾向在新闻文本内的出现频率作正规化处理,并将正规化后的出现频率转化成发生机率pi j ;由Pij计算每种情绪倾向的熵值:【权利要求】1.,其特征在于,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用所述情绪词汇库与所述否定修饰词汇库对所述若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用所述有限状态自动机与所述代表符号,以推算每个分句的情绪倾向属于乐观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵值;依据计算出的熵值决定所述新闻文本的情绪倾向属于乐观、悲观或中性。2.根据权利要求1所述的新闻文本情绪倾向分析方法,其特征在于,所述每个分句的情绪倾向的判定过程是在每个分句的目前状态基础上加入该分句的下一个词汇后,由所述有限状态自动机根据最新加入的词汇转换下一状态;而在进一步加入再下一个词汇前,所述下一状态又取代原有目前状态成为目前状态,如此循环运作,直至所有分句均被判定完毕;当分句的目前状态为乐观,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和乐观;当分句的目前状态为悲观,分句的下一词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成悲观、悲观、乐观和悲观;当分句的目前状态为中性,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和中性;每个分句的情绪倾向起始状态均为中性,当某一个特定分句的最终状态为乐观时,表示该特定分句的情绪倾向为乐观;当特定分句的最终状态为悲观时,表示该特定分句的情绪倾向为悲观;当特定分句的最终状态为中性时,表示该特定分句的情绪倾向为中性。3.根据权利要求1或2所述的新闻文本情绪倾向分析方法,其特征在于,其中所述以句子为单位分别累加的步骤进一步包含下列步骤: 对每种情绪倾向在所述新闻文本内的出现频率作正规化处理,并将正规化后的出现频率转化成发生机率Pij ;由Pij计算每种情绪倾向的熵值: m 〒-kIpM ?=\ 其中k=l/ln(m), i=l, 2,3…m, m表示句子的总数目,j=l, 2,3…η, η表示每种情绪倾向的总数目; 求算评估值=(熵值+_熵值_) / (熵值++熵值_) 其中“熵值+”为情绪倾向为乐观时的熵值,“熵值为情绪倾向为悲观时的熵值,当评估值大于第一门坎值时,所述新闻文本的情绪倾向为乐观,当评估值小于第二门坎值时,所述新闻文本的情绪倾向为悲观。4.根据权利要求1-3所述的新闻文本情绪倾向分析方法,其特征在于,其中所述第一门坎值为一个正实数值,所述第二门坎值为一个负实数值。5.根据权利要求1-4所述的新闻文本情绪倾向分析方法,其特征在于,其中所述新闻文本为财经新闻、政治新闻或国际新闻中的一种,所述新闻文本中的每个句子以句号与其他句子彼此分隔,每个句子中的每个分句以逗号或分号与该句子的其他分句彼此分隔。6.,其特征在于,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,每个子句包括至少一个词汇;使用所述否定修饰词汇库与所述情绪词汇库对所述若干个句子进行词汇比对,以标示每个词本文档来自技高网...

【技术保护点】
一种新闻文本情绪倾向分析方法,其特征在于,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用所述情绪词汇库与所述否定修饰词汇库对所述若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用所述有限状态自动机与所述代表符号,以推算每个分句的情绪倾向属于乐观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵值;依据计算出的熵值决定所述新闻文本的情绪倾向属于乐观、悲观或中性。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:卢阳正陈振南柯淑津魏裕珍
申请(专利权)人:铭传大学
类型:发明
国别省市:台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1