【技术实现步骤摘要】
一种可自动更新的用于金融文本分析的情感字典构建方法
本专利技术属于文本情感分析和观点挖掘
,具体是一种用于金融文本分析的情感词典构建方法。
技术介绍
投资者的情绪变化对其投资决策的影响巨大。大部分中小投资者的投资情绪易受社会舆论以及其他投资者的言论所左右。因此量化地计算分析投资者对个股以及各个板块的情绪值显得尤其重要,它能为投资者进行投资决策提供参考,亦能作为选股因子构建模型进行量化交易。因此,分析投资者情绪成为日前日趋重要的一个研究领域。通过分析互联网上各种对有关金融市场的评论文本,可以有效地获得投资者对当下市场的看法,当前情感分析技术可以分为两类,一类是基于机器学习的方法,另一类是基于情感词典的方法。现有技术中中文情感词典的构建方法大致可以分为三类,一是基于知识库的构建方法,主要是在当前普遍认可的知网(Hownet)情感词典、台湾大学简体中文情感极性词典(NTUSD)等中文情感词典的基础上,通过词语扩展、统计词频等方法进行构建;二是基于语料库方法,常见的有SO-PMI法等;三是知识库与语料库结合方法。然而,由于中文与英文的先天差异、中文语言分析工具不够成 ...
【技术保护点】
1.一种可自动更新的用于金融文本分析的情感字典构建方法,其特征在于采用以下步骤:步骤1、构建基础情感词典:整合现有的情感词典,将现有词典中的正面评价词语、正面情感词语合并去重分别得到正向情感词典和负向情感词典,由上述正向情感词典和负向情感词典构成基础情感词典Dinitial;步骤2、扩展基础情感词典:一是利用现有同义词词库对基础情感词典中情感词进行同义词扩展,二是人工添加具有情感色彩的网络新兴词汇,三是人工添加金融领域具有情感色彩的非情感词,得到扩展情感词典Dextend;步骤3、提取待分析词语Nword:运用互联网工具抓取一定量金融文本语料。(1)运用互联网工具进行分词、 ...
【技术特征摘要】
1.一种可自动更新的用于金融文本分析的情感字典构建方法,其特征在于采用以下步骤:步骤1、构建基础情感词典:整合现有的情感词典,将现有词典中的正面评价词语、正面情感词语合并去重分别得到正向情感词典和负向情感词典,由上述正向情感词典和负向情感词典构成基础情感词典Dinitial;步骤2、扩展基础情感词典:一是利用现有同义词词库对基础情感词典中情感词进行同义词扩展,二是人工添加具有情感色彩的网络新兴词汇,三是人工添加金融领域具有情感色彩的非情感词,得到扩展情感词典Dextend;步骤3、提取待分析词语Nword:运用互联网工具抓取一定量金融文本语料。(1)运用互联网工具进行分词、去停用词、去噪等,得到分词语段库,去除扩展情感词典Dextend中已经包含的词语、转折词、程度词以及非中文字符,采用词频法对所有词汇统计词频,并按词频由高到低排序,选取词频数大于N的词语,然后,利用公式1计算每个语段的前缀和后缀的信息熵,设定信息熵阈值I,保留前缀和后缀信息熵都大于该阈值的语段,作为待分析词语Nword;其中w为语块,a为其前缀或后缀,c为频数;(2)在语料库中对Nword的邻近词进行频率排序,所述邻近词指的是语段距离<m,其中0<m<8,提取k个频率最高的词语,利用扩展情感词典Dextend,确定k个频率最高词语中正向情感词的个数k正,负向情感词的个数k负;步骤4、建立正向语料库和负向语料库:基于现有情感词典,对步骤3收集的金融文本语料进行情感分析,创建正向语料库和负向语料库,其中现有情感词典为扩展情感词典或上次更新的情感词典Dhistory;步骤5、计算待分析词语Nword的情感概率S:首先利用公式2、3计算待分析词语Nword同正向语料库的相关性概率Pa正,同负向语料库的相关性概率Pa负;然后利用公式4、5计算待分析词语Nword的情感倾向概率Pb正和Pb负;利用公式6、7分别计算待分析词Nword的正向情感P正和负向情感的概率P负;最后利用公式8计算待分析词语Nword的情感概率S;P正=α*Pa正+β*Pb,正公...
【专利技术属性】
技术研发人员:孙运传,王欣宇,沈岩,方梦婷,别荣芳,崔学刚,
申请(专利权)人:北京师范大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。