一种基于社区结构分析的大盘股指预测系统技术方案

技术编号:17705970 阅读:28 留言:0更新日期:2018-04-14 18:37
本发明专利技术提供一种基于社区结构分析的大盘股指预测系统;构建网络社团划分模块、文本情绪分类模块、社团情绪指数计算模块、检测与大盘股指波动最相关社团模块;通过实施该系统主要解决了现有专利在预测分析股市未来行情时,未考虑社会舆论倾向的问题。在此通过分析各大网络论坛发布的海量文本信息,计算网络不同社团的情绪指数的时间序列与大盘指数的相关系数,找到情绪波动与大盘最相关的社团。最终该社团的情绪倾向,可作为预测股市波动的一个重要因素。

【技术实现步骤摘要】
一种基于社区结构分析的大盘股指预测系统
本专利技术涉及一种预测系统,具体讲是一种基于社区结构分析的大盘股指预测系统。
技术介绍
在金融交易市场中流动性起到了至关重要的作用,金融产品的价格随市场的流动性改变而发生变化。当市场的流动性出现急剧变化时,市场中的金融产品价格也会发生剧烈变化,从而导致市场的异常波动。如何有效地预测异常波动,从而避免股灾的发生,已成为监管层亟需解决的问题。经过检索发现,现有技术中并没有从社区划分和情绪指数两方面切入对股市行情预测,没有利用到网络海量的文本信息。我们将两者结合,利用社区发现算法,可以准确划分出网络中的不同社团。我们分析社团成员所发布的文本包含的情绪,结果可以作为预测股民对未来市场信心的重要因子。
技术实现思路
因此,为了解决上述不足,本专利技术在此提供一种基于社区结构分析的大盘股指预测系统;主要解决了现有专利在预测分析股市未来行情时,未考虑社会舆论倾向的问题。我们通过分析各大网络论坛发布的海量文本信息,计算网络不同社团的情绪指数的时间序列与大盘指数的相关系数,找到情绪波动与大盘最相关的社团。最终该社团的情绪倾向,可作为预测股市波动的一个重要因素。本专利技术是这样实现的,构造一种基于社区结构分析的大盘股指预测系统,其特征在于:构建网络社团划分模块:用于对网络社区进行划分,这里使用标签传播算法,划分出网络的社团结构;构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向;将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集,训练出分类模型;使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(-1),中性(0));构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都有所不同,所以只需关注影响力最大的前n个社团即可;将各个社团内部的所有成员发布的文本汇总,然后分析各个社团的每天的情绪倾向;计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数;公式如下所示:其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数;构建检测与大盘股指波动最相关社团模块:得到每个社团情绪指数时间序列之后,我们分别设置延迟k(k=0,1,2,...)天,计算每个社团的情绪指数与股市大盘指数的相关系数,得到相关系数最大的前n个社团,将这些社团成员的情绪作为衡量股市波动的重要指标。根据本专利技术所述一种基于社区结构分析的大盘股指预测系统,其特征在于:对于网络社团划分模块来讲,这里使用标签传播算法:<1>初始时,给每个节点分配一个唯一的标签;<2>每个节点使用其邻居节点的标签中最多的标签来更新自身的标签;如果存在多个相同标签,就随机选择一个;<3>反复执行步骤(2),直到每个节点的标签都不再发生变化为止;最终标签相同的节点归属同一社团。由以上算法,划分出网络的社团结构。本专利技术具有如下优点:本专利技术提供一种基于社区结构分析的大盘股指预测系统;主要解决了现有专利在预测分析股市未来行情时,未考虑社会舆论倾向的问题。我们通过分析各大网络论坛发布的海量文本信息,计算网络不同社团的情绪指数的时间序列与大盘指数的相关系数,找到情绪波动与大盘最相关的社团。最终该社团的情绪倾向,可作为预测股市波动的一个重要因素。本专利技术通过上述实施具有以下有益效果:本系统将社区发现和情绪指数计算两者结合,并做出创新。对于情绪指数,现有专利比较少,算法比较局限,主要是直接使用股市数据或对微博文本表情进行简单处理。而我们通过大量标注集,训练出分类模型,可对样本进行准确的分类。在通过划分出的不同社团的情绪指数,找出与股市波动最相关的社团,以此进一步预测未来走势,有很强的现实用途。附图说明图1是最相关社团算法流程图;图2是社团划分算法流程;图3是社团划分;图4是社团活跃度及情绪变化;图5是社团情绪指数与大盘指数变化趋势。具体实施方式下面将结合附图1-图5对本专利技术进行详细说明,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术通过改进在此提供一种基于社区结构分析的大盘股指预测系统,按照如下方式实现;构建网络社团划分模块:首先对网络社区进行划分,这里我们使用标签传播算法:<1>初始时,给每个节点分配一个唯一的标签;<2>每个节点使用其邻居节点的标签中最多的标签来更新自身的标签;如果存在多个相同标签,就随机选择一个;<3>反复执行步骤(2),直到每个节点的标签都不再发生变化为止;最终标签相同的节点归属同一社团。由以上算法,划分出网络的社团结构。构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向。将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集,训练出分类模型。使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里我们使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果。使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(-1),中性(0))。构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都所有不同,所以我们只需关注影响力最大的前n个社团即可。将各个社团内部的所有成员发布的文本汇总,然后分析各个社团的每天的情绪倾向。我们计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数。公式如下所示:其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数。构建检测与大盘股指波动最相关社团模块:得到每个社团情绪指数时间序列之后,我们分别设置延迟k(k=0,1,2,...)天,计算每个社团的情绪指数与股市大盘指数的相关系数,得到相关系数最大的前n个社团,将这些社团成员的情绪作为衡量股市波动的重要指标。本专利技术通过上述实施具有以下有益效果:本系统将社区发现和情绪指数计算两者结合,并做出创新。对于情绪指数,现有专利比较少,算法比较局限,主要是直接使用股市数据或对微博文本表情进行简单处理。而我们通过大量标注本文档来自技高网...
一种基于社区结构分析的大盘股指预测系统

【技术保护点】
一种基于社区结构分析的大盘股指预测系统,其特征在于:构建网络社团划分模块:用于对网络社区进行划分,这里使用标签传播算法,划分出网络的社团结构;构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向;将标注好的标注集中,选取k%作为训练集,剩余的1‑k%作为预测集,训练出分类模型;使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(‑1),中性(0));构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都有所不同,所以只需关注影响力最大的前n个社团即可;将各个社团内部的所有成员发布的文本汇总,然后分析各个社团每天的情绪倾向;计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数;公式如下所示:

【技术特征摘要】
1.一种基于社区结构分析的大盘股指预测系统,其特征在于:构建网络社团划分模块:用于对网络社区进行划分,这里使用标签传播算法,划分出网络的社团结构;构建文本情绪分类模块:首先标注训练集,选取部分从金融论坛爬取的文本内容,人工标注出这些帖子的情绪倾向;将标注好的标注集中,选取k%作为训练集,剩余的1-k%作为预测集,训练出分类模型;使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;使用训练好的模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果(积极(1),消极(-1),中性(0));构建社团情绪指数计算模块:由于每个社团的成员结构,影响力都有所不同,所以只需关注影响力最大的前n个社团即可;将各个社团内部的所有成员发布的文本汇总,然后分析各个社团每天的情绪倾向;计算每个社团所发的每条文本的情绪,然后将持积极情绪的文本占比作为该社团当天的情绪指数;公式如下所示:

【专利技术属性】
技术研发人员:周楠张劲松邓卓
申请(专利权)人:成都蓝景信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1