基于聚类与信息熵群的股市投资者情绪代理指标选择方法技术

技术编号:19905256 阅读:25 留言:0更新日期:2018-12-26 03:28
本发明专利技术是一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法,涉及股市投资者情绪测度领域,包括:指标海选,任何与股票市场或投资者有关的指标均可纳入到备选指标库;初选,剔除数据不可得或数据不连续的无效指标;筛选,通过无关分析剔除无关指标;遴选,通过相关分析和聚类分析删除冗余信息量大于阈值的指标;优选,计算多种状态下的信息熵值,获得信息熵集群,结合聚类分析图谱留选显著性最高的指标。本发明专利技术开放式选择指标,设计合理,经过一系列的量化分析,得到更科学、更包容、更广泛的投资者情绪测度的代理指标。

【技术实现步骤摘要】
基于聚类与信息熵群的股市投资者情绪代理指标选择方法
本专利技术属于投资者情绪测度领域,尤其涉及一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法。
技术介绍
维护股票市场的稳定有赖于投资者情绪的稳定,现阶段很多行为金融研究都是建立在投资者情绪的基础上,其中,投资者情绪的测度是投资者情绪研究中的关键问题,科学合理选择投资者情绪代理指标是测度的基础。关于情绪测度指标的研究主要有以下两个特点:第一,测度指标众多,尚无理论依据和规范方法来优选这些指标。当前关于投资者情绪的涵义、投资者决策的情绪过程的作用机理、投资者情绪的测度方法等没有一个可以统驭全局的系统性论述,关于情绪测度没有专门提出其理论依据,学者们从各个微观视角,建立了各具特色的单项情绪测度指标——多达上百个(大量文献,不再赘述),丰富了该研究,但这些指标随机零散,莫衷一是,良莠不齐,对于如何更为规范地选取情绪测度指标,尚缺乏科学、统一、标准的方法。第二,测度指标的选择具有主观性与从众性。学者们构建的众多情绪测度指标,哪些需要剔除、哪些更重要、哪些更有效,需要通过规范的方法来优选。投资者情绪的测度不应该只主观随意地偏向于某一个或几个指标因素,而应采用一定的方法首先对所有指标进行优选,去芜存精,去伪存真,而学界当前恰好缺乏这样一套规范的方法。综上可见,亟需完善关于投资者情绪测度的基础理论,创建一套投资者情绪测度指标优选的规范方法,以得到更好的情绪测度指标。这将为投资者情绪的综合测度奠定可靠基础,并将丰富投资者情绪的理论,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。
技术实现思路
(一)解决的技术问题本专利技术要解决的技术问题是克服上述缺陷,提供一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法,提供了一套科学、开放、可行的系统优选方法,使得选择的代理指标更有效、更简便,为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。(二)技术方案为解决上述问题,本专利技术所采用的技术方案是:基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通过计算多种状态下的信息熵值,获得信息熵集群,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。作为优选,海选模块的任何指标可以是当期指标,也可以是提前p期的衍生指标,即为{An,An-1,An-2...An-p},其中p为大于1的正整数。作为优选,筛选模块无关程度相关性系数为0.3及以下。作为优选,筛选模块显著性值为t统计量,该统计量服从n-2个自由度的t分布,概率界限可选择1%至5%。作为优选,遴选模块的阈值为0.9及以上。作为优选,聚类分析的距离为相关系数距离。作为优选,所述优选模块的显著性可以使用表示信息量的信息熵来判别,信息熵式1中,pi为离散型系统状态的概率,i为系统状态数,m为系统状态最大值,且定义当概率为0时,熵为零;H为指标的信息熵值。作为优选,所述优选模块的多种状态的信息熵的状态数目u,2≤u≤100w,w应大于单个指标的样本数目;集群数量为u-1次的计算结果。作为优选,优选模块复杂度可以根据人为经验与需求留选指标,应在聚类分析图谱中,由大类到小类进行分类,在每个类别中均衡选择指标,分类的数量可以人为决策。(三)有益效果本专利技术提供了一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法,与现有技术相比,具备以下有益效果:本专利技术设计合理,开放式选择指标,进一步扩大指标的选择范围,提高指标选择代表性,为得到更包容、更广泛的投资者情绪测度的代理指标做好基础。经过一系列的无关分析、相关分析、聚类分析、显著性分析,进一步优化指标的选择、量化选择标准,避免了以往指标筛选中的信息重叠与共线性,更均衡地选择指标,使得留选指标冗余信息更少,减少测度系统的复杂程度与盲目性;同时,将指标的选择过程完全可视化,黑箱过程透明化,使得优选过程更加明确、更加科学;为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。附图说明图1股市投资者情绪测度代理指标选择流程图图2筛选22指标聚类树状图谱、相关系数与信息熵图图3各指标999次计算结果柱状图具体实施方式对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。选取了2005年1月到2015年12月的时间作为样本区间,共搜集到了60个潜在指标。海选模块:搜集得到60个指标,得到60x132阶矩阵;初选模块:考虑到信息搜集成本与数据的可得性、连续性,同时也考虑到指标的客观性,剔除数据不可得或数据不连续的无效指标后,保留了33个指标,得到一个33x132阶的原始矩阵;筛选模块:计算33个指标与上证综指相关系数及伴随概率,再计算与上证综指收益率的相关系数及伴随概率,可以使用SPSS软件计算得到相关系数表,如下表1所示:表1按照相关系数0.3以下与伴随概率大于1%标准剔除显著性较差的指标,可以综合留选22个指标,删除11个无关指标。遴选模块:为删除冗余信息量大于阈值的指标,通过相关聚类分析,得到系统树状图谱,根据图谱明确了22个指标的亲疏关系,如图2。遴选模块的相关系数阈值选为1,剔除冗余信息最大的指标,并将相关系数标记在22指标聚类图谱中,如图2所示相关系数列。需要说明的是,相关系数为1,意味着其地位相同,可以相互代表,只需留选1个指标。22个指标中,有6个相关系数为1,故缩减为16个指标。为了更好地说明本技术方案,在下一步仍然按照22个指标进行计算分析。优选模块:计算22个待选指标的信息熵集群式1中,pi为离散型系统状态的概率,i为系统状态数,m为系统状态最大值,且定义当概率为0时,熵为零;H为指标的信息熵值。集群状态u从2种到1000种,集群大小为999个。将信息熵标记在22个待选指标中,如表2、表3、图2、图3。信息熵越大,则说明指标的信息含量越大,具有更显著的信息特征,具有更强的代表性。由于有999个计算结果,无法用表格完整表达,为了更好的说明本方法,表2与表3中的信息熵仅选取了1种状态,u为132状态计算得到。将每个指标的999个计算结果用柱状图表示,可以根据图像综合判断,指标在不同状态下的显著程度与趋势。通过聚类分析图谱结合信息熵,在所分的大类中,选择信息熵最大的指标作为留选指标。留选个数可以结合经验与复杂程度确定。事实上,可以将22个指标分为2类、3类、4类甚至22类。留选指标个数越多,描述情绪的精确度会相应增加,且符合边际递减效应,但系统复杂度也会相应提升。如图本文档来自技高网...

【技术保护点】
1.一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通过计算多种状态下的信息熵值,获得信息熵集群,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。

【技术特征摘要】
1.一种基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通过计算多种状态下的信息熵值,获得信息熵集群,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。2.根据权利要求1所述的基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于,所述海选模块的任何指标可以是当期指标,也可以是提前p期的衍生指标,即为{An,An-1,An-2...An-p},其中p为大于1的正整数。3.根据权利要求1所述的基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于,所述筛选模块无关程度相关性系数为0.3及以下。4.根据权利要求1所述的基于聚类与信息熵群的股市投资者情绪代理指标选择方法,其特征在于...

【专利技术属性】
技术研发人员:任海龙曹亚男陈景欧阳美辰夏舒然武亚茹马佳旭
申请(专利权)人:济宁市创启信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1