基于聚类与最大熵增量的股市投资者情绪指标选择方法技术

技术编号:19966029 阅读:42 留言:0更新日期:2019-01-03 13:45
本发明专利技术是一种基于聚类与最大熵增量的股市投资者情绪指标选择方法,涉及股市投资者情绪测度领域,包括:指标海选,任何与股票市场或投资者有关的指标均可纳入到备选指标库;初选,剔除数据不可得或数据不连续的无效指标;筛选,通过无关分析剔除无关指标;遴选,通过相关分析和聚类分析删除冗余信息量大于阈值的指标;优选,计算敏感因子,即最大熵与信息熵之差比最大熵,结合聚类分析图谱留选显著性最高的指标。本发明专利技术开放式选择指标,设计合理,经过一系列的量化分析,得到更科学、更包容、更广泛的投资者情绪测度的代理指标。

Selection Method of Stock Market Investor Emotion Index Based on Clustering and Maximum Entropy Increment

The present invention is a method for selecting sentiment indicators of stock market investors based on clustering and maximum entropy increment, which relates to the field of stock market investor sentiment measurement, including: index selection, any index related to stock market or investor can be included in the alternative index database; primary selection, eliminating invalid indicators with unavailable data or discontinuous data; screening, eliminating irrelevant indicators through irrelevant analysis; Select, delete the index whose redundant information is larger than the threshold through correlation analysis and cluster analysis; optimize, calculate the sensitive factor, that is, the maximum entropy of the difference between maximum entropy and information entropy, and select the index with the highest significance by combining cluster analysis atlas. The open selection index of the invention has reasonable design, and through a series of quantitative analysis, the agent index of more scientific, more inclusive and broader investor sentiment measurement can be obtained.

【技术实现步骤摘要】
基于聚类与最大熵增量的股市投资者情绪指标选择方法
本专利技术属于投资者情绪测度领域,尤其涉及一种基于聚类与最大熵增量的股市投资者情绪指标选择方法。
技术介绍
维护股票市场的稳定有赖于投资者情绪的稳定,现阶段很多行为金融研究都是建立在投资者情绪的基础上,其中,投资者情绪的测度是投资者情绪研究中的关键问题,科学合理选择投资者情绪代理指标是测度的基础。关于情绪测度指标的研究主要有以下两个特点:第一,测度指标众多,尚无理论依据和规范方法来优选这些指标。当前关于投资者情绪的涵义、投资者决策的情绪过程的作用机理、投资者情绪的测度方法等没有一个可以统驭全局的系统性论述,关于情绪测度没有专门提出其理论依据,学者们从各个微观视角,建立了各具特色的单项情绪测度指标——多达上百个(大量文献,不再赘述),丰富了该研究,但这些指标随机零散,莫衷一是,良莠不齐,对于如何更为规范地选取情绪测度指标,尚缺乏科学、统一、标准的方法。第二,测度指标的选择具有主观性与从众性。学者们构建的众多情绪测度指标,哪些需要剔除、哪些更重要、哪些更有效,需要通过规范的方法来优选。投资者情绪的测度不应该只主观随意地偏向于某一个或几个指标因素,而应采用一定的方法首先对所有指标进行优选,去芜存精,去伪存真,而学界当前恰好缺乏这样一套规范的方法。综上可见,亟需完善关于投资者情绪测度的基础理论,创建一套投资者情绪测度指标优选的规范方法,以得到更好的情绪测度指标。这将为投资者情绪的综合测度奠定可靠基础,并将丰富投资者情绪的理论,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。
技术实现思路
(一)解决的技术问题本专利技术要解决的技术问题是克服上述缺陷,提供一种基于聚类与最大熵增量的股市投资者情绪指标选择方法,提供了一套科学、开放、可行的系统优选方法,使得选择的代理指标更有效、更简便,为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。(二)技术方案为解决上述问题,本专利技术所采用的技术方案是:基于聚类与最大熵增量的股市投资者情绪指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通计算敏感因子,即最大熵与信息熵之差比最大熵,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。作为优选,海选模块的任何指标可以是当期指标,也可以是提前p期的衍生指标,即为{An,An-1,An-2...An-p},其中p为大于1的正整数。作为优选,筛选模块无关程度相关性系数为0.3及以下。作为优选,筛选模块显著性值为t统计量,该统计量服从n-2个自由度的t分布,概率界限可选择1%至5%。作为优选,遴选模块的阈值为0.9及以上。作为优选,优选模块的显著性可以使用敏感因子,即最大熵与信息熵之差比最大熵来判别Z=ln(m),(2)D=Z-H,(3)式中,pi为离散型系统状态的概率,i为系统状态数,m为系统状态最大值,且定义当概率为0时,熵为零;H为指标的信息熵值;Z为最大熵;D为判定指标,敏感因子,即最大熵与信息熵之差比最大熵。作为优选,优选模块复杂度可以根据人为经验与需求留选指标,应在聚类分析图谱中,由大类到小类进行分类,在每个类别中均衡选择指标,分类的数量可以人为决策。(三)有益效果本专利技术提供了一种基于聚类与最大熵增量的股市投资者情绪指标选择方法,与现有技术相比,具备以下有益效果:本专利技术设计合理,开放式选择指标,进一步扩大指标的选择范围,提高指标选择代表性,为得到更包容、更广泛的投资者情绪测度的代理指标做好基础。经过一系列的无关分析、相关分析、聚类分析、显著性分析,进一步优化指标的选择、量化选择标准,避免了以往指标筛选中的信息重叠与共线性,更均衡地选择指标,使得留选指标冗余信息更少,减少测度系统的复杂程度与盲目性;同时,将指标的选择过程完全可视化,黑箱过程透明化,使得优选过程更加明确、更加科学;为投资者情绪综合测度的研究奠定坚实的基础,同时也为现实中金融监管部门的监管和投资者的决策提供参考依据。附图说明图1股市投资者情绪测度代理指标选择流程图图2筛选22指标聚类树状图谱、相关系数和敏感因子图具体实施方式对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。选取了2005年1月到2015年12月的时间作为样本区间,共搜集到了60个潜在指标。海选模块:搜集得到60个指标,得到60x132阶矩阵;初选模块:考虑到信息搜集成本与数据的可得性、连续性,同时也考虑到指标的客观性,剔除数据不可得或数据不连续的无效指标后,保留了33个指标,得到一个33x132阶的原始矩阵;筛选模块:计算33个指标与上证综指相关系数及伴随概率,再计算与上证综指收益率的相关系数及伴随概率,可以使用SPSS软件计算得到相关系数表,如下表1所示:表1按照相关系数0.3以下与伴随概率大于1%标准剔除显著性较差的指标,可以综合留选22个指标,删除11个无关指标。遴选模块:为删除冗余信息量大于阈值的指标,通过相关聚类分析,得到系统树状图谱,根据图谱明确了22个指标的亲疏关系,如图2。遴选模块的相关系数阈值选为1,剔除冗余信息最大的指标,并将相关系数标记在22指标聚类图谱中,如图2所示相关系数列。需要说明的是,相关系数为1,意味着其地位相同,可以相互代表,只需留选1个指标。22个指标中,有6个相关系数为1,故缩减为16个指标。为了更好地说明本技术方案,在下一步仍然按照22个指标进行计算分析。优选模块:计算22个待选指标的敏感因子,即最大熵与信息熵之差比最大熵Z=ln(m),(2)D=Z-H,(3)式中,pi为离散型系统状态的概率,i为系统状态数,m为系统状态最大值,且定义当概率为0时,熵为零;H为指标的信息熵值;Z为最大熵;D为判定指标,敏感因子,即最大熵与信息熵之差比最大熵。将敏感因子标记在22个待选指标中,如表2、表3、图2。信息熵越大,则说明指标的信息含量越大,具有更显著的信息特征,具有更强的代表性。反之,信息熵越小,则指标信息含量越小,甚至不具有代表性。最大熵的大小只与系统状态的最大值有关,且与其它指标的信息熵大小没有关系。针对本专利技术的开放式指标选择方法,无疑是最佳选择。无论有多少个待选指标进入指标库,都不会影响信息含量特征的识别,进而使得指标系统的横向对比性能提升,提升特征识别的敏感性。本参数,越小说明指标的信息含量越大,辨识度越高;另一方面也能说明指标的潜在信息含量的提升空间。因此,敏感因子作为优选模块的显著性判别是切实可行的。通过聚类分析图谱结合敏感因子在所分的大类中,选择敏感因子最小的作为留选本文档来自技高网...

【技术保护点】
1.一种基于聚类与最大熵增量的股市投资者情绪指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通过计算敏感因子,即最大熵与信息熵之差比最大熵,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。

【技术特征摘要】
1.一种基于聚类与最大熵增量的股市投资者情绪指标选择方法,其特征在于,所述方法包括:海选模块,任何与股市或投资者有关的指标均可纳入到备选指标库;初选模块,剔除数据不可得或数据不连续的无效指标;筛选模块,通过无关分析剔除无关指标,计算各指标与股市大盘指数和股市收益率的相关系数,可以得到无关程度与显著性检验值,剔除显著性较差的指标;遴选模块,通过相关分析和聚类分析删除冗余信息量大于阈值的指标,计算各指标之间的相关系数,将相关系数大于阈值的指标进行归类,删除信息重叠指标;优选模块,通过计算敏感因子,即最大熵与信息熵之差比最大熵,结合聚类分析的树状分类图谱与指标数量复杂度,最终留选显著性最高的指标。2.根据权利要求1所述的基于聚类与最大熵增量的股市投资者情绪指标选择方法,其特征在于,所述海选模块的任何指标可以是当期指标,也可以是提前p期的衍生指标,即为{An,An-1,An-2...An-p},其中p为大于1的正整数。3.根据权利要求1所述的基于聚类与最大熵增量的股市投资者情绪指标选择方法,其特征在于,所述筛选模块无关程度相关性系数为0.3及以下。4.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:陈景马佳旭欧阳美辰夏舒然常峻玮杨鹏刘学文
申请(专利权)人:济宁市创启信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1