一种金融类公众号数据的可视化分析方法技术

技术编号:24613486 阅读:33 留言:0更新日期:2020-06-24 01:08
本发明专利技术是一种金融类公众号数据的可视化分析方法,包括以下步骤:S1、收集金融类公众号文章,并对所述文章进行预处理;S2、提取文章中对股价波动预测的关键历史数据,同时获取与股价波动预测对应的实际股价波动数据,以关键历史数据和实际股价波动数据组成源数据库;S3、根据源数据库计算文章对股价波动的预测准确度;S4、针对单个公众号建立单体评估模型和/或针对多个公众号建立整体评估模型;S5、选择输出限制参数对单体评估模型和/或整体评估模型进行可视化输出,通过对公众号文章中数据的整理和分析,可以直观的判断公众号预测的准确性,选择适合的公众号进行关注阅读,通过输出限制参数的选择,得到可视化的交互对比分析结果。

A visual analysis method for financial official account data

【技术实现步骤摘要】
一种金融类公众号数据的可视化分析方法
本专利技术涉及金融信息可视化领域,具体是一种金融类公众号数据的可视化分析方法。
技术介绍
自媒体的信息量在当下媒体形式中占有较大比重,对于金融类自媒体来说,对股票行情的预测是其主要内容之一,相关的机构和人员具有较高的信息需求,公众号的关注量和阅读量与股价之间存在相关性,当前公众号内容的可视化大多以展示基础数据为主,在内容分析层面和具有交互对比性的可视化方面欠缺。
技术实现思路
为解决上述问题,提供一种金融类公众号数据的可视化分析方法,包括以下步骤:S1、收集金融类公众号文章,并对所述文章进行预处理;S2、提取所述文章中对股价波动预测的关键历史数据,同时获取与所述股价波动预测对应的实际股价波动数据,以所述关键历史数据和实际股价波动数据组成源数据库;S3、根据所述源数据库计算所述文章对股价波动的预测准确度;S4、针对单个公众号建立单体评估模型和/或针对多个公众号建立整体评估模型;S5、选择输出限制参数对所述单体评估模型和/或整体评估模型进行可视化输出。本专利技术的有益效果在于,提供了一种金融类公众号数据的可视化分析方法,通过对公众号文章中数据的整理和分析,可以直观的判断公众号预测的准确性,选择适合的公众号进行关注阅读,通过输出限制参数的选择,输出可视化的交互对比分析结果。附图说明用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制。图1是本专利技术实施例中方法的逻辑框图;图2是本专利技术实施例中单体评估模型可视化输出的示意图;图3是本专利技术实施例中整体评估模型可视化输出的示意图。具体实施方式以下结合实施例对本专利技术的专利技术构思做具体示例性阐述,故对以下内容的理解不应该是对本专利技术保护范围的限定,而是对原理理解的辅助。实施例:如图1-3所示一种金融类公众号数据的可视化分析方法,包括以下步骤:S1、收集金融类公众号文章,并对文章进行预处理;S2、提取文章中对股价波动预测的关键历史数据,同时获取与股价波动预测对应的实际股价波动数据,以关键历史数据和实际股价波动数据组成源数据库;S3、根据源数据库计算文章对股价波动的预测准确度;S4、针对单个公众号建立单体评估模型和/或针对多个公众号建立整体评估模型;S5、选择输出限制参数对单体评估模型和/或整体评估模型进行可视化输出。大量的金融类公众号会进行股票相关预测的文章推送,对于有相关需求的人群来说,可能会接收到类似于轰炸式的信息涌入,现在的都市节奏普遍偏快,巨大的阅读量会消耗大量的时间,并且阅读的内容里面充斥着大量的无效内容,从人的精力和健康生活方面来说都是不利因素;就具体推送内容而言,公众号所展示的可视化大多是以基础数据为主,用户得不到有效的分析结果;市场热度和舆情热度与股票之间存在相关性,甚至可以联系到当前股票的走势,但是用户有限的阅读量很难得到这些相关性的信息,通过对大数据的收集,有目的性的进行清洗预处理,得到关键信息,进行可视化的输出,一方面可以让用户具备选择公众号的依据,更重要的是可以通过本申请提供的可视化模型输出进行相关性的分析,并且在可视化模型的输出方面,具有自主选择的限制性参数,能够进行有效的交互性对比,以适应用户的需求;实际股价波动数据作为计算预测准确度的真值。作为优选的,步骤S1中,对数据进行预处理的方式为:去除公众号ID、文章发布时间和文章文本内容之外的无效数据,重新组织并格式化。公众号所推送文章的内容对于用户来说,公众号ID是先决条件(即用户得以收到相关推送),文章发布时间相当于预测时间,而文本内容则是具体的预测分析过程和结果,实际上保留的数据还可以包括公众号中文名称、文章标题等,这些信息可以辅助用户进行阅读分析以及公众号的选择;对于数据的重新组织和格式化让数据的处理规范化,有利于简化处理过程,便于利用现有技术对数据进行处理,比如说通过字段进行聚类、筛选、提高得到分析结果的效率等。作为优选的,关键历史数据包括股票代码、预测时间、预测强度。在提取关键历史数据时,可以通过按公众号聚类的方式实施,对聚类后的公众号提取预测的关键历史数据,比如说通过字符匹配的方式,检测每篇文章中包含的股票名称或股票代码,每个股票名称或者股票代码作为一次预测,文章发布的时间作为预测的时间,股票名称或者股票代码出现次数作为预测强度;关键历史数据可以通过列表的方式进行统计,每一列分别统计股票代码、预测时间、预测强度、预测结果,每一行再匹配相应的实际股价波动数据,这样就构成了最基本的源数据库。作为优选的,预测准确度表征为预测强度和实际股价波动数据的相关系数。相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,相关系数是按积差方法计算,以两变量与各自平均值的离差为基础,通过两个离差相乘来反应两个变量之间的相关程度,作为现有技术,本申请不对相关系数作过多赘述。预测准确度还可以通过比对预测结果来确定,比如说直观的比较涨跌;或者是通过设置一定的阈值来界定预测的正确与否,比如某一文章预测股票A的涨幅为5%,如果说实际涨幅超过预测的百分之八十即涨幅为4%,就判断为预测正确,反之则为预测错误。作为优选的,相关系数表征为:Pij=ρ(preij,fluctionj)式中,Pij为第i个公众号对第j支股票的预测准确度,preij为第i个公众号对第j支股票的预测强度数组,fluctionj为相应时间的第j支股票的实际波动数组,ρ为计算两组数组的相关系数的函数方法。作为优选的,单体评估模型表征为:单个公众号对一支股票的预测准确度;单体评估模型输出公众号ID、股票代码、预测强度和预测准确度。对于单个公众号来说,对于某一支股票的预测结果输出,单体评估模型可以直观的反应该公众号对其预测股票的预测结果,让用户以及业内的分析机构能够判断是否关注阅读该公众号的内容,为此提供依据,建立单体评估模型。作为优选的,整体评估模型表征为:多个公众号对一支股票的预测热度以及相应时间段内该股票的实际股价波动数据;整体评估模型输出股票代码、实际股价波动数据和作出预测文章数量。对多个公众号进行整体评价,以同一支股票为参考点,可以直接反应该股票的市场热度和舆情热度,作为购买和分析股票的导向依据,体现股票对于公众号的影响程度;结合股票的实际股价波动数据,体现公众号关注点和单支股票波动的相关性。作为优选的,输出限制参数包括时间波长和/或振幅波动。通过设置输出限制参数,让用户可以选择模型的可视化输出结果,比如说设置3天、5天、10天、20天的时间波长,针对长期投资用户和短期投资用户能够自主选择输出那一段时间内的可视化结果,提高用户的需求满足概率,使本申请所提供的分析方法能够更好的适应市场需求;或者是设置振幅波动,波动的取值方式包括振幅计算法、开盘收盘插值法,振幅由某段时间内股本文档来自技高网...

【技术保护点】
1.一种金融类公众号数据的可视化分析方法,其特征在于,包括以下步骤:/nS1、收集金融类公众号文章,并对所述文章进行预处理;/nS2、提取所述文章中对股价波动预测的关键历史数据,同时获取与所述股价波动预测对应的实际股价波动数据,以所述关键历史数据和实际股价波动数据组成源数据库;/nS3、根据所述源数据库计算所述文章对股价波动的预测准确度;/nS4、针对单个公众号建立单体评估模型和/或针对多个公众号建立整体评估模型;/nS5、选择输出限制参数对所述单体评估模型和/或整体评估模型进行可视化输出。/n

【技术特征摘要】
1.一种金融类公众号数据的可视化分析方法,其特征在于,包括以下步骤:
S1、收集金融类公众号文章,并对所述文章进行预处理;
S2、提取所述文章中对股价波动预测的关键历史数据,同时获取与所述股价波动预测对应的实际股价波动数据,以所述关键历史数据和实际股价波动数据组成源数据库;
S3、根据所述源数据库计算所述文章对股价波动的预测准确度;
S4、针对单个公众号建立单体评估模型和/或针对多个公众号建立整体评估模型;
S5、选择输出限制参数对所述单体评估模型和/或整体评估模型进行可视化输出。


2.根据权利要求1所述的一种金融类公众号数据的可视化分析方法,其特征在于,所述步骤S1中,对所述数据进行预处理的方式为:去除公众号ID、文章发布时间和文章文本内容之外的无效数据,重新组织并格式化。


3.根据权利要求1所述的一种金融类公众号数据的可视化分析方法,其特征在于,所述关键历史数据包括股票代码、预测时间、预测强度。


4.根据权利要求1所述的一种金融类公众号数据的可视化分析方法,其特征在于,所述预测准确度表征为所述预测强度和所述实际股价波动数据的相关系数。


5.根据权利要求4所述的一种金融类公众号数据的可视化分析方法,其特征在于,所述相关系数表征为:
Pij=ρ(preij,fluctionj)
式中,Pij为第i个公众号...

【专利技术属性】
技术研发人员:李少华王习平胡彦鹏王长波崔雅隽李晨辉沙曼
申请(专利权)人:上海华鑫股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1