一种大数据分析方法及系统技术方案

技术编号:33458419 阅读:23 留言:0更新日期:2022-05-19 00:40
本发明专利技术提供了大数据分析方法及系统,方法包括获取分析单位的历史年报信息;对历史年报信息进行预处理,以得到样本特征;对样本特征进行筛选,以得到筛选特征;根据筛选特征构建模型特征;根据分析算法对模型特征进行训练,得到分析模型;获取分析单位的实时年报信息,将实时年报信息输入至分析模型,以得到分析结果。该方法采集海量的年报信息,提高数据的覆盖程度和准确性;利用大数据及AI技术对年报信息进行处理分析,提取更加合理、有效的特征;使用多个分析算法训练选择分析模型,利用分析模型生成分析结果,并为分析企业或业务流程提供建设性建议,该方法能够适用于各种复杂的数据分析场景,适应性更广,同时提高了数据分析的工作效率。工作效率。工作效率。

【技术实现步骤摘要】
一种大数据分析方法及系统


[0001]本专利技术属于数据挖掘
,具体涉及一种大数据分析方法及系统。

技术介绍

[0002]目前,大数据及AI技术迅速发展,尤其是在互联网应用极为普遍的情况下,大数据用于社会科学计算的实际应用已日趋成熟。
[0003]开发人员根据用户需求开发大数据分析系统,并将需要分析的数据传入大数据分析系统中,由大数据分析系统得出分析结果。目前的大数据分析系统主要使用的是一些现有的算法平台,大数据分析系统在实现时,直接接入现有的算法平台,完成数据的分析。但是目前的算法平台仅能实现对预处理后的数据进行分析,并不适用于所有场景下的数据分析,例如不能很好地实现对凌乱的原始数据进行分析。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术提供一种大数据分析方法及系统,适用性更广。
[0005]第一方面,一种大数据分析方法,包括:
[0006]获取分析单位的历史年报信息;
[0007]对历史年报信息进行预处理,以得到样本特征;
[0008]对样本特征进行筛选,以得到筛选本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大数据分析方法,其特征在于,包括:获取分析单位的历史年报信息;对所述历史年报信息进行预处理,以得到样本特征;对所述样本特征进行筛选,以得到筛选特征;根据所述筛选特征构建模型特征;根据预设的分析算法对所述模型特征进行训练,得到分析模型;获取所述分析单位的实时年报信息,将所述实时年报信息输入至所述分析模型,以得到所述分析单位的分析结果。2.根据权利要求1所述大数据分析方法,其特征在于,所述获取分析单位的历史年报信息具体包括:从指定网站爬取所述分析单位的所述历史年报信息。3.根据权利要求1所述大数据分析方法,其特征在于,所述对所述历史年报信息进行预处理,以得到样本特征具体包括:从所述历史年报信息中提取出对应的数据,以得到结构化数据;对所述结构化数据进行数据清洗,以得到所述样本特征。4.根据权利要求3所述大数据分析方法,其特征在于,所述对结构化数据进行数据清洗,以得到所述样本特征具体包括:在所述结构化数据中,当同一个所述历史年报信息中所述结构化数据的缺失数量超过预设的最大缺失数量时,删除所述历史年报信息以及对应的结构化数据,以得到第一样本;在所述第一样本中,将所述结构化数据中的长文本信息拆分为多个词组,以得到第二样本;在所述第二样本中,删除所述结构化数据中的错误信息,以得到第三样本;在所述第三样本中,对值不连续的所述结构化数据进行值扩充,以得到所述样本特征。5.根据权利要求1所述大数据分析方法,其特征在于,所述对所述样本特征进行筛选,以得到筛选特征具体包括:获取所述样本特征对应的标签;计算各个样本特征与对应的所述标签中的相关系数,以得到第一相关系数;删除所述第一相关系数低于第一阈值的样本特征;计算任意两个样本特征之间...

【专利技术属性】
技术研发人员:逯鹰张毅王晓青赵磊朱晓琳任保宁秦超王腾蛟陈薇
申请(专利权)人:青岛视图信息科技有限公司北京大学青岛计算社会科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1