一种基于人工智能算法的相似上市企业检索分类方法及系统技术方案

技术编号:25948632 阅读:28 留言:0更新日期:2020-10-17 03:40
本发明专利技术公开了一种基于人工智能算法的相似上市企业检索分类方法及系统,属于金融分析、评估领域,该方法根据标的企业与相关企业的财务报表,主营业务,财务指标,商业周期敏感程度,以及统计相关程度结合的方式,结合当前主流的机器学习算法构建人工智能模型,深入挖掘提取出与标的公司财务指标相似的公司,并对相关联的企业进行相似度排名,以找出对标企业,并提取出每个公司对应的上市相似的公司集群及其财务指标,为投资研究提供数据基础。本发明专利技术有效地解决了传统的数据覆盖面不全和传统的对标企业检索系统的数据不准确以及实用性不强的问题。

【技术实现步骤摘要】
一种基于人工智能算法的相似上市企业检索分类方法及系统
本专利技术属于金融分析、评估
,具体涉及一种基于人工智能算法的相似上市企业检索分类方法及系统。
技术介绍
在金融投资领域中,投资者需要对标的企业进行详细的业务分析,财务分析,以及合理的企业价值估值。对于标的公司的研究,经常需要有同行业或同领域竞争公司的企业经营数据做参考分析,使用余弦距离与欧氏距离等算法构建的人工智能模型,可找出与标的公司财务指标相似的上市公司,以预测该公司的预期财务指标数据,发现潜在的投资标的。常用的寻找相似公司方式,主要是通过已有的行业分类模型,如全球行业分类标准、罗素全球行业、行业分类基准等投资性分类系统,以及国民经济行业分类、上市企业行业分类等管理型政府行业分类系统。由于新兴技术的不断进步,多领域多行业交融的公司企业相继涌现,传统的分类方式很难满足市场现有的需求。现有的查找相似公司的多是基于文本检索的方式,如搜集上市公司的招股说明书、年度报告、重要公告、财务报告、行业研究报告、专利信息、诉讼信息、招标投标信息和企业重要新闻等,使用文本分析检索、知识库推理、关键词提取等技术来进行公司相似度分类,此种方法并没有真正触及到上市公司的核心数据——财务数据,数据覆盖面不全、实用性较差、数据不准确。
技术实现思路
本专利技术的目的在于提供一种基于人工智能算法的相似上市企业检索分类方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于人工智能算法的相似上市企业检索分类方法,该方法包括如下步骤:S1、获取上市企业的财务季度报表和财务年度报表数据;S2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;S3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;S4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;S5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;S6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。优选的,所述S2中,标题的公告分类通过选择合适的分类算法构建分类模型,提炼语料训练集并使用分类模型对每篇公告进行精准分类。优选的,所述分类算法包括KNN算法、聚类算法、决策树算法、朴素贝叶斯算法和Rocchio算法。优选的,所述S2中,分类处理包括如下步骤:S21、PDF文件解析;S22、财务报表定位;S23、表格识别;S24、表格语义解析。优选的,所述S3中,人工智能模型包括全面的财务指标算法,可根据不同维度的财务指标自动化匹配有针对性的财务指标算法,并在计算完成后对现有数据进行清洗检测,去掉重复数据和冗余数据。优选的,所述S5中,空间向量模型建立后还需进行模型标准化,所述模型标准化包括如下步骤:S51、异常值检测,通过Z-score检测方法、DBSCAN基于密度的离群值检测方法和孤立森林异常值检测方法对异常值进行检测;S52、缺失值处理,通过机器学习算法预测、相似样本的均值和可用特征的均值对缺失值进行填补;S53、数据标准化,通过StandardScaler方法、MinMaxScaler方法和RobustScaler方法对数据进行标准化处理。优选的,所述S5中,公司距离矩阵的计算方法包括余弦距离算法、欧氏距离算法、杰卡德距离算法、马氏距离算法和兰式距离算法。此外,本专利技术还提供一种基于人工智能算法的相似上市企业检索分类系统,该系统包括:获取模块,用于对所有上市企业的不同维度的年度财务报表、季度财务报表进行获取;财务数据提取及存储模块,用于将获取的所有财务数据进行分析整理,通过标题公告分类算法模型对所有公告进行精准分类,在分类完成后进行PDF文件解析,并清除清除冗余数据并对财务数据进行存储;财务特征计算及提取模块,用于构建人工智能模型并提取存储模块中的财务数据和指标进行结构分析计算并将财务指标存入存储模块内;公司距离矩阵计算模块,用于对财务数据进行标准化处理、建立数据空间向量并匹配最优算法计算出公司距离矩阵;相似公司提取模块,用于根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。本专利技术提供一种基于人工智能算法推理的相似上市公司企业检索分类方法及系统,结合当前主流的机器学习算法构建人工智能模型,深入挖掘提取出与标的公司财务指标相似的公司,有效地解决了传统的数据覆盖面不全和传统的对标企业检索系统的数据不准确以及实用性不强的问题。附图说明图1为一种基于人工智能算法的相似上市企业检索分类方法的流程示意图;图2为一种基于人工智能算法的相似上市企业检索分类方法中财务数据提取的流程示意图;图3为一种基于人工智能算法的相似上市企业检索分类方法中相似度的计算流程示意图。具体实施方式下面结合实施例对本专利技术做进一步的描述。以下实施例用于说明本专利技术,但不能用来限制本专利技术的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本专利技术的构思前提下对本专利技术的方法简单改进都属于本专利技术要求保护的范围。如图1-3所示,本专利技术提供一种基于人工智能算法的相似上市企业检索分类方法,该方法包括如下步骤:S1、对所有上市企业进行数据收集,包括上市企业的财务季度报表和财务年度报表数据。S2、将搜集的所有上市公司的财务数据进行分析整理,首先进行基于标题的公告分类技术处理,公告分类模型需要提前提炼好语料训练集,其核心问题是选择合适的分类算法,构建分类模型。基于标题的公告分类采用KNN算法、聚类算法、决策树算法、朴素贝叶斯算法、Rocchio五种分类算法集成构成模型,使用分类模型对每篇公告进行精准分类。分类完成后解析所有的PDF文件,解析的内容包括,识别文字和表格,准确定位PDF中的表格,并对表格中的语义进行智能解析,提取表格中的关键信息及数据,搭建高性能缓存数据空间,将一部分数据集合组存至缓存数据空间,减少数据库的访问,减少数据库压力,提高访问速度,整体提升检索效率。最后将数据存入财务数据数据库中。S3、将搜集的财务数据处理并存至数据库后需进行财务指标计算,财务指标计算使用的是我们自主研发的人工智能模型,该模型汇集了全面的财务指标算法,可根据不用维度的财务指标自动化匹配有针对性的财务指标算法,在计算完成后,还需对现有数据进行清洗检测,去掉重复数据,去掉无用的财务标签等冗余数据,最后将财务指标数据存入财务指标数据库中。S4、在财务特征计算过程中,财务特征计算的核心就是开发策略。从海量的财务数据及财务指标数据中提取出能够产生策略超额收益的财务特征至关重要,特征计算和提取是计算公司相似度的前处理步骤,在降维、去除不相关数据本文档来自技高网...

【技术保护点】
1.一种基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述方法包括如下步骤:/nS1、获取上市企业的财务季度报表和财务年度报表数据;/nS2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;/nS3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;/nS4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;/nS5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;/nS6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。/n

【技术特征摘要】
1.一种基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述方法包括如下步骤:
S1、获取上市企业的财务季度报表和财务年度报表数据;
S2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;
S3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;
S4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;
S5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;
S6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。


2.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,标题的公告分类通过选择合适的分类算法构建分类模型,提炼语料训练集并使用分类模型对每篇公告进行精准分类。


3.根据权利要求2所述的基于人工智能算法的相似上市企业检索分类方法及系统,其特征在于,所述分类算法包括KNN算法、聚类算法、决策树算法、朴素贝叶斯算法和Rocchio算法。


4.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,分类处理包括如下步骤:
S21、PDF文件解析;
S22、财务报表定位;
S23、表格识别;
S24、表格语义解析。


5.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S3中,人工智能模型包括全面的财务指标算法,可根据不同维度的财务指标自动化匹配有针对性的财务指标算法,并在计算完成后对现有数据...

【专利技术属性】
技术研发人员:薛逢源
申请(专利权)人:上海简答数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1