一种年报数据质量评价方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24355934 阅读:17 留言:0更新日期:2020-06-03 02:33
本发明专利技术涉及数据质量评价技术领域,具体涉及一种年报数据质量评价方法、装置、电子设备及存储介质,该方法包括以下步骤:对获取的企业年报数据进行标准化处理,得到标准化数据;将标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;根据异常值对企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录数据指标所关联的企业的异常得分,汇总企业所有数据指标的异常得分,得到企业的总异常得分,本发明专利技术实施例采用由多种异常值检测算法构成的机器学习模型集中投票的方式判定,不存在人的主观因素的影响,评价结果准确。

A data quality evaluation method, device, electronic equipment and storage medium for annual report

【技术实现步骤摘要】
一种年报数据质量评价方法、装置、电子设备及存储介质
本专利技术涉及数据质量评价
,具体涉及一种年报数据质量评价方法、装置、电子设备及存储介质。
技术介绍
2014年10月1日我国正式实施企业年报公示制度,明确规定企业应当依法按时年报。企业年报内容涵盖了企业的资产、运营、税务、行政奖惩等大量数据信息,若能够将企业的年报数据加以科学合理的分析运用,既能为促进经济社会发展提供决策参考,也是政府部门监管能力的集中体现。但是,在年报工作推进过程中发现,尚有部分企业由于经营管理上不够规范、人员流动或交接不到位、财务管理混乱等原因导致年报信息往往随便填写,大大降低了企业年报数据的质量。因此,提供一种可靠的年报数据质量评价方法,对政府经济决策及政府精准监管无疑具有重要意义。现行的数据质量评价方法主要包括AHP层次分析法、缺陷扣分法等。AHP层次分析法首先将复杂的问题分解成若干层次,建立阶梯层次结构,然后构成判断矩阵,进行单排序一致性检验,最后进行层次总排序和一致性检验,得出结果,该方法的核心是对评价对象进行优劣排序、评价和选择,从而为评价主体提供定量形式的评价依据,具有高度的简明性、有效性、可靠性和广泛的适用性。缺陷扣分法是通过把握评价对象的结构缺陷进行判断的方法,通过计算单位产品的得分值,然后由单位产品的得分值来评价信息质量,其特点是操作简便。专利技术人在实践中,发现上述现有技术存在以下缺陷:AHP层次分析法主要表现在其结果只是针对准则层中的要素,人的主观判断对结果的影响较大,同时,该方法运用具有一定的滞后性,不适用于频繁进行的数据质量评价活动。缺陷扣分法在实际操作中,缺陷扣分跨越太大,评价结果较粗糙,容易偏激。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种年报数据质量评价方法、装置、电子设备及存储介质,所采用的技术方案具体如下:第一方面,本专利技术实施例提供了一种年报数据质量评价方法,该检测方法包括以下步骤:对获取的企业年报数据进行标准化处理,得到标准化数据;将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。第二方面,本专利技术实施例提供了一种年报数据质量评价装置,该装置包括:预处理模块,用于对获取的企业年报数据进行标准化处理,得到标准化数据;识别模块,用于将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;评分模块,用于根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。第三方面,本专利技术实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述任意一项所述的方法。第四方面,本专利技术实施例提供了一种存储介质,该存储介质中存储有计算机可读的程序指令,其特征在于,所述程序指令被处理器执行时实现上述任意一项所述的方法。本专利技术具有如下有益效果:由于本专利技术实施例所提供的技术方案采用由多种异常值检测算法构成的机器学习模型,并且通过集中投票的方式判定,不存在人的主观因素的影响,并且评价结果是综合多种异常值检测算法所得到的结果,评价结果准确,并且不容易偏激。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1为本专利技术一个实施例所提供的一种年报数据质量评价方法流程图;图2为双变量boxplot离群值模型的箱线图;图3为Autoencoder自编码模型的结构示意图;图4为本专利技术另一个实施例所提供的一种年报数据质量评价方法流程图;图5为本专利技术另一个实施例所提供的一种年报数据质量评价装置的结构框图;图6为关于反馈模块的结构框图;图7是本专利技术实施例提供的一种终端设备的结构示意图;图8是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种年报数据质量评价方法、装置、电子设备及存储介质,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的属于只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。下面结合附图具体的说明本专利技术所提供的一种年报数据质量评价方法、装置、电子设备及存储介质的具体方案。请参阅图1,其示出了本专利技术一个实施例提供的一种年报数据质量评价方法流程图,为了解决现有分析方法中的不足,本专利技术实施例通过由多种异常值检测算法构成的机器学习模型同时对企业年报数据进行识别,然后通过集成投票的方式判定企业年报数据的异常得分,根据该异常得分来评价年报的数据质量。具体的,该年报数据质量评价方法包括以下步骤:步骤S001,对获取的企业年报数据进行标准化处理,得到标准化数据。企业年报数据包括企业基本信息、经营信息、社保信息和纳税信息等,其中企业基本信息包括企业名称、企业通信地址、出资时间、出资额等;经营信息包括资产总额、负债总额、所有者权益、营业收入;社保信息包括参保人数、单位缴费基数、单位累计欠缴金额等;纳税信息包括纳税总额等数据信息。标准化处理是指对相应的财务数据进行归一化处理。样本不同属性具有不同量级的影响包括量级较大的属性占据主导地位、迭代收敛速度减慢和依赖于样本距离的算法对于数据的数量级非常敏感,因此需要通过标准化处理消除数量级的差异所造成的影响。具体到本实施例中,其归一化处理的方式为:对于每个属性,假设属性A的最小值和最大值分别用minA和maxA表示,将属性A的一个原始值x通过min-max标准化映射成在区间[0,1]中的新数据x',其映射公式为:x'=(x-minA)/(maxA-minA)。步骤S002,将步骤S001得到的标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值。在机器学习中,异常值检测算法包括多种类型,具体本文档来自技高网
...

【技术保护点】
1.一种年报数据质量评价方法,其特征在于,该检测方法包括以下步骤:/n对获取的企业年报数据进行标准化处理,得到标准化数据;/n将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;/n根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。/n

【技术特征摘要】
1.一种年报数据质量评价方法,其特征在于,该检测方法包括以下步骤:
对获取的企业年报数据进行标准化处理,得到标准化数据;
将所述标准化数据输入由多种异常值检测算法构成的机器学习模型中识别相应的异常值;
根据所述异常值对所述企业年报数据中相应的数据指标进行投票,若某一数据指标被两个及两个以上的异常值检测算法识别出异常而进行投票,则记录所述数据指标所关联的企业的异常得分,汇总所述企业所有数据指标的异常得分,得到所述企业的总异常得分。


2.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,所述多种由大数据算法构成的机器学习模型包括:双变量boxplot离群值模型、Cook距离模型、K均值聚类算法模型和Autoencoder自编码模型中的两种或者多种模型。


3.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,在所述将所述标准化数据输入多种由大数据算法构成的机器学习模型中识别相应的异常值之后,还包括以下步骤:
判断所述企业年报数据的某一数据指标的同环比是否在合理区间;
若利用同环比判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整所述机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。


4.根据权利要求1所述的一种年报数据质量评价方法,其特征在于,所述将所述标准化数据输入多种由大数据算法构成的机器学习模型中识别相应的异常值之后,还包括以下步骤:
利用业务逻辑验证模型的准确性;
如果利用所述业务逻辑判别出的年报数据的异常企业数量大于所述机器学习模型识别出来的数量,则通过适当调整机器学习模型参数和/或增加训练集样本数量的方法,进一步优化机器学习模型。


5.一种年报数据质量评价装置,其特征在于,该装置包括:
预处理模块,用于对获取的企业年报数据进行...

【专利技术属性】
技术研发人员:贾新李善平朱红生晋梁昊
申请(专利权)人:河南拓普计算机网络工程有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1