System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机信息系统领域,具体是关于一种基于标书异构数据的处理方法及系统。
技术介绍
1、基于标书异构数据是指由不同类型的数据构成的数据集,这些数据可能来自不同的来源、格式、结构或类型。在基于标书异构数据中,每种数据类型可能具有不同的数据结构和数据格式,因此需要特殊的处理和转换才能进行分析和可视化。
2、常见的基于标书异构数据类型包括结构化数据(如数据库中的数据)、半结构化数据(如文本文件中的数据)、非结构化数据(如图片、音频、视频等数据)。在数据科学和机器学习中,基于标书异构数据是一个重要的概念,因为不同的数据类型可以提供不同的信息,并且需要不同的处理和分析技术。
3、在实际应用中,基于标书异构数据可能需要进行更多的处理和转换,以确保数据质量和准确性。
技术实现思路
1、本申请的目的在于提供一种基于标书异构数据的处理方法,提供处理后的更加利于使用的基于标书异构数据。
2、为达到上述目的,作为本申请的第一方面,本申请提供一种基于标书异构数据的处理方法,该方法包括以下步骤:
3、对基于标书异构数据进行预处理;
4、对预处理之后的数据执行标准化处理;
5、对标准化后的数据进行关联,以建立数据之间的关联关系;
6、对关联之后的数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性;
7、从基于标书异构数据中提取出所需的数据;
8、将提取的基于标书异构数据可视化为图
9、如上所述的基于标书异构数据的处理方法,其中,对基于标书异构数据进行预处理包括如下子步骤:
10、数据去重:去除基于标书异构数据中重复的数据,以消除数据中的重复和冗余;
11、数据缺失值填充:在数据中填写缺失值,以保证数据的完整性和准确性;其中数据缺失值填充选择以下的一种或几种方法:填充平均值、填充最大值、填充最小值、填充相同值、填充中位数、填充众数、填充常数;
12、数据错误处理,包括:数据校验、数据清洗、数据丢弃。
13、如上所述的基于标书异构数据的处理方法,其中,对预处理之后的数据执行标准化处理,包括如下子步骤:
14、数据格式转换:将基于标书异构数据中的数据格式统一为一致的数据格式;
15、数据类型转换:将基于标书异构数据中的数据类型统一为一致的数据类型;
16、数据名称转换:将基于标书异构数据中的数据名称统一为一致的数据名称;
17、数据格式标准化:将基于标书异构数据中的数据格式进行标准化处理,使其符合一定的标准。
18、如上所述的基于标书异构数据的处理方法,其中,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:
19、将数据集按照项进行垂直表示;
20、对于每个项,计算其支持度,即该项出现的事务数;
21、根据支持度对项进行排序,从高到低处理;
22、对于每个项,生成其对应的集合一;
23、对于每个集合一,通过递归的方式发现更高阶的集合一;
24、根据集合一,生成关联规则。
25、如上所述的基于标书异构数据的处理方法,其中,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。
26、如上所述的基于标书异构数据的处理方法,其中,利用集合一,根据最小置信度阈值,生成关联规则包括:
27、遍历集合一;
28、对于每个集合一,生成该项集的所有非空子集;
29、对于每个非空子集,计算其置信度:
30、根据最小置信度阈值,筛选出置信度高于阈值的关联规则;
31、生成的关联规则包括集合一中的项和其子集。
32、如上所述的基于标书异构数据的处理方法,其中,其中置信度计算公式如下所示:
33、置信度(a→b)=支持度(a∪b)/支持度(a),其中a和b分别表示项集的子集。
34、如上所述的基于标书异构数据的处理方法,其中,对基于标书异构数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性包括如下步骤:
35、数据注释;
36、数据质量检查,包括:数据格式检查,数据完整性检查,数据准确性检查,数据一致性检查,数据可读性检查。
37、如上所述的基于标书异构数据的处理方法,其中,从基于标书异构数据中提取出所需的数据为:根据预先设定的提取规则,提取基于标书异构数据。
38、本申请还提供一种基于标书异构数据的处理系统,该系统包括如下部件:
39、预处理部件:对基于标书异构数据进行预处理;
40、数据标准化部件:对预处理之后的数据执行标准化处理;
41、数据关联部件:对标准化后的数据进行关联,以建立数据之间的关联关系;
42、数据检查部件:对关联之后的数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性;
43、提取部件:从基于标书异构数据中提取出所需的数据;
44、数据可视化部件:将提取的基于标书异构数据可视化为图表或图形。
45、本申请实现的有益效果如下:
46、1.能够对基于标书异构数据进行精准处理;
47、2.能够建立数据之间的关联关系,从而进一步挖掘数据之间的关联;
48、3.能够提供可视化的基于标书异构数据。
本文档来自技高网...【技术保护点】
1.一种基于标书异构数据的处理方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行预处理包括如下子步骤:
3.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对预处理之后的数据执行标准化处理,包括如下子步骤:
4.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:
5.根据权利要求4所述的基于标书异构数据的处理方法,其特征在于,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。
6.根据权利要求5所述的基于标书异构数据的处理方法,其特征在于,利用集合一,根据最小置信度阈值,生成关联规则包括:
7.根据权利要求6所述的基于标书异构数据的处理方法,其特征在于,其中置信度计算公式如下所示:
8.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行质量检查,以发现数据中的异常和错误
9.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,从基于标书异构数据中提取出所需的数据为:根据预先设定的提取规则,提取基于标书异构数据。
10.一种基于标书异构数据的处理系统,其特征在于,该系统执行权利要求1-9之一的方法,该系统包括如下部件:
...【技术特征摘要】
1.一种基于标书异构数据的处理方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行预处理包括如下子步骤:
3.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对预处理之后的数据执行标准化处理,包括如下子步骤:
4.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:
5.根据权利要求4所述的基于标书异构数据的处理方法,其特征在于,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。
6.根据权利要求5所...
【专利技术属性】
技术研发人员:隗伟,齐成斌,
申请(专利权)人:北京瑞索咨询股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。