System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于标书异构数据的处理方法及系统技术方案_技高网

一种基于标书异构数据的处理方法及系统技术方案

技术编号:40519990 阅读:8 留言:0更新日期:2024-03-01 13:37
本申请提供一种基于标书异构数据的处理方法,该方法包括以下步骤:对基于标书异构数据进行预处理;对预处理之后的数据执行标准化处理;对标准化后的数据进行关联,以建立数据之间的关联关系;对关联之后的数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性;从基于标书异构数据中提取出所需的数据;将提取的基于标书异构数据可视化为图表或图形。本申请可提供处理后的更加利于使用的基于标书异构数据。

【技术实现步骤摘要】

本申请涉及计算机信息系统领域,具体是关于一种基于标书异构数据的处理方法及系统


技术介绍

1、基于标书异构数据是指由不同类型的数据构成的数据集,这些数据可能来自不同的来源、格式、结构或类型。在基于标书异构数据中,每种数据类型可能具有不同的数据结构和数据格式,因此需要特殊的处理和转换才能进行分析和可视化。

2、常见的基于标书异构数据类型包括结构化数据(如数据库中的数据)、半结构化数据(如文本文件中的数据)、非结构化数据(如图片、音频、视频等数据)。在数据科学和机器学习中,基于标书异构数据是一个重要的概念,因为不同的数据类型可以提供不同的信息,并且需要不同的处理和分析技术。

3、在实际应用中,基于标书异构数据可能需要进行更多的处理和转换,以确保数据质量和准确性。


技术实现思路

1、本申请的目的在于提供一种基于标书异构数据的处理方法,提供处理后的更加利于使用的基于标书异构数据。

2、为达到上述目的,作为本申请的第一方面,本申请提供一种基于标书异构数据的处理方法,该方法包括以下步骤:

3、对基于标书异构数据进行预处理;

4、对预处理之后的数据执行标准化处理;

5、对标准化后的数据进行关联,以建立数据之间的关联关系;

6、对关联之后的数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性;

7、从基于标书异构数据中提取出所需的数据;

8、将提取的基于标书异构数据可视化为图表或图形。

9、如上所述的基于标书异构数据的处理方法,其中,对基于标书异构数据进行预处理包括如下子步骤:

10、数据去重:去除基于标书异构数据中重复的数据,以消除数据中的重复和冗余;

11、数据缺失值填充:在数据中填写缺失值,以保证数据的完整性和准确性;其中数据缺失值填充选择以下的一种或几种方法:填充平均值、填充最大值、填充最小值、填充相同值、填充中位数、填充众数、填充常数;

12、数据错误处理,包括:数据校验、数据清洗、数据丢弃。

13、如上所述的基于标书异构数据的处理方法,其中,对预处理之后的数据执行标准化处理,包括如下子步骤:

14、数据格式转换:将基于标书异构数据中的数据格式统一为一致的数据格式;

15、数据类型转换:将基于标书异构数据中的数据类型统一为一致的数据类型;

16、数据名称转换:将基于标书异构数据中的数据名称统一为一致的数据名称;

17、数据格式标准化:将基于标书异构数据中的数据格式进行标准化处理,使其符合一定的标准。

18、如上所述的基于标书异构数据的处理方法,其中,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:

19、将数据集按照项进行垂直表示;

20、对于每个项,计算其支持度,即该项出现的事务数;

21、根据支持度对项进行排序,从高到低处理;

22、对于每个项,生成其对应的集合一;

23、对于每个集合一,通过递归的方式发现更高阶的集合一;

24、根据集合一,生成关联规则。

25、如上所述的基于标书异构数据的处理方法,其中,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。

26、如上所述的基于标书异构数据的处理方法,其中,利用集合一,根据最小置信度阈值,生成关联规则包括:

27、遍历集合一;

28、对于每个集合一,生成该项集的所有非空子集;

29、对于每个非空子集,计算其置信度:

30、根据最小置信度阈值,筛选出置信度高于阈值的关联规则;

31、生成的关联规则包括集合一中的项和其子集。

32、如上所述的基于标书异构数据的处理方法,其中,其中置信度计算公式如下所示:

33、置信度(a→b)=支持度(a∪b)/支持度(a),其中a和b分别表示项集的子集。

34、如上所述的基于标书异构数据的处理方法,其中,对基于标书异构数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性包括如下步骤:

35、数据注释;

36、数据质量检查,包括:数据格式检查,数据完整性检查,数据准确性检查,数据一致性检查,数据可读性检查。

37、如上所述的基于标书异构数据的处理方法,其中,从基于标书异构数据中提取出所需的数据为:根据预先设定的提取规则,提取基于标书异构数据。

38、本申请还提供一种基于标书异构数据的处理系统,该系统包括如下部件:

39、预处理部件:对基于标书异构数据进行预处理;

40、数据标准化部件:对预处理之后的数据执行标准化处理;

41、数据关联部件:对标准化后的数据进行关联,以建立数据之间的关联关系;

42、数据检查部件:对关联之后的数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性;

43、提取部件:从基于标书异构数据中提取出所需的数据;

44、数据可视化部件:将提取的基于标书异构数据可视化为图表或图形。

45、本申请实现的有益效果如下:

46、1.能够对基于标书异构数据进行精准处理;

47、2.能够建立数据之间的关联关系,从而进一步挖掘数据之间的关联;

48、3.能够提供可视化的基于标书异构数据。

本文档来自技高网...

【技术保护点】

1.一种基于标书异构数据的处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行预处理包括如下子步骤:

3.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对预处理之后的数据执行标准化处理,包括如下子步骤:

4.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:

5.根据权利要求4所述的基于标书异构数据的处理方法,其特征在于,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。

6.根据权利要求5所述的基于标书异构数据的处理方法,其特征在于,利用集合一,根据最小置信度阈值,生成关联规则包括:

7.根据权利要求6所述的基于标书异构数据的处理方法,其特征在于,其中置信度计算公式如下所示:

8.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行质量检查,以发现数据中的异常和错误,并确保数据的质量和一致性包括如下步骤:

9.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,从基于标书异构数据中提取出所需的数据为:根据预先设定的提取规则,提取基于标书异构数据。

10.一种基于标书异构数据的处理系统,其特征在于,该系统执行权利要求1-9之一的方法,该系统包括如下部件:

...

【技术特征摘要】

1.一种基于标书异构数据的处理方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对基于标书异构数据进行预处理包括如下子步骤:

3.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,对预处理之后的数据执行标准化处理,包括如下子步骤:

4.根据权利要求1所述的基于标书异构数据的处理方法,其特征在于,将基于标书异构数据中的数据进行关联,以建立数据之间的关联关系包括如下子步骤:

5.根据权利要求4所述的基于标书异构数据的处理方法,其特征在于,根据集合一,生成关联规则包括:利用集合一,根据最小置信度阈值,生成关联规则。

6.根据权利要求5所...

【专利技术属性】
技术研发人员:隗伟齐成斌
申请(专利权)人:北京瑞索咨询股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1