System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 档案数据的处理方法、装置、设备及存储介质制造方法及图纸_技高网

档案数据的处理方法、装置、设备及存储介质制造方法及图纸

技术编号:41061040 阅读:4 留言:0更新日期:2024-04-24 11:13
本申请涉及数据处理技术领域,公开了一种档案数据的处理方法、装置、设备及存储介质。所述方法包括:获取多个目标数据源的初始档案数据集并创建初始档案数据分类结果和初始档案数据索引信息;生成第一档案数据特征集和第二档案数据特征集;构建档案数据特征知识图谱;进行关系节点提取,得到多个图谱关系节点并进行节点聚类分析,得到目标聚类结果;进行互相关性分析,得到互相关性分析结果并进行矩阵转换,生成目标档案数据特征矩阵;将目标档案数据特征矩阵输入多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息,本申请实现了档案数据处理的智能化并提高了档案数据处理的效率。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种档案数据的处理方法、装置、设备及存储介质


技术介绍

1、在当今信息化时代,档案数据的管理和利用成为了组织和个人面临的重要挑战。随着数据量的急剧增加,传统的档案数据处理方法已难以满足快速、高效的数据处理需求。这些传统方法往往依赖于人工操作,不仅耗时耗力,而且容易出错,影响数据的准确性和可用性。因此,如何高效地管理和利用这些庞大的数据资源,提高档案数据的处理效率和质量,成为了迫切需要解决的问题。

2、此外,随着人工智能和大数据技术的发展,如何从海量档案数据中挖掘出有价值的信息,成为了档案数据处理领域的一个重要研究方向。现有的数据处理方法往往缺乏有效的数据特征提取和分析机制,难以充分发掘档案数据中蕴含的知识,限制了档案数据的深度利用和价值挖掘。更为关键的是,档案数据的异构性和复杂性给数据的整合、分析和应用带来了巨大的挑战。档案数据通常来自不同的数据源,具有不同的格式和结构,这使得数据的整合和统一处理变得极为困难。如何有效地对这些异构数据进行集成和预处理,以及如何构建统一的知识表示框架,对于提高档案数据处理的效率和质量具有重要意义。因此,研究和开发新的档案数据处理方法,以适应大数据背景下的需求,成为了档案数据处理领域面临的一个重要任务。


技术实现思路

1、本申请提供了一种档案数据的处理方法、装置、设备及存储介质,用于实现档案数据处理的智能化并提高档案数据处理的效率。

2、第一方面,本申请提供了一种档案数据的处理方法,所述档案数据的处理方法包括:

3、获取多个目标数据源的初始档案数据集,并对所述初始档案数据集进行并行化数据预处理以及元数据分类和索引创建,得到初始档案数据分类结果和初始档案数据索引信息;

4、采用sparss算法对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集,并通过sentence-bert模型对所述初始档案数据集进行档案数据特征提取,生成第二档案数据特征集;

5、根据所述第一档案数据特征集和所述第二档案数据特征集对所述初始档案数据集进行知识图谱构建,得到初始数据特征知识图谱,并通过多元自适应回归样条算法对所述初始数据特征知识图谱进行知识图谱优化,得到档案数据特征知识图谱;

6、对所述档案数据特征知识图谱进行关系节点提取,得到多个图谱关系节点,并对所述多个图谱关系节点进行节点聚类分析,得到每个图谱关系节点的目标聚类结果;

7、对所述多个图谱关系节点和所述多个目标数据源进行互相关性分析,得到互相关性分析结果,并根据所述互相关性分析结果对每个图谱关系节点的目标聚类结果进行矩阵转换,生成目标档案数据特征矩阵;

8、将所述目标档案数据特征矩阵输入预置的多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息。

9、第二方面,本申请提供了一种档案数据的处理装置,所述档案数据的处理装置包括:

10、获取模块,用于获取多个目标数据源的初始档案数据集,并对所述初始档案数据集进行并行化数据预处理以及元数据分类和索引创建,得到初始档案数据分类结果和初始档案数据索引信息;

11、处理模块,用于采用sparss算法对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集,并通过sentence-bert模型对所述初始档案数据集进行档案数据特征提取,生成第二档案数据特征集;

12、构建模块,用于根据所述第一档案数据特征集和所述第二档案数据特征集对所述初始档案数据集进行知识图谱构建,得到初始数据特征知识图谱,并通过多元自适应回归样条算法对所述初始数据特征知识图谱进行知识图谱优化,得到档案数据特征知识图谱;

13、分析模块,用于对所述档案数据特征知识图谱进行关系节点提取,得到多个图谱关系节点,并对所述多个图谱关系节点进行节点聚类分析,得到每个图谱关系节点的目标聚类结果;

14、转换模块,用于对所述多个图谱关系节点和所述多个目标数据源进行互相关性分析,得到互相关性分析结果,并根据所述互相关性分析结果对每个图谱关系节点的目标聚类结果进行矩阵转换,生成目标档案数据特征矩阵;

15、优化模块,用于将所述目标档案数据特征矩阵输入预置的多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息。

16、本申请第三方面提供了一种档案数据的处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述档案数据的处理设备执行上述的档案数据的处理方法。

17、本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的档案数据的处理方法。

18、本申请提供的技术方案中,通过并行化数据预处理以及元数据分类和索引创建,极大提高了数据处理的效率。采用apache spark分布式计算框架对初始档案数据集进行并行处理,不仅加速了数据处理速度,还确保了处理过程的高效性和可扩展性。这一技术特征使得档案数据管理系统能够应对大数据时代数据量大、处理要求高的挑战,提升了数据处理的实时性和准确性。通过sparss算法和sentence-bert模型的结合使用,实现了高效准确的档案数据特征提取。sparss算法能够有效挖掘档案数据中的序列模式,而sentence-bert模型则专注于档案数据的语义信息识别和特征提取。这种算法和模型的结合不仅拓宽了档案数据特征的提取范围,还提高了特征提取的深度和准确性,从而为后续的数据分析和知识图谱构建提供了更为丰富和准确的数据特征集。通过多元自适应回归样条算法对知识图谱进行优化,能够有效提升知识图谱的准确性和可用性,使得档案数据中蕴含的知识结构更加清晰,关系定义更加准确。此外,通过关系节点提取和节点聚类分析,进一步增强了知识图谱的分析能力,进而实现了档案数据处理的智能化并提高了档案数据处理的效率。

本文档来自技高网...

【技术保护点】

1.一种档案数据的处理方法,其特征在于,所述档案数据的处理方法包括:

2.根据权利要求1所述的档案数据的处理方法,其特征在于,所述获取多个目标数据源的初始档案数据集,并对所述初始档案数据集进行并行化数据预处理以及元数据分类和索引创建,得到初始档案数据分类结果和初始档案数据索引信息,包括:

3.根据权利要求2所述的档案数据的处理方法,其特征在于,所述采用SPARSS算法对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集,并通过Sentence-BERT模型对所述初始档案数据集进行档案数据特征提取,生成第二档案数据特征集,包括:

4.根据权利要求1所述的档案数据的处理方法,其特征在于,所述根据所述第一档案数据特征集和所述第二档案数据特征集对所述初始档案数据集进行知识图谱构建,得到初始数据特征知识图谱,并通过多元自适应回归样条算法对所述初始数据特征知识图谱进行知识图谱优化,得到档案数据特征知识图谱,包括:

5.根据权利要求4所述的档案数据的处理方法,其特征在于,所述对所述档案数据特征知识图谱进行关系节点提取,得到多个图谱关系节点,并对所述多个图谱关系节点进行节点聚类分析,得到每个图谱关系节点的目标聚类结果,包括:

6.根据权利要求1所述的档案数据的处理方法,其特征在于,所述对所述多个图谱关系节点和所述多个目标数据源进行互相关性分析,得到互相关性分析结果,并根据所述互相关性分析结果对每个图谱关系节点的目标聚类结果进行矩阵转换,生成目标档案数据特征矩阵,包括:

7.根据权利要求1所述的档案数据的处理方法,其特征在于,所述将所述目标档案数据特征矩阵输入预置的多任务优化模型进行数据分类优化和索引信息优化,输出目标档案数据分类结果和目标档案数据索引信息,包括:

8.一种档案数据的处理装置,其特征在于,所述档案数据的处理装置包括:

9.一种档案数据的处理设备,其特征在于,所述档案数据的处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的档案数据的处理方法。

...

【技术特征摘要】

1.一种档案数据的处理方法,其特征在于,所述档案数据的处理方法包括:

2.根据权利要求1所述的档案数据的处理方法,其特征在于,所述获取多个目标数据源的初始档案数据集,并对所述初始档案数据集进行并行化数据预处理以及元数据分类和索引创建,得到初始档案数据分类结果和初始档案数据索引信息,包括:

3.根据权利要求2所述的档案数据的处理方法,其特征在于,所述采用sparss算法对所述初始档案数据集进行序列模式挖掘,得到多个序列模式,并根据所述多个序列模式生成第一档案数据特征集,并通过sentence-bert模型对所述初始档案数据集进行档案数据特征提取,生成第二档案数据特征集,包括:

4.根据权利要求1所述的档案数据的处理方法,其特征在于,所述根据所述第一档案数据特征集和所述第二档案数据特征集对所述初始档案数据集进行知识图谱构建,得到初始数据特征知识图谱,并通过多元自适应回归样条算法对所述初始数据特征知识图谱进行知识图谱优化,得到档案数据特征知识图谱,包括:

5.根据权利要求4所述的档案数据的处理方法,其特征在于,所述对所述档案数据特...

【专利技术属性】
技术研发人员:宋思淼
申请(专利权)人:深圳兴科华创信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1