System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种档案数据分析管理方法及系统技术方案_技高网

一种档案数据分析管理方法及系统技术方案

技术编号:40138881 阅读:6 留言:0更新日期:2024-01-23 23:18
本发明专利技术公开了一种档案数据分析管理方法及系统,具体涉及大数据技术领域,对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取,将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型,选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案。

【技术实现步骤摘要】

本专利技术涉及大数据,更具体地说,本专利技术涉及一种档案数据分析管理方法及系统


技术介绍

1、随着信息技术的发展和应用,各行各业积累了大量的档案数据。档案数据作为组织和机构的重要资产,对于决策、管理和保护具有重要意义。然而,传统的档案管理方法往往存在信息碎片化、数据冗余、难以查询和利用等问题。因此,研究开发一种高效的档案数据分析管理方法及系统已成为迫切需求。

2、通过结合数据分析和管理技术,实现对档案数据的全面分析、智能化管理和有效利用,提高档案工作效率和服务质量。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术的实施例提供一种档案数据分析管理方法及系统,通过结合数据分析和管理技术,实现对档案数据的全面分析、智能化管理和有效利用,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案,一种档案数据分析管理方法,具体包括以下步骤:

3、对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中;

4、对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取;

5、将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型;

6、选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限;

7、其中所述通过统计每个词在档案中出现的频率,得到词频的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:

8、;其中,表示词频,表示词t在档案d中出现的次数,d表示档案,n表示档案d中所有词的总数。

9、在一个优选地实施方式中,所述对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中的步骤,包括通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并将处理后的档案数据存储在共享数据池中,具体步骤如下:

10、步骤a1、对于纸质档案:通过扫描仪将档案转换成电子文件,利用光学字符识别技术将电子文件中的文字内容提取出来;

11、步骤a2、对于电子档案:当电子档案存储在第三方平台上,通过与平台的接口进行数据集成;

12、步骤a3、清洗:去除档案文字内容中的特殊符号和标点符号,以及空格、制表符和换行符,并将字母统一转换成小写形式,针对存在的拼写错误,使用拼写检查工具对文字内容进行检查和修正,确保档案中的单词拼写正确。

13、在一个优选地实施方式中,所述对档案数据进行关键词提取,通过统计每个词在档案中出现的频率,得到词频,通过在获取到的档案中统计包含词的档案数,得到逆文档频率,将词频和逆文档频率相乘得到的值作为每个词的权重,选择权重高的词作为关键词进行提取的步骤,包括使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的值作为每个词的权重,对计算得到的进行排序,选择权重高的词作为关键词进行提取,具体步骤如下:

14、步骤b1、词频统计:使用哈希表来记录每个词的频次,统计每个词在档案中出现的频率,创建一个空的哈希表,用于记录每个词的频次,遍历档案中的每个词,对于每个词,检查是否已经在哈希表中出现过,当已经在哈希表中出现过,将对应的频次加一,否则将该词添加到哈希表,并将频次初始化为1,遍历完成后,哈希表中存储了每个词的频次信息,词频计算公式如下:

15、,

16、其中,表示词频,表示词t在档案d中出现的次数,d表示档案,n表示档案d中所有词的总数;

17、步骤b2、在获取到的档案中统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,将每个词的值作为每个词的权重,对计算得到的进行排序,选择权重高的词作为关键词,具体计算公式如下:

18、,

19、,

20、,

21、其中,表示词频,表示逆文档频率,表示词频和逆文档频率相乘得到的值,表示词t在档案d中出现的次数,t表示词,d表示档案,n表示档案d中所有词的总数,d表示所有档案的总数,表示包含词t的档案数。

22、在一个优选地实施方式中,所述将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型的步骤,包括:

23、步骤c1、档案分类模型:将得到的权重作为支持向量机的输入进行分类,对于训练集,其中表示第n个档案的权重,表示第n个档案的类别标签,使用支持向量机分类器的数学公式进行分类,在最大化分类间隔的同时,减小分类误差和间隔误差支持向量机将找到一个最佳的超平面,使得所有样本点到这个超平面的距离最大化,实现对样本的有效分类,具体计算公式如下:

24、,

25、,

26、其中,w是模型的权重向量,b是模型的偏置,表示第i个档案的权重,表示第i个档案的类别标签,是松弛变量,c是惩罚参数,表示最小化函数,表示约束条件。

27、在一个优选地实施方式中,所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联,以监听用户的输入信号,根据用户的输入信号,判断用户是否需要查看某个档案,对于不同的用户,设定查看档案权限的步骤,包括,设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体步骤如下:

28、步骤d1、关联关键词权重:将每个档案与一组关键词相关联,对于n个关键词,每个关键词的值分别用进行表示,对应的出现次数用表示,每个用户有一个权限级别l,表示其在组织结构中的级别,通过计算得到加权平均值,代表关键词权重的整体平均水平,具体计算公式如下:

29、,

30、其中,表示关键词权重加权平均值,代表第i个关键词的权重,代表第i个关键词的出现次数,n代表关键词的总数;

31、步骤d2、设定阈值:通过对一组关键词权重的样本数据,计算均值和标准差,根据正态分布曲线来设定一个阈值w,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,具体包括以下步骤:

32、步骤s1、根据一组关键词权重的样本数据,计算均值和标准差,具体计算公式如下:本文档来自技高网...

【技术保护点】

1.一种档案数据分析管理方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种档案数据分析管理方法,其特征在于:所述对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,包括通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并存储在共享数据池中。

3.根据权利要求2所述的一种档案数据分析管理方法,其特征在于:所述对档案数据进行关键词提取的步骤,包括统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,作为每个词的权重,对计算得到的进行排序,选择权重高的词作为关键词进行提取,具体计算公式如下:

4.根据权利要求3所述的一种档案数据分析管理方法,其特征在于:所述将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型的步骤,包括:

5.根据权利要求4所述的一种档案数据分析管理方法,其特征在于:所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联的步骤,包括将每个档案与一组关键词相关联,通过设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,对于n个关键词,每个关键词的值分别用进行表示,对应的出现次数用表示,每个用户有一个权限级别L,表示其在组织结构中的级别,通过计算得到加权平均值,代表关键词权重的整体平均水平,具体计算公式如下:

6.根据权利要求5所述的一种档案数据分析管理方法,其特征在于:所述通过设定一个阈值,表示只有当关键词权重加权平均值高于该阈值,特定权限级别的用户才能够查看档案,通过对一组关键词权重的样本数据,计算均值和标准差,根据正态分布曲线来设定一个阈值W,具体包括以下步骤:

7.根据权利要求6所述的一种档案数据分析管理方法,其特征在于:所述特定权限级别的用户才能够查看档案的步骤,包括确定是否允许用户查看某个档案,使用以下逻辑判断:

8.一种档案数据分析管理系统,其特征在于,包括:

...

【技术特征摘要】

1.一种档案数据分析管理方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种档案数据分析管理方法,其特征在于:所述对获取到的档案进行处理,并将经所述处理后得到的档案数据存储在共享数据池中,包括通过光学字符识别技术将电子档案中的文字内容进行提取,得到档案,利用文本清洗技术对获取到的档案进行处理,并存储在共享数据池中。

3.根据权利要求2所述的一种档案数据分析管理方法,其特征在于:所述对档案数据进行关键词提取的步骤,包括统计包含词的档案数,计算出逆文档频率,将词频和逆文档频率相乘得到每个词的值,作为每个词的权重,对计算得到的进行排序,选择权重高的词作为关键词进行提取,具体计算公式如下:

4.根据权利要求3所述的一种档案数据分析管理方法,其特征在于:所述将确定出的关键词对应的权重值,作为支持向量机的输入,分类标签作为监督学习的训练数据,训练出一个档案分类模型的步骤,包括:

5.根据权利要求4所述的一种档案数据分析管理方法,其特征在于...

【专利技术属性】
技术研发人员:谭志勇陈家祺陈鹏胡敏章艳姜珍云
申请(专利权)人:江西驱动交通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1