一种数字档案智能信息挖掘方法技术

技术编号:39814569 阅读:6 留言:0更新日期:2023-12-22 19:32
本发明专利技术公开了一种数字档案智能信息挖掘方法,本发明专利技术涉及数字档案挖掘技术领域,包括以下步骤:步骤一,数据预处理;步骤二,档案分类;步骤三,档案信息提取;步骤四,档案标记;步骤五,档案摘要;步骤六,档案分析;步骤七,档案记录,本发明专利技术的优点在于:通过人员在将数字档案输入到数据库中时,对数字档案进行设置,使得数字档案设置成可被档案分析中进行提取的数字档案以及不可被提取数字档案,通过档案分析对数据库中相同类型的数字档案信息提取,通过多个数字档案与现有档案之间进行分析,便于提高发现档案中隐藏信息,利用搜索引擎对档案中隐藏信息进行检索,达到了人员快速对数字档案中隐藏信息进行查阅以及理解的效果

【技术实现步骤摘要】
一种数字档案智能信息挖掘方法


[0001]本专利技术涉及数字档案挖掘
,具体为一种数字档案智能信息挖掘方法


技术介绍

[0002]数字档案馆具有馆藏资源数字化

信息组织与传输网络化

服务范围扩大化

信息资源共享化

信息检索便捷化等诸多特点,数字档案馆是指存储和利用档案信息资源的信息空间,是一个由众多档案资源库群

档案信息资源处理中心

档案用户群构成的数字档案馆群体

[0003]数字档案馆是一个内容管理系统

集成系统和数字信息长期保存系统的集合,作为以电子文件

档案以及其他信息资源等非结构化数据为主要管理对象的数字档案馆,它不仅仅起到一个数据中心的作用,也不仅仅起到发布利用的作用,而是具有有序处理和集成管理的功能,它的有序处理和管理过程包括收集

创建

确认

转换

存档

管理

发布利用等涵盖文件生命周期管理实践的全过程,集成含综合

融合

整合成为整体和一体化的意思,就数字档案馆而言,就是将集成管理理论应用于涵盖文件档案信息资源生命周期管理实践的全过程,即在管理思想上以集成理论为指导,在管理行为上以集成机制为核心,在管理视野上突破管理业务流程机构部门间的限制,并从全程管理和最优化管理的层面来对待各种档案信息资源要素,提高各种管理要素的交融度,以利于优化和增强档案信息资源的真实性

完整性

有效性和有序性,最终提供以用户需求为导向的档案信息集成服务

[0004]但是现有的数字档案挖掘方式,不便于人员在对数字档案进行查阅时,数字档案信息中隐藏信息及时查阅和不便于理解的情况出现,可能导致人员对隐藏信息遗漏的问题,为此,我们提出一种数字档案智能信息挖掘方法


技术实现思路

[0005]本专利技术的目的在于提供一种数字档案智能信息挖掘方法

[0006]以解决上述
技术介绍
中提出的问题,本专利技术提供如下技术方案:一种数字档案智能信息挖掘方法,包括以下步骤,步骤一

数据预处理,将数字档案中的数据进行预处理,对数字档案中音频以及视频进行降噪,对文字文档以及图片进行词形还原,同时对数字档案中文字数据进行提取;步骤二

档案分类,将数字档案中的文本数据按照预定义的类别进行分类;步骤三

档案信息提取,从数字档案中提出关键信息以及属性;步骤四

档案标记,对数字档案中识别出特定意义进行标记;步骤五

档案摘要,对数字档案中文本

图片

音频以及视频中文字中提取,并且基于统计方法以及图模型对数字档案中的内壁中的内容进行摘取;步骤六

档案分析,对多个数字档案中的文本数据之间的关联性以及规律进行分析,对步骤二中分类完成的相同数字档案中不同规律的信息进行提出,通过搜索引擎对不同规律中的信息进行检索,将检索到的信息进行整理,并将整理后的信息进行简化后缀到
不同规律文字后方;步骤七

档案记录,人员将数据档案信息查阅后并上传到数据库,同时对相应档案进行分类,便于步骤六中档案分析时从数据库内部调取信息并且增加数据库中不同档案的规则信息进行完善

[0007]作为本专利技术的进一步方案:通过步骤一人员将数字档案中音频

视频

文档以及图片中提取到的文字中无关符号图标以及无关词语进行去除

[0008]作为本专利技术的进一步方案:所述步骤二中人员可以通过机器学习算法对不同类型的数字档案进行文本分类

[0009]作为本专利技术的进一步方案:所述步骤三中对数字档案中规则信息以及表达信息进行提取

[0010]作为本专利技术的进一步方案:所述步骤四中对数字档案中的人名信息

地名信息以及时间信息进行标记,便于人员快速查看档案时,对数字档案中关键信息快速查阅

[0011]作为本专利技术的进一步方案:所述步骤五中通过算法和训练数据的质量,利用
TextRank、BERT、GPT
软件使用自然语言处理和机器学习算法来识别文本中的重要内容,并排除不相关的细节,提高数字档案中提取摘要的准确性

[0012]作为本专利技术的进一步方案:通过数字档案进行分析时,对步骤二中分类后的数字档案进行提取并且,对多个数字档案中相关信息进行分析,当分析中的数字档案与分类中的数字档案的区别

[0013]作为本专利技术的进一步方案:通过对不同规则信息进行分析后,利用搜索引擎对数字档案中意思不相同的信息进行检索,然后将检索后的信息进行简化后标注在不同信息的后方,便于人员对档案进行浏览时对数字档案中隐藏信息进行快速预览

[0014]作为本专利技术的进一步方案:所述步骤七中数据库的数字档案进行相应分类成可调取数字档案以及不可调取数字档案,便于步骤六中对档案分析时对可调取数字档案进行调取,对数据库进行完善,提高数字档案分析的准确性

[0015]采用上述技术方案,与现有技术相比,本专利技术的有益效果在于:本专利技术中人员将数字档案模板输入到数据库中时,对数字档案进行设置,使得数字档案设置成可被档案分析中进行提取的数字档案以及不可被提取数字档案,通过档案分析对数据库中相同类型的数字档案信息提取,通过多个数字档案与现有档案之间进行分析,便于提高发现档案中存在的隐藏信息,从而便于人员对该档案中隐藏信息进行查阅,利用搜索引擎对档案中隐藏信息进行检索,同时将检索到的隐藏信息标注在信息后方,达到了人员快速对数字档案中隐藏信息进行查阅以及理解的效果;本专利技术通过步骤二

步骤三

步骤四以及步骤五,分别对数字档案转换成文档,利用标记将数字档案中规则信息以及表达信息进行提取,便于人员查阅档案信息时,对特殊的信息进行及时观察,利用对人名信息

地名信息以及时间信息进行标记,便于人员通过人名信息

地名信息以及时间信息查阅时快速移动相应位置,利用摘要提取便于人员对档案整体进行快速预览,观察该档案是否需要,能够让人员快速对档案内容进行查阅;本专利技术通过档案分析完成后,人员对档案进行查阅,同时对隐藏信息是否需要进行标注,当档案中隐藏信息不可被当做参考档案时,则人员将数字档案信息记录在不可被调取信息的数据库中,反之记录在可被调取的信息数据库中,当档案进行分析时,软件从数
据库中可被调取的档案与现有档案数据进行对比,从而提高对数字档案中隐藏信息的分析准确性

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数字档案智能信息挖掘方法,其特征在于:包括以下步骤,步骤一

数据预处理,将数字档案中的数据进行预处理,对数字档案中音频以及视频进行降噪,对文字文档以及图片进行词形还原,同时对数字档案中文字数据进行提取;步骤二

档案分类,将数字档案中的文本数据按照预定义的类别进行分类;步骤三

档案信息提取,从数字档案中提出关键信息以及属性;步骤四

档案标记,对数字档案中识别出特定意义进行标记;步骤五

档案摘要,对数字档案中文本

图片

音频以及视频中文字中提取,并且基于统计方法以及图模型对数字档案中的内壁中的内容进行摘取;步骤六

档案分析,对多个数字档案中的文本数据之间的关联性以及规律进行分析,对步骤二中分类完成的相同数字档案中不同规律的信息进行提出,通过搜索引擎对不同规律中的信息进行检索,将检索到的信息进行整理,并将整理后的信息进行简化后缀到不同规律文字后方;步骤七

档案记录,人员将数据档案信息查阅后并上传到数据库,同时对相应档案进行分类,便于步骤六中档案分析时从数据库内部调取信息并且增加数据库中不同档案的规则信息进行完善
。2.
根据权利要求1所述的一种数字档案智能信息挖掘方法,其特征在于:通过步骤一人员将数字档案中音频

视频

文档以及图片中提取到的文字中无关符号图标以及无关词语进行去除
。3.
根据权利要求1所述的一种数字档案智能信息挖掘方法,其特征在于:所述步骤二中人员可以...

【专利技术属性】
技术研发人员:李燕强齐少华马国伟张泽宇
申请(专利权)人:北京因朵数智档案科技产业发展有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1