【技术实现步骤摘要】
一种数字档案智能信息挖掘方法
[0001]本专利技术涉及数字档案挖掘
,具体为一种数字档案智能信息挖掘方法
。
技术介绍
[0002]数字档案馆具有馆藏资源数字化
、
信息组织与传输网络化
、
服务范围扩大化
、
信息资源共享化
、
信息检索便捷化等诸多特点,数字档案馆是指存储和利用档案信息资源的信息空间,是一个由众多档案资源库群
、
档案信息资源处理中心
、
档案用户群构成的数字档案馆群体
。
[0003]数字档案馆是一个内容管理系统
、
集成系统和数字信息长期保存系统的集合,作为以电子文件
、
档案以及其他信息资源等非结构化数据为主要管理对象的数字档案馆,它不仅仅起到一个数据中心的作用,也不仅仅起到发布利用的作用,而是具有有序处理和集成管理的功能,它的有序处理和管理过程包括收集
、
创建
、
确认
、
转换
、
【技术保护点】
【技术特征摘要】
1.
一种数字档案智能信息挖掘方法,其特征在于:包括以下步骤,步骤一
、
数据预处理,将数字档案中的数据进行预处理,对数字档案中音频以及视频进行降噪,对文字文档以及图片进行词形还原,同时对数字档案中文字数据进行提取;步骤二
、
档案分类,将数字档案中的文本数据按照预定义的类别进行分类;步骤三
、
档案信息提取,从数字档案中提出关键信息以及属性;步骤四
、
档案标记,对数字档案中识别出特定意义进行标记;步骤五
、
档案摘要,对数字档案中文本
、
图片
、
音频以及视频中文字中提取,并且基于统计方法以及图模型对数字档案中的内壁中的内容进行摘取;步骤六
、
档案分析,对多个数字档案中的文本数据之间的关联性以及规律进行分析,对步骤二中分类完成的相同数字档案中不同规律的信息进行提出,通过搜索引擎对不同规律中的信息进行检索,将检索到的信息进行整理,并将整理后的信息进行简化后缀到不同规律文字后方;步骤七
、
档案记录,人员将数据档案信息查阅后并上传到数据库,同时对相应档案进行分类,便于步骤六中档案分析时从数据库内部调取信息并且增加数据库中不同档案的规则信息进行完善
。2.
根据权利要求1所述的一种数字档案智能信息挖掘方法,其特征在于:通过步骤一人员将数字档案中音频
、
视频
、
文档以及图片中提取到的文字中无关符号图标以及无关词语进行去除
。3.
根据权利要求1所述的一种数字档案智能信息挖掘方法,其特征在于:所述步骤二中人员可以...
【专利技术属性】
技术研发人员:李燕强,齐少华,马国伟,张泽宇,
申请(专利权)人:北京因朵数智档案科技产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。