一种缺损档案的录入方法与系统技术方案

技术编号:40318700 阅读:17 留言:0更新日期:2024-02-07 21:01
本发明专利技术涉及档案归档技术领域,公开了一种缺损档案录入方法与系统,主要实现以下功能:对纸质档案进行扫描识别,得到原始数据集;对提取到的原始数据集进行预处理,得到清晰‑模糊混合型数据;通过k‑NN填补算法对预处理后的清晰‑模糊混合型数据进行缺损填补,得到补全档案;将填补完成的补全档案进行分词、降维并综合主题相关性和词性得到档案关键词和关键词的特征值;通过对特征值降维得到二进制特征值指纹,计算特征值指纹的海明距离度量档案相似度,进行档案重复性检测;对通过重复性检测的档案,基于档案的关键词对所述档案进行自动分档。本发明专利技术使得纸质档案能够被更好地保存和研究利用,同时保证了存储空间不会被浪费。

【技术实现步骤摘要】

本专利技术涉及一种档案归档,具体是涉及一种缺损档案的录入方法与系统


技术介绍

1、随着信息技术以及信息产业的高速发展,档案信息化成为档案管理的必然发展趋势。在很多机构中留存有大量纸质档案,这些档案积累了大量有价值的数据信息,将纸质档案转换为电子档案可以延长档案寿命,也方便后续进行档案管理、检索和档案数据挖掘工作。纸质档案由于时间因素和人为疏忽,必然存在缺损和数据模糊,这不利于后续使用电子档案,例如进行数据挖掘,传统的数据挖掘算法处理的数据训练样本要求数据的完备性,对含有缺失信息的数据多采用直接删除的方式处理,导致过往档案中蕴含的丰富信息难以被有效利用。此外,对纸质档案不加筛选的直接录入可能会导致整个系统中存在大量重复的数据,造成了极大的存储空间的浪费。因此,需要提供一种针对破损档案的录入方法与系统,旨在解决上述问题。


技术实现思路

1、针对现有技术存在的不足,本专利技术的目的在于提供一种破损档案的录入方法与系统,以解决上述
技术介绍
中存在的问题。

2、本专利技术是这样实现的,一种破损档案的录入方法本文档来自技高网...

【技术保护点】

1.一种缺损档案录入方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种缺损档案录入方法,其特征在于,所述对提取到的原始数据集进行预处理,将档案内容分列写入表格;对含义表示相同的属性合并;对数值型数据和符号型数据依照设定的规范赋值。

3.根据权利要求1所述的一种缺损档案录入方法,其特征在于,所述通过k-NN填补算法对预处理后的清晰-模糊混合型数据进行缺损填补,得到补全档案,具体步骤为:

4.根据权利要求3所述的一种缺损档案录入方法,其特征在于,所述将填补完成的补全档案进行分词、降维,具体步骤为:

5.根据权利要求4所述的一...

【技术特征摘要】

1.一种缺损档案录入方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种缺损档案录入方法,其特征在于,所述对提取到的原始数据集进行预处理,将档案内容分列写入表格;对含义表示相同的属性合并;对数值型数据和符号型数据依照设定的规范赋值。

3.根据权利要求1所述的一种缺损档案录入方法,其特征在于,所述通过k-nn填补算法对预处理后的清晰-模糊混合型数据进行缺损填补,得到补全档案,具体步骤为:

4.根据权利要求3所述的一种缺损档案录入方法,其特征在于,所述将填补完成的补全档案进行分词、...

【专利技术属性】
技术研发人员:周海炜张轶杨志勇石莉萍
申请(专利权)人:南京瑞拷得智慧信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1