本发明专利技术公开了一种基于大数据的档案分类管理系统和方法,涉及档案分类技术领域;本发明专利技术通过验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案,根据档案中文字、图像以及视频之间的占比关系,对档案设置数据类型编号并根据三者占比关系对档案进行初次分类,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签,同时对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新,用户根据主题标签检索所需档案,并获取调取密码获得所需档案;进而实现了对档案的自动化分类管理。的自动化分类管理。的自动化分类管理。
【技术实现步骤摘要】
一种基于大数据的档案分类管理系统和方法
[0001]本专利技术涉及档案分类
,具体是一种基于大数据的档案分类管理系统和方法。
技术介绍
[0002]随着电子档案的不断发展,其逐渐取代传统纸质档案在各行各业主要使用地位,进而形成以电子档案为主,纸质档案为辅的档案管理手段,档案的无纸化管理成为未来主要应用已是大势所趋;
[0003]传统的电子档案管理主要针对单一类型的电子档案进行管理,无法有效的实现同时对多种数据类型的档案进行混合存储以及管理,例如在警方建立罪犯的档案时,其档案中包括取证文件、稽查影视等文件,传统的电子档案会通过上述文件分别存储在光盘或u盘,无法很好的根据数据类型分类并进行存储,使得档案的查询过程较为费时费力,为此提供一种基于大数据的档案分类管理系统和方法。
技术实现思路
[0004]为了解决上述技术问题,本专利技术的目的在于提供一种基于大数据的档案分类管理系统和方法。
[0005]为了实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于大数据的档案分类管理系统,包括管控中心,所述管控中心通信连接有档案上传模块、档案分类模块、档案管理模块以及档案调取模块;
[0007]所述档案上传模块设有身份验证单元以及档案验证单元;
[0008]所述身份验证单元用于验证档案上传人员的身份信息,并根据验证结果赋予其档案上传权限;
[0009]所述档案验证单元用于根据档案中的数据类型对档案编号设置数据类型标注,并判断档案中是否存在危险数据;<br/>[0010]所述档案分类模块用于分析档案并建立词义特征点以及图像特征点,进而对档案进行二次分类;
[0011]所述档案管理模块用于对档案设置调取密码,同时根据档案的存储状况自动更新调取密码;
[0012]所述档案调取模块用于监管档案调取过程,并生成档案调取记录。
[0013]进一步的,所述身份信息的验证过程包括:
[0014]档案上传人员通过账户号码和密码向档案上传模块发送登录请求,其中登录请求包括登录时使用的账户号码、密码以及登录请求发送的IP地址;
[0015]将登录请求中的账户号码和IP地址与黑名单进行匹配,若匹配账户号码或IP地址任一项有结果,则驳回登录请求,若匹配账户号码或IP地址都无结果,则进一步判断账户号码与密码之间的对应关系是否正确,根据判断结果档案上传人员上传档案。
[0016]进一步的,所述档案编号的数据类型标注的设置过程包括:
[0017]档案验证单元遍历档案中各项数据的数据类型,设置数据类型占比阈值,对于数据类型占比大于数据类型占比阈值的档案,对其档案编号设置数据类型标注,对于占比小于或等于数据类型占比阈值的数据类型进行自动忽略,根据数据类型的占比在档案的编号第一项开始添加字母,且标注的先后顺序按照档案中对应数据类型占比大小依次进行排列,其中档案的编号在其上传至档案上传模块后自动生成且唯一。
[0018]进一步的,所述词义特征点以及图像特征点的建立过程包括:
[0019]档案分类模块通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,并将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除;
[0020]根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数量小于词义频率阈值的词义去除,统计所有档案的词义种类以及数量,将数量大于或等于词义特征点频率阈值的词义设为词义特征点,将数量小于词义特征点频率阈值的词义去除;并采用与获得词义特征点相同的方法,获得图像特征点。
[0021]进一步的,对所述档案进行二次分类的过程包括:
[0022]根据词义特征点和图像特征点设置若干个主题特征集,其中主题特征集由若干个词义特征点、若干个图像特征点以及主题名称组成;
[0023]档案分类模块首先通过词义特征点遍历所有档案,设置词义特征点阈值,进而统计所有档案中包含的词义特征点数量,若档案中词义特征点数量小于词义特征点阈值,则判断不包含对应词义特征点,若档案中词义特征点数量大于或等于词义特征点阈值,则判断档案包含对应词义特征点;并采用与词义特征点相同的方法判断档案是或否包含对应的图像特征点;
[0024]根据各个档案包含的词义特征点以及图像特征点匹配对应的主题特征集,并根据主题特征集的名称对档案设置主题标签。
[0025]进一步的,所述调取密码的自动更新过程包括:
[0026]每当有新的档案传输至档案管理模块时,档案管理模块对所有档案当前的调取密码的前两位进行取模随机变换得到随机数,进而得到的一个新的调取密码并将其发送至档案调取模块。
[0027]进一步的,所述档案的调取过程包括:
[0028]用户通过检索主题标签找寻所选的档案后,需根据所选档案的编号向档案调取模块发送档案调取密码获取请求,档案调取模块根据档案的编号将对应的调取密码发送至用户,进而用户根据调取密码查看档案。
[0029]进一步的,所述的一种基于大数据的档案分类管理系统的档案分类管理方法,包括以下步骤:
[0030]步骤一,验证档案上传人员的身份信息并赋予其档案上传权限,进而档案上传人员上传档案;
[0031]步骤二,根据档案中文字、图像以及视频之间的占比关系,对其设置数据类型编号并根据三者占比关系对档案进行初次分类;
[0032]步骤三,根据档案建立词义特征点、图像特征点以及主题特征集,进而对档案进行特征点提取以及二次分类,并对各个档案设置主题标签;
[0033]步骤四,对各个档案设置调取密码,且每当存储新的档案时,对其他所有档案的调取密码进行更新;
[0034]步骤五,用户根据主题标签检索所需档案,并获取调取密码获得所需档案。
[0035]与现有技术相比,本专利技术的有益效果是:
[0036]1、本专利技术通过统计档案中文字、图像以及视频之间的占比关系对档案进行初步分类,并根据初步分类结果提取词义特征点以及图像特征点对档案进行二次分类,一定程度上提高了档案的分类结果的可信度以及精确度,同时将档案中的文字、图像以及视频统一进行存储,使得档案的查询以及存储过程得到了一定程度上的简化;
[0037]2、本专利技术通过对各个档案设置不同的调取密码,用户需通过申请调取密码才能查看档案,同时设置调取密码自动更新机制,每当新的档案存储时,更新其他所有档案的调取密码,进而提高了档案的安全性和保密性。
附图说明
[0038]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术的原理图。
具体实施方式
[本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的档案分类管理系统,包括管控中心,其特征在于,所述管控中心通信连接有档案上传模块、档案分类模块、档案管理模块以及档案调取模块;所述档案上传模块设有身份验证单元以及档案验证单元;所述身份验证单元用于验证档案上传人员的身份信息,并根据验证结果赋予其档案上传权限;所述档案验证单元用于根据档案中的数据类型对档案编号设置数据类型标注,并判断档案中是否存在危险数据;所述档案分类模块用于分析档案并建立词义特征点以及图像特征点,进而对档案进行二次分类;所述档案管理模块用于对档案设置调取密码,同时根据档案的存储状况自动更新调取密码;所述档案调取模块用于监管档案调取过程,并生成档案调取记录。2.根据权利要求1所述的一种基于大数据的档案分类管理系统,其特征在于,所述身份验证单元验证档案上传人员的身份信息的验证过程包括:档案上传人员通过账户号码和密码向档案上传模块发送登录请求,其中登录请求包括登录时使用的账户号码、密码以及登录请求发送的IP地址;将登录请求中的账户号码和IP地址与黑名单进行匹配,若匹配账户号码或IP地址任一项有结果,则驳回登录请求,若匹配账户号码或IP地址都无结果,则进一步判断账户号码与密码之间的对应关系是否正确,根据判断结果档案上传人员上传档案。3.根据权利要求1所述的一种基于大数据的档案分类管理系统,其特征在于,所述档案验证单元根据档案中的数据类型对档案编号的设置数据类型标注的过程包括:档案验证单元遍历档案中各项数据的数据类型,设置数据类型占比阈值,对于数据类型占比大于数据类型占比阈值的档案,对其档案编号设置数据类型标注,对于占比小于或等于数据类型占比阈值的数据类型进行自动忽略,根据数据类型的占比在档案的编号第一项开始添加字母,且标注的先后顺序按照档案中对应数据类型占比大小依次进行排列,其中档案的编号在其上传至档案上传模块后自动生成且唯一。4.根据权利要求1所述的一种基于大数据的档案分类管理系统,其特征在于,所述档案分类模块对词义特征点以及图像特征点的建立过程包括:档案分类模块通过遍历档案中的文字数据并设置关键字频率阈值、词义频率阈值以及词义特征点频率阈值,进而档案分类模块首先统计档案的各个文字的数量,并将数量大于或等于关键字频率阈值的文字保留,将数量小于关键字频率阈值的文字去除;根据保留的文字统计各个档案的词义数量,其中词义由两个以上的关键字组成,将数量大于或等于词义频率阈值的词义保留,将数...
【专利技术属性】
技术研发人员:杨吉伟,蒋卫星,成昌发,
申请(专利权)人:东莞市铁石文档科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。