当前位置: 首页 > 专利查询>青岛大学专利>正文

一种档案自动编研方法技术

技术编号:11049322 阅读:206 留言:0更新日期:2015-02-18 14:33
本发明专利技术属于档案分类与检索技术领域,涉及一种基于B/S架构档案管理信息系统的档案自动编研方法;首先按照案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案信息,再由档案录入与管理模块利用自动层次分类算法对档案信息进行自动分类和汇总,并分别存入相对应的数据库中;然后档案编研模块根据用户输入的编研条件和存入的信息对相应数据库进行检索、查询并汇总生成档案编研结果,最后将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出打印后形成纸质文档保存,实现档案的自动编研;其设计原理科学可靠,编研劳动强度小,工作效率高,信息疏漏少,保证编研的质量和价值,编研效率高,编研环境友好。

【技术实现步骤摘要】

:本专利技术属于档案分类与检索
,涉及一种基于B/S架构档案管理信息系统的档案自动编研方法,为档案汇编和档案文摘汇编提供由计算机软件完成的档案自动编研技术。
技术介绍
:基于B/S架构的档案管理信息系统是传统档案馆功能在信息化社会的延伸,既具有传统档案馆的基本属性和功能,又能适应信息时代的发展需要,在实现常规档案数字化管理的同时,通过互联网和建立数字档案存储数据库实现对各部门及各类档案信息的收集、存储、管理和利用,为档案资源的利用提供信息化服务。面向档案利用的档案编研工作是档案馆/室根据档案利用的实际需求,以档案馆/室库藏档案为基础,以汇编档案参考资料为成果形式的一项专门工作。档案编研工作的实质是对档案文件的内容进行研究和加工整理,并编研成册,使之一目了然,以提高执政部门和单位综合管理水平和工作效率,增强档案资源对社会的服务价值。目前,档案编研工作主要是以人工编研为主,其速度慢,效率低,编研质量差。传统的人工档案编研方法按照对档案的加工层次分为2种,第一种档案编研的加工方法是在原始档案的基础上摘录、缩编和剪辑,形成概要性材料;其加工档案编研的成果形式有:发文汇集、专题汇编、专题档案文摘汇编,其中包括某一领域的专家学者及学术论文文摘汇编、科技成果文摘汇编等等;第二种档案编研的加工方法是需要在对原始档案资料的有关内容进行分析、研究和归纳的基础上,编写出新的材料;其加工档案编研成果形式有:年鉴、组织沿革、史志和综合性技术经济调研报告等。在第二种档案编研的加工成果形式中由于包含了人们对事物的新认识、新观点、新的结论和新的建议等新内容,从信息量的角度来看这些都是新增加的信息,所以这种档案编研加工一般是由相关领域的专家或学者完成。而第一种加工档案编研成果包含的信息是档案中已有的信息,不会增加信息量,不产生新的内容,力求做到“全、精、准”,不能有疏漏,编研的内容要全面、细致,宁多勿漏,并且随着时间的延续,需要编研的原始档案材料积累将会达到海量数据量,对于海量数据由人工进行编研稍有大意就会造成信息遗漏或出错,不能保证档案编研成果的质量和价值,其劳动强度大,工作效率低,编研准确率差,制约了档案资源在海量数据规模和更高技术水平上的充分开发和利用,人力成本很高。
技术实现思路
:本专利技术的目的在于克服现有技术存在的缺点,寻求设计提供一种基于档案管理信息系统的档案自动编研方法,采用计算机自动分类和检索技术自动生成档案编研成果形式,提高档案编研效率和准确率,减少人工编研时的信息疏漏。为了实现上述目的,本专利技术在基于B/S架构的档案管理信息系统中由档案录入与管理模块和档案编研模块联合实现档案自动编研,其具体步骤为:(1)先进行档案信息录入,按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息;(2)再由档案录入与管理模块利用本专利技术提出的自动层次分类算法自动对步骤(1)录入的档案信息进行分类和汇总,并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中;(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果;(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档案的自动编研。本专利技术提出的自动层次分类算法是对现有常规的朴素贝叶斯算法的改进,朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进行分类,分类时将预测样本根据预测结果划分到特定文档类别概率最高的类别库中。本专利技术涉及的朴素贝叶斯算法的具体分类模型如下:给定一个未知类别的档案文本X,设有m个类别,记为C1,C2,……,Cm,根据朴素贝叶斯分类定律,在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下:P(Ci|X)=P(X|Ci)P(Ci)P(X)]]>在P(Ci|X)计算公式中,P(X)是常数,因此只需要将分子P(X|Ci)P(Ci)最大化即可;P(Ci)是训练集中的类别分布概率,计算公式为:式中分子为类别|Ci|包含的文本数加1,分母为m个类别与|D|为训练集中所包含的文本总数之和;为了简化P(X|Ci)的计算过程,假定文本的多个属性是相互无关的,因此,计算P(X|Ci)就是推算特征属性在类别Ci上出现的概率,使用拉普拉斯估计的2种计算模型来推算P(X|Ci)的值:(1)多变量模型,统计特征属性在文本中是否出现过,若出现记为1,否则记为0。计算公式为:P(X|Ci)=Πt=1|v|(BxtP(wt|Ci)+(1-Bxt)(1-P(wt|Ci)))]]>其中,|V|代表特征值总的数量,Bxt是wt在文本X中出现的标记,若wt出现则Bxt记为1,否则记为0,wt代表第t个特征,即向量的第t个分量,因此,式中的(Pwt|Ci)计算公式如下:(2)多项式模型(Multinomial Model)则统计特征属性在文本中的出现次数,计算公式为:P(X|Ci)=Πt=1|v|P(wt|Ci)NxtNxt!]]>其中,Nxt代表了特征t在文本X中出现的次数;P(wt|Ci)的计算公式如下:P(wt|Ci)=1+Σj=1|D|NjtP(Ci|dj)|V|+Σs=1|V|Σj=1|D|NjsP(Ci|dj);]]>在P(wt|Ci)的计算公式中,Njt为特征t在文本dj中曾出现的次数,|D|为训练文本总数,|V|为特征总数,Njs是特征s在文本dj中的出现次数;该分类方法的实质是对文本对象中的所有特征值进行统计并映射到已存在的各个类别中的概率。本专利技术在档案录入管理模块中对朴素贝叶斯算法进行了改进,实现基于案卷目录标题及关键词粗分类的自动层次分类算法,直接从案卷目录以及卷内目录的题目提取关键词集,构建层次化分类模型,在适当的降维后以低的特征维度达到分类效果,取代传统文本分类算法的中文分词,有效提高档案文献的分类精度和运行效率;所述的基于案卷目录标题及关键词粗分类的自动层次分类算法的实现流程如下:(1)先在本地或在线录入档案信息,按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属分类、档号本文档来自技高网
...
一种档案自动编研方法

【技术保护点】
一种档案自动编研方法,其特征在于在基于B/S架构的档案管理信息系统中由档案录入与管理模块和档案编研模块联合实现档案自动编研,其具体步骤为:(1)先进行档案信息录入,按照系统显示的案卷目录、卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分类、档号、年度和专家情况各类基本信息;(2)再由档案录入与管理模块利用本专利技术提出的自动层次分类算法自动对步骤(1)录入的档案信息进行自动分类和汇总,并分别存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库中;(3)再由档案编研模块根据用户输入的编研条件和存入的信息对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数据库进行检索、查询并汇总生成档案编研结果;(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档案的自动编研。

【技术特征摘要】
1.一种档案自动编研方法,其特征在于在基于B/S架构的档案
管理信息系统中由档案录入与管理模块和档案编研模块联合实现档
案自动编研,其具体步骤为:
(1)先进行档案信息录入,按照系统显示的案卷目录、卷内目
录和专家登记卡界面给出的统一格式分别录入档案标题、档案所属分
类、档号、年度和专家情况各类基本信息;
(2)再由档案录入与管理模块利用本发明提出的自动层次分类
算法自动对步骤(1)录入的档案信息进行自动分类和汇总,并分别
存入相对应的档案目录、卷内目录与专家基本信息登记目录数据库和
专家数据库中;
(3)再由档案编研模块根据用户输入的编研条件和存入的信息
对相应档案目录、卷内目录与专家基本信息登记目录数据库和专家数
据库进行检索、查询并汇总生成档案编研结果;
(4)将档案编研结果显示在屏幕上,或将档案编研结果以Word
文档或Excel报表的形式导出后打印输出形成纸质文档保存,实现档
案的自动编研。
2.根据权利要求1所述的档案自动编研方法,在档案录入管理
模块中对朴素贝叶斯算法进行了改进,提出了基于案卷目录标题及关
键词粗分类的自动层次分类算法,其特征在于直接从案卷目录以及卷
内目录的题目提取关键词集,构建层次化分类模型,在适当的降维后
以低的特征维度达到分类效果,取代朴素贝叶斯算法的中文分词,有
效提高档案文献的分类精度和运行效率;所述的自动层次分类算法的
实现流程如下:
(1)先在本地或在线录入档案信息,按照系统显示的案卷目录、
卷内目录和专家登记卡界面给出的统一格式分别录入档案标题、所属
分类、档号、年度和专家的各类基本信息;
(2)系统自动提取档案标题及档案文本中的关键词的文本数据
特征参数集并保存在相应的数据库中;
(3)对提取的文本数据特征参数集超过阈值时进行降维,过多
的特征往往会导致维数灾难,使分类的效率降低;
(4)根据提取的文本数据特征参数或关键词执行朴素贝叶斯分
类算法的粗分类;
(5)在步骤(4)粗分类结果上再分别针对每一子类进行特征抽
取;
(6)再针对各个子类的文本数据特征参数执行朴素贝叶斯分类
算法自动完成细分类;
(7)输出分类结果并保存到相对应的数据库中;
所述朴素贝叶斯算法是指分类时考虑文本的所有特征对文本进
行分类,分类时将预测样本根据预测结果划分到特定文档类别概率最
高的类别库中,其具体分类模型如下:给定一个未知类别的档案文本
X,设有m个类别,记为C1,C2,……,Cm,根据朴素贝叶斯分类定律,
在条件X下具有最高后验概率的类别P(Ci|X)的计算公式如下:
P(Ci|X)=P(X|Ci)P(Ci)P(X)]]>在P(Ci|X)计算公式中,P(X)是常数,因此只需要将分子
P(X|Ci)P(Ci)最大化即可;P(Ci)是训练集中的类别分布概率,计算公
式为:式中分子为类别|Ci|包含的文本数加1,分母
为m个类别与|D|为训练集中所包含的文本总数之和;为了简化
P(X|Ci)的计算过程,假定文本的多个属性是相互无关的,因此,计
算P(X|Ci)就是推算特征属性在类别Ci上出现的概率,使用拉普拉
斯估计的2种计算模型来推算P(X|Ci)的值:
(1)多变量模型,统计特征属性在文本中是否出现过,若出现记
为1,否则记为0。计算公式为:
P(X|Ci)=Πt=1|v|(BxtP(wt|Ci)+(1-Bxt)(1-P(wt|Ci)))]]>其中,|V|代表特征值总的数量,Bxt是wt在文本X中出现的标记,
若wt出现则Bxt记为1,否则记为0,wt代表第t个特征,即向量的第
t个分量,因此,式中的(Pwt|Ci)计算公式如下:
(2)多项式模型(Multinomial Model)则统计特征属性在文本中
的出现次数,计算公式为:
P(X|Ci)=Πt=1|v|P(wt|Ci)NxtNxt!]]>其中,Nxt代表了特征t在文本X中出现的次数;P(wt|Ci)的计
算公式如下:
P(wt|Ci)=1+Σj=1|D|NjtP(Ci|dj)|V|+Σs=1|V|Σj=1|D|NjsP(Ci|dj);]]>在P(wt|Ci)的计算公式中,Njt为特征t在文本dj中曾出现的次
数,|D|为训练文本总数,|V|为特征总数,Njs是特征s在文本dj中
的出现次数;该分类方法的实质是对文本对象中的所有特征值进行统
计并映射到已存在的各个类别中的概率。
3.根据权利要求1所述的档案自动编研方法,其特征在于涉及
的档案编研模块处理的数据信息是针对已建立的档案信息录入与管
理模块的案卷目录、卷内目录和专家登记卡目录进行的基本编研,在
档案信息录入与管理模块中创建包括案卷目录数据库、卷内目录数据
库、档案分类数据库、专家基本信息登记数据库、专家论文明细和专
家项目明细等6个数据库;档案编研模块由档案分类编研子模块、文
件字号索引编研子模块和专家信息编研3个子模块组成,在档案编研
模块中创建与上述6个数据库相关联的档案编研基础数据库;档案分
类编研子模块根据用户输入的编研条件,自动实现档案分类编研、
档案标题编研和归档时间编研并以列表形式显示编研结果;文件字
号索引编研子模块根据用户的编研需求输入包括公文字号、年度、...

【专利技术属性】
技术研发人员:蒋静王卓平门霞赵毅
申请(专利权)人:青岛大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1