基于档案智能化的档案挂接管理方法及系统技术方案

技术编号:35734394 阅读:21 留言:0更新日期:2022-11-26 18:36
本发明专利技术公开了一种基于档案智能化的档案挂接管理方法及系统,通过计算待挂接电子档案的档案号中的每个分类编码区域或计算文件名称中的每个分类命名区域的悬空点距离长度和值,对档号间的相同位置处的分类编码区域以及文件名称间的相同位置处的分类命名区域的差异进行了放大,并通过每个分类编码区域和每个分类命名区域分别对应的悬空点距离长度和值,去计算每个档案号和每个文件名称分别对应的悬空点距离长度和值,并以该和值与数据库中的每个档案文件夹的对应和值作相似度计算,由于对每个区域的差异作了放大处理,相似度计算结果更加精准,能够更准确地匹配出待挂接的电子档案对应的电子档案文件夹。档案对应的电子档案文件夹。档案对应的电子档案文件夹。

【技术实现步骤摘要】
基于档案智能化的档案挂接管理方法及系统


[0001]本专利技术涉及档案管理
,具体涉及一种基于档案智能化的档案挂接管理方法及系统。

技术介绍

[0002]电子档案挂接指用电子档案的档案号或档案名称作为指针将电子档案与在数据库中存储的电子档案文件夹联系起来的过程。现有的电子档案挂接方法通常为将待挂接的电子档案的档案号与数据库中的每个电子档案文件夹的档号,或将电子档案的档案名称为数据库中的每个电子档案文件夹的文件夹名称作字符匹配,如果匹配相似度大于预设阈值,则判定匹配成功,将匹配到的电子档案文件夹的基本信息如电子档案文件夹的档号、文件夹名称显示给用户,用户选定某个电子档案文件夹后系统自动将电子档案挂接到选定的该电子档案文件夹中。但现有的上述档号或文件夹名称匹配方式存在以下两个问题:
[0003]1、例如对于某两个电子档案的档案号“CSZM

HZGS
‑1‑
2022

05

11

RENMING”“CYZM

HZGS
‑1‑
2022

05

11

RENMING”,“CSZM

HZGS
‑1‑
2022

05

11

RENMING”、“CYZM

HZGS
‑1‑
2022

>05

11

RENMING”对应的档案名称分别为“20220511杭州拱墅男性出生证明

人名”、“20220511杭州拱墅男性出院证明

人名”,即“CSZM

HZGS
‑1‑
2022

05

11

RENMIN”中的一级分类编码区域“CSZM”的中文含义为“出生证明”,二级分类编码区域“HZGS”的含义为“杭州拱墅”,三级分类编码区域“1”的含义为“男性”,如为“0”则表示女性,四级分类编码区域“2022

05

11”表示出生时间为2022年5月11日,“RENMIN”则表示出生人员的姓名,为该人员的特定个人信息。
[0004]相对应的,为存储2022年5月11日出生于杭州市拱墅区的男性人员的出生证明信息,在数据库中专门构建了档案文件夹,该档案文件夹的档号例如命名为“CSZM

HZGS
‑1‑
2022

05

11”,文件夹名称例如命名为“20220511杭州拱墅男性出生证明”。同样地,为存储2022年5月11日在杭州市拱墅区出院的男性人员的出院证明信息,在数据库中专门构建了档案文件夹,该档案文件夹的档号例如命名为“CYZM

HZGS
‑1‑
2022

05

11”,文件夹名称例如命名为“20220511杭州拱墅男性出院证明”。
[0005]在进行电子档案挂接时,若采用现有的字符相似度匹配方法,由于“CSZM

HZGS
‑1‑
2022

05

11”与“CYZM

HZGS
‑1‑
2022

05

11”的字符差异仅为1个字符,差异度为1/22,“22”为“CSZM

HZGS
‑1‑
2022

05

11”或“CYZM

HZGS
‑1‑
2022

05

11”的字符长度,由于差异度过小,系统容易将“CSZM

HZGS
‑1‑
2022

05

11

RENMIN”这个电子档案的待挂接对象匹配为档号为“CYZM

HZGS
‑1‑
2022

05

11”的文件夹,这明显是错误的,需要人为对匹配到的列表展示结果进行仔细甄别,给电子档案挂接带来了不便。
[0006]2、如果是以文件夹名称匹配方式作相似度匹配则存在匹配效率低下,准确率无法有效保证的问题。例如,对于档案名称为“20220511杭州拱墅男性出生证明

人名”的电子档案,在与“20220511杭州拱墅男性出生证明”这一文件夹名称进行字符相似度匹配时,由于中文字符笔画繁多,对每个中文字符进行相似度的遍历匹配较对英文字符或数字作相似度
匹配需要更长的时间,当需要匹配的电子档案文件夹名称数量庞大时,这个遍历匹配的耗时会更长,因此,如何解决档案挂接时的中文字符相似度匹配效率低下的问题称为该领域亟待解决的技术问题。
[0007]另外,当两个电子档案的文件夹名称非常相似时,容易出现误匹配的情况。例如,在对档案名称为“20220511杭州拱墅男性出生证明

人名”的电子档案进行电子档案挂接匹配时,会同时匹配出文件夹名为“20220511杭州拱墅男性出生证明”和“20220511杭州拱墅男性出院证明”的两个电子档案文件夹,用于需要特别仔细的去区分这两个文件夹,非常麻烦,且容易挂接出错。

技术实现思路

[0008]本专利技术以提高电子档案挂接效率,并提高电子档案挂接准确度,减少电子档案挂接工作量为目的,提供了一种基于档案智能化的档案挂接管理方法及系统。
[0009]为达此目的,本专利技术采用以下技术方案:
[0010]提供一种基于档案智能化的档案挂接管理方法,包括步骤:
[0011]S1,对获取到的每个档案文件夹的档号和文件夹名称分别按预设的档号编码规则和文件夹命名规则,将每个所述档案文件夹的档号和文件夹名称分别分离为多级分类编码区域和多级分类命名区域,关联每个档号的第a级分类编码区域记为关联每个文件夹名称的第b级分类命名区域记为
[0012]S2,对每个和每个按预设字体尺寸进行放大后,计算每个和每个的字母和/ 或数字和/或中文汉字的悬空点距离长度和值,分别记为V
a
、V
b
并存储;
[0013]S3,计算关联每个所述档案文件夹的档号和文件夹名称的悬空点距离长度和值,分别记为V
DH
、V
MC
并存储;
[0014]S4,将每个所述档案文件夹的档号对应的V
DH
,以及文件夹名称对应的V
MC
映射到档案目录数据库中元数据的对应所处位置处,并记录元数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于档案智能化的档案挂接管理方法,其特征在于,包括步骤:S1,对获取到的每个档案文件夹的档号和文件夹名称分别按预设的档号编码规则和文件夹命名规则,将每个所述档案文件夹的档号和文件夹名称分别分离为多级分类编码区域和多级分类命名区域,关联每个档号的第a级分类编码区域记为关联每个文件夹名称的第b级分类命名区域记为S2,对每个和每个按预设字体尺寸进行放大后,计算每个和每个的字母和/或数字和/或中文汉字的悬空点距离长度和值,分别记为V
a
、V
b
并存储;S3,计算关联每个所述档案文件夹的档号和文件夹名称的悬空点距离长度和值,分别记为V
DH
、V
MC
并存储;S4,将每个所述档案文件夹的档号对应的V
DH
,以及文件夹名称对应的V
MC
映射到档案目录数据库中元数据的对应所处位置处,并记录元数据位置与数据库中存储的所述档案文件夹的对应关系;S5,获取待进行档案挂接的档案文件的档案号和文件名称,过滤掉档案号和文件名称中的特定个人信息后,按照预设的所述档号编码规则和所述文件夹命名规则,分别将所述档案号和所述文件名称分离为多级分类编码区域和多级分类命名区域,然后计算关联所述档案文件的所述档案号和所述文件名称分别对应的悬空点距离长度和值,分别记为V

DH
、V

MC
;S6,计算V

DH
与存储在所述档案目录数据库中的所有所述档案文件夹的档号对应的V
DH
的相似度,记为S
DH
;并计算V

MC
与存储在所述档案目录数据库中的所有所述档案文件夹的文件夹名称对应的V
MC
的相似度,记为S
MC
;S7,根据S
DH
和S
MC
,计算关联所述档案文件的相似度S;S8,提取大于预设的相似度阈值的每个所述相似度S所对应的所述档案文件夹的档号和文件夹名称并展示给用户;S9,所述用户选定欲挂接的所述档案文件夹后,基于所选定的所述档案文件夹在所述档案目录数据库中的元数据位置与存储在所述数据库中的所述档案文件夹的对应关系,提取出所述档案文件夹,然后将所述档案文件自动挂接到所提取的所述档案文件夹中。2.根据权利要求1所述的基于档案智能化的档案挂接管理方法,其特征在于,步骤S2中,V
a
通过以下方法步骤计算而得:A1,以相同尺寸的矩形框框选住每个分类编码区域中的每个字母和/或数字,框选住的字母和/或或数字在所述矩形框内位置居中;A2,遍历每个字母和/或数字在所述矩形框内的悬空点,记为并定位到所在的第i个所述矩形框的中心位点,记为A3,计算每个所述矩形框内的每个悬空点与其中心位点的距离,记为A4,通过以下公式(1)计算第a级分类编码区域中的每个所述矩形框的悬空点距离长度和值并存储:
A5,通过以下公式(2)计算V
a
并存储:公式(1)

(2)中,r表示第a级分类编码区域中的第i个所述矩形框内的字母或数字的第r个悬空点;R表示第a级分类编码区域中的第i个所述矩形框内的字母或数字的悬空点的数量;n表示在第a级分类编码区域中框选字母或数字的所述矩形框的数量。3.根据权利要求2所述的基于档案智能化的档案挂接管理方法,其特征在于,步骤S2中,V
b
通过以下方法步骤计算而得:B1,以相同尺寸的矩形框框选住分类命名区域中的每个字母和/或数字和/或中文汉字,框选住的字母和/或数字/或中文汉字在所述矩形框内位置居中;B2,以步骤A2

A4所述的方式计算出第b级分类命名区域中框选字母和/或数字的每个所述矩形框的悬空点距离长度和值,记为并存储,表示第b级分类命名区域中的第j个用于框选字母或数字的所述矩形框的悬空点距离长度和值,并提取每个中文汉字的部首后遍历每个部首在所述矩形框内的悬空点,记为并定位到所在的第k个所述矩形框的中心位点,记为B3,计算框选中文汉字的每个所述矩形框内的每个悬空点与其中心位点的距离,记为B4,通过以下公式(3)计算第b级分类编码区域中的每个框选中文汉字的所述矩形框的悬空点距离长度和值并存储:公式(3)中,s表示第b级分类命名区域中的第k个所述矩形框内的中文汉字的部首的第s个悬空点;S表示第b级分类命名区域中的第k个所述矩形框内的中文汉字的部首的悬空点的数量;B5,通过以下公式(4)计算V
b
并存储:公式(4)中,J表示第b级分类命名区域中框选字母和/或数字的所述矩形框的数量;K示第b级分类命名区域中框选中文汉字的所述矩...

【专利技术属性】
技术研发人员:杨建福
申请(专利权)人:杭州京胜航星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1