档案编研数据生方法及装置、电子设备和存储介质制造方法及图纸

技术编号:37138428 阅读:13 留言:0更新日期:2023-04-06 21:40
本公开提供了一种档案编研数据生方法及装置、电子设备和存储介质,可以应用于大数据技术领域。该档案编研数据生成方法包括基于原始档案数据文件生成多个三元组数据;计算多个三元组数据中至少一条目标三元组数据各自的参考值;基于至少一条目标三元组数据各自的参考值以及多个三元组数据,生成档案编研数据。生成档案编研数据。生成档案编研数据。

【技术实现步骤摘要】
档案编研数据生方法及装置、电子设备和存储介质


[0001]本公开涉及大数据
,具体涉及一种档案编研数据生成方法、装置、设备、介质和程序产品。

技术介绍

[0002]档案编研是档案利用工作中的一个重要组成部分,是档案部门向社会或者向机构普通用户提供利用服务的基础性工作。随着档案工作数字化发展,档案资料的线上调阅变得越来越简单,也为档案编研工作者提供了便利。但是由于档案数据量大、档案种类繁多、载体形式多、档案编研工作要求高,给档案编研工作带来了极大的挑战。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:现有档案编研工作对人工依赖程度高、编研内容完整性难以保证、编研工作量大、效果不佳,并且由于同名人物的存在,增加了档案编研人员的工作难度,经常出现对于同名人无法正确区分的问题。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种档案编研数据生成方法、装置、设备、介质和程序产品。
[0005]本公开的一个方面,提供了一种档案编研数据生成方法,包括:
[0006]基于原始档案数据文件生成多个三元组数据,其中各个三元组数据包括第一实体、第二实体、第一实体和第二实体之间的关联关系,第一实体和第二实体的类别为预设实体类别之一,预设实体类别至少包括人物、事件、机构;
[0007]计算多个三元组数据中至少一条目标三元组数据各自的参考值,其中,目标三元组数据中的第一目标实体属于人物实体类别,目标三元组数据中的第二目标实体属于预设实体类别之一,参考值用于表征:第一目标实体和第二目标实体之间关联关系的准确性;
[0008]基于至少一条目标三元组数据各自的参考值以及多个三元组数据,生成档案编研数据。
[0009]根据本公开的实施例,计算目标三元组数据的参考值包括:
[0010]确定与目标三元组数据关联的目标指标的指标值和指标权重,其中目标指标包括以下至少之一:第一实体指标、第二实体指标、全局命中率指标,其中,第一实体指标与第一目标实体的属性关联,第二实体指标与第二目标实体的属性关联,全局命中率指标与第一目标实体和第二目标实体同时关联;
[0011]根据与目标三元组数据关联的目标指标的指标值和指标权重,计算得到目标三元组数据的参考值。
[0012]根据本公开的实施例,其中,确定与目标三元组数据关联的全局命中率指标的指标值包括:
[0013]确定目标三元组数据在原始档案数据文件中的第一引用次数;
[0014]确定多个三元组数据中的至少一个关联数据分别在原始档案数据文件中的第二引用次数,其中关联数据与目标三元组数据中的人物名称相同,且关联数据中的第二实体与目标三元组数据中的第二目标实体属于同一实体类别;
[0015]计算第一引用次数与至少一个第二引用次数之和的比值,以得到全局命中率指标的指标值。
[0016]根据本公开的实施例,其中,确定与目标三元组数据关联的第一实体指标的指标值包括:
[0017]从原始档案数据文件中抽取第一目标实体的属性值,其中第一目标实体的属性值包括与第一目标实体对应的人物职级;
[0018]根据第一预设打分规则,确定与第一目标实体的属性值对应的分数,作为第一实体指标的指标值。
[0019]根据本公开的实施例,其中,确定与目标三元组数据关联的第二实体指标的指标值包括:
[0020]从原始档案数据文件中抽取第二目标实体的属性值;
[0021]根据第二预设打分规则,确定与第二目标实体的属性值对应的分数,作为第二实体指标的指标值。
[0022]根据本公开的实施例,其中:
[0023]在第二目标实体的实体类别为机构实体类别的情况下,第二目标实体的属性值包括与第二目标实体对应的机构级别;
[0024]在第二目标实体的实体类别为事件实体类别的情况下,第二目标实体的属性值包括与第二目标实体对应的事件类型;
[0025]在第二目标实体的实体类别为人物实体类别的情况下,第二目标实体的属性值包括与第二目标实体对应的人物职级。
[0026]根据本公开的实施例,其中,确定与目标三元组数据关联的目标指标的指标权重包括:
[0027]按照预设权重配比规则,确定与目标三元组数据关联的目标指标的指标权重,其中第一实体指标的权重大于第二实体指标的权重,第二实体指标的权重大于全局命中率指标的权重。
[0028]根据本公开的实施例,其中,原始档案数据文件包括以下至少之一:文书档案、文字图片档案,基于原始档案数据文件生成多个三元组数据包括:
[0029]利用预设文字识别算法识别文字图片档案中的文字后得到识别文字;
[0030]利用预设语义提取算法从文书档案和/或识别文字中的抽取第一实体、第二实体、第一实体和第二实体之间的关联关系,以生成多个三元组数据。
[0031]根据本公开的实施例,上述方法还包括:
[0032]利用预设文字识别算法和预设语义提取算法从原始档案数据文件中抽取第一实体和第二实体的属性值,第一实体和第二实体的属性值包括以下至少之一:人物名称、人物职级、机构级别、事件时间、事件类型;
[0033]基于多个三元组数据以及从文书档案和/或识别文字中抽取的人物名称、事件时间,建立与各个人物名称分别对应的事件时间轴图,以利用事件时间轴图对原始档案数据
文件进行可视化展示。
[0034]根据本公开的实施例,其中,原始档案数据文件还包括照片档案,其中照片档案中包括人物图像区域、物体图像区域以及文字说明区域,上述方法还包括:
[0035]利用预设图像识别算法和预设文字识别算法对照片档案进行识别,得到人脸识别结果以及事件信息;
[0036]将人脸识别结果与人脸库中预存多个标准人脸图像进行匹配,以确定照片档案与人物名称之间的关联关系;
[0037]基于事件信息以及照片档案与人物名称之间的关联关系,将照片档案添加至事件时间轴图中。
[0038]根据本公开的实施例,上述方法还包括:
[0039]基于多个三元组数据构建档案知识图谱,以利用档案知识图谱对原始档案数据文件进行可视化展示,其中档案知识图谱包括第一图形元素、第二图形元素、第三图形元素,其中,第一图形元素用于展示第一实体,第二图形元素用于展示第二实体,第三图形元素用于展示第一实体和第二实体之间的关联关系。
[0040]本公开的另一个方面提供了一种档案编研数据生成装置,包括:
[0041]第一生成模块,用于基于原始档案数据文件生成多个三元组数据,其中各个三元组数据包括第一实体、第二实体、第一实体和第二实体之间的关联关系,第一实体和第二实体的类别为预设实体类别之一,预设实体类别至少包括人物、事件、机构;
[0042]计算模块,用于计算多个三元组数据中至少一条目标三元组数据各自的参考值,其中,目标三元组数据中的第一目标实体属于人物实体类别,目标三元组数据中的第二目标实体属于预设实体类别之一,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种档案编研数据生成方法,包括:基于原始档案数据文件生成多个三元组数据,其中各个三元组数据包括第一实体、第二实体、所述第一实体和所述第二实体之间的关联关系,所述第一实体和所述第二实体的类别为预设实体类别之一,所述预设实体类别至少包括人物、事件、机构;计算所述多个三元组数据中至少一条目标三元组数据各自的参考值,其中,所述目标三元组数据中的第一目标实体属于人物实体类别,所述目标三元组数据中的第二目标实体属于所述预设实体类别之一,所述参考值用于表征:所述第一目标实体和所述第二目标实体之间关联关系的准确性;基于所述至少一条目标三元组数据各自的参考值以及所述多个三元组数据,生成档案编研数据。2.根据权利要求1所述的方法,计算所述目标三元组数据的参考值包括:确定与所述目标三元组数据关联的目标指标的指标值和指标权重,其中所述目标指标包括以下至少之一:第一实体指标、第二实体指标、全局命中率指标,其中,所述第一实体指标与所述第一目标实体的属性关联,所述第二实体指标与所述第二目标实体的属性关联,所述全局命中率指标与所述第一目标实体和所述第二目标实体同时关联;根据与所述目标三元组数据关联的目标指标的指标值和指标权重,计算得到所述目标三元组数据的参考值。3.根据权利要求2所述的方法,其中,确定与所述目标三元组数据关联的全局命中率指标的指标值包括:确定所述目标三元组数据在所述原始档案数据文件中的第一引用次数;确定所述多个三元组数据中的至少一个关联数据分别在所述原始档案数据文件中的第二引用次数,其中所述关联数据与所述目标三元组数据中的人物名称相同,且所述关联数据中的第二实体与所述目标三元组数据中的第二目标实体属于同一实体类别;计算所述第一引用次数与至少一个所述第二引用次数之和的比值,以得到所述全局命中率指标的指标值。4.根据权利要求2所述的方法,其中,确定与所述目标三元组数据关联的第一实体指标的指标值包括:从所述原始档案数据文件中抽取所述第一目标实体的属性值,其中所述第一目标实体的属性值包括与所述第一目标实体对应的人物职级;根据第一预设打分规则,确定与所述第一目标实体的属性值对应的分数,作为所述第一实体指标的指标值。5.根据权利要求2所述的方法,其中,确定与所述目标三元组数据关联的第二实体指标的指标值包括:从所述原始档案数据文件中抽取所述第二目标实体的属性值;根据第二预设打分规则,确定与所述第二目标实体的属性值对应的分数,作为所述第二实体指标的指标值。6.根据权利要求5所述的方法,其中:在所述第二目标实体的实体类别为机构实体类别的情况下,所述第二目标实体的属性值包括与所述第二目标实体对应的机构级别;
在所述第二目标实体的实体类别为事件实体类别的情况下,所述第二目标实体的属性值包括与所述第二目标实体对应的事件类型;在所述第二目标实体的实体类别为人物实体类别的情况下,所述第二目标实体的属性值包括与所述第二目标实体对应的人物职级。7.根据权利要求2

6任一项所述的方法,其中,确定与所述目标三元组数据关联的目标指标的指标权重包括:按照预设权重配比规则,确定与所述目标三元组数据关联的目标指标的指标权重,其中所述第一实体指标的权重大于所述第二实体指标的权重,所述第二实体指标的权重大于所...

【专利技术属性】
技术研发人员:高明
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1