基于知识图谱的纸质档案数字化方法技术

技术编号:18289453 阅读:40 留言:0更新日期:2018-06-24 04:08
本发明专利技术公开了一种基于知识图谱的纸质档案数字化方法。其包括获取纸质档案图片信息,分析得到标准化文本数据,抽取关键实体的实体信息,构建标准字典表将实体信息进行数据融合,形成结构化数据,将结构化数据作为知识条目构建知识图谱,根据知识图谱获取纸质档案内容数据并生成电子文件。本发明专利技术提高了纸质档案数字化的工作效率,同时降低了误操率。

【技术实现步骤摘要】
基于知识图谱的纸质档案数字化方法
本专利技术属于电子信息
,尤其涉及一种基于知识图谱的纸质档案数字化方法。
技术介绍
纸质档案数字化作业是档案大数据库建设最基础的工作,其操作流程包括档案的分类整理、图像扫描、文字录入以及整理入库等步骤。目前纸质档案数字化的表象,是将实物纸质档案,变成电子文档(JPG、PDF或TFF等格式)的档案进行存储,其目的是为信息化服务,因此必须能被相关软件系统读取和使用。为此在建立电子档案数据库时,针对每一张纸质档案,必须生成二个电子文档:一个是该纸质档案的图片,另二个是与该图片一一对应的信息。目前的解决方法是制作成电子图片加EXCEL条目。如1张实物纸质档案,经扫描后,生成图片名为"031-053-01-019-01.jpg的电子图片,但仅仅从"031-053-01-019-01.GIF"基本不能全面了解其所有内容信息,因此,需要将这张纸质档案上涵盖的信息(如档案号、类号、年份、档案类别、页名、填制单位、部门、属于哪一类、有几页等内容)输入到EXCEL文件的对应条目中。由此可见,为完成一张纸质档案的数字化需要做二件事:一是扫描纸质档案,二是输入档案内容到EXCEL文件的对应条日厅中,其工作量是非常庞大的。虽然目前市面上普通的扫描仪(高拍仪)能对扫描的图片做一些处理,但普遍缺少对内容信息的抓取并生成到EXCEL文件的对应条日厅中。当然随着技术进步,也出现了带有光学字符识别(OpticalCharacterRecognition,简称OCR)的高档扫描仪,但是至今的误操率不能满足国家档案数字化规定的低于0.5%的要求:即使采用进口的高档扫描仪,虽然误操率可以降低几个数量级,但还是不能满足要求,而且此类进口的高档扫描仪价格昂贵,动辄几十万甚至上百万一台,其成本过于高昂。所以至今社会上一般公司档案数字化工作程序,都是要么同一人二次作业,要么流水线二人前后作业,其工作程序复杂,导致效率低下,且人员成本过高。
技术实现思路
本专利技术的专利技术目的是:为了解决现有技术中纸质档案数字化程序复杂、导致效率低下等问题,本专利技术提出了一种基于知识图谱的纸质档案数字化方法。本专利技术的技术方案是:一种基于知识图谱的纸质档案数字化方法,包括A、获取需要进行数字化的纸质档案图片信息;B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据;C、从步骤B的标准化文本数据中抽取关键实体的实体信息;D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;E、根据步骤D中结构化数据作为知识条目,构建知识图谱;F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。进一步地,所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据具体为:采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述纸质档案图片信息为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。进一步地,所述步骤C从步骤B的标准化文本数据中抽取关键实体的实体信息具体为:采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。进一步地,所述步骤D中构建标准字典表具体为:根据通用数据标准建立知识图谱的基础架构;将步骤C中关键实体的实体属性转换成三元组数据;根据三元组数据将所述实体属性与所述关键实体的关系类型和命名规则进行统一规范,得到具有标准规范的标准字典表。进一步地,所述步骤D中根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据具体为:将所述关键实体与构建的标准字典表中的内容进行对照映射,同时保留所述关键实体的属性关系,形成结构化数据。本专利技术的有益效果是:本专利技术通过获取纸质档案图片信息并进行处理得到标准化文本数据,再抽取关键实体的实体信息,通过构建标准字典表将实体信息进行数据融合,形成结构化数据,利用结构化数据作为知识条目构建知识图谱,根据知识图谱获取纸质档案内容,提高了纸质档案数字化的工作效率,同时降低了误操率。附图说明图1是本专利技术的基于知识图谱的纸质档案数字化方法的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,为本专利技术的基于知识图谱的纸质档案数字化方法的流程示意图。一种基于知识图谱的纸质档案数字化方法,包括A、获取需要进行数字化的纸质档案图片信息。本实施例中,将需要进行数字化的纸质档案通过扫描仪进行扫描,以获取该纸质档案扫描后的图片。B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据。本实施例中,词法、语法和/或语义分析是指对指定领域的原始文本数据基于词法、语法和/或语义分析进行结构化处理以及分词处理等操作。C、从步骤B的标准化文本数据中抽取关键实体的实体信息。本实施例中,实体是指命名实体词和事件名等;属性是指命名实体修饰的名词,如年龄、性别、人物关系等。其中,实体属性的关系主要靠计算共现的概率,提取实体共有的,概率最大的属性词。实体之间的关系,一方面根据在句子中的共现概率,另一方面根据识别出的实体属性关系提取实体关系。D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;E、根据步骤D中结构化数据作为知识条目,构建知识图谱;F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。在本专利技术的一个可选实施例中,上述实施例中的步骤B进一步包括:采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;为了快速、准确地实现原始文本数据的段落结构划分,本专利技术实施例中,通过将原始文本数据进行结构化,区分出标题、正文、作者、时间、分类等段落,实现原始文本数据的段落结构划分。具体的。具体的,可根据文档结构分布特征,例如:文本的位置、长度、词语内容等方面特征,确定所述原始文本数据的文档结构。或人工标注少许训练语料,根据上述特征构建段落分类器模型对段落进行分类,以分类预测结果作为段落属性。若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述纸质档案图片信息为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。为了快速、准确地实现原始文本数据的段落结构划分,本专利技术实施例,通过判断原始文本数据的语言,若原始文本数据为中文资源时,则对中文资源进行中文分词、词性标注、短语识别等。具体的可用开源工具对中文进行词法、语法和/或语义分析。若所述文本数据为外语资源时,按照对应语言工具对中文资源进行词法、语法和/或语义分析,例如,对英语资源进行词干处理、词形还原、短语识别本文档来自技高网
...
基于知识图谱的纸质档案数字化方法

【技术保护点】
1.一种基于知识图谱的纸质档案数字化方法,其特征在于,包括A、获取需要进行数字化的纸质档案图片信息;B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据;C、从步骤B的标准化文本数据中抽取关键实体的实体信息;D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;E、根据步骤D中结构化数据作为知识条目,构建知识图谱;F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。

【技术特征摘要】
1.一种基于知识图谱的纸质档案数字化方法,其特征在于,包括A、获取需要进行数字化的纸质档案图片信息;B、对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据;C、从步骤B的标准化文本数据中抽取关键实体的实体信息;D、构建标准字典表,根据标准字典表将步骤C中实体信息进行数据融合,形成结构化数据;E、根据步骤D中结构化数据作为知识条目,构建知识图谱;F、根据步骤E中知识图谱获取纸质档案图片信息中的内容数据并生成电子文件。2.如权利要求1所述的基于知识图谱的纸质档案数字化方法,其特征在于,所述步骤B对步骤A中纸质档案图片信息进行词法、语法和/或语义分析,得到标准化文本数据具体为:采用预先训练的段落分类器模型对步骤A中纸质档案图片信息的段落进行文档结构分类,根据分类结果对所述纸质档案图片信息进行段落结构划分;若所述纸质档案图片信息为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述纸质档案图片信息为外语资源时,...

【专利技术属性】
技术研发人员:李进荣孙懿鑫张步明
申请(专利权)人:成都卓观信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1