一种工程档案结构化数据提取方法、系统、设备和存介质技术方案

技术编号:34186571 阅读:12 留言:0更新日期:2022-07-17 14:23
本发明专利技术涉及一种工程档案结构化数据提取方法,包括以下步骤:构建工程档案规则库,所述工程档案规则库包含若干规则元属性;预训练文本提取模型,收集历史工程档案专业词汇的结构化数据作为原始数据,利用非监督学习进行迭代训练,得到文本提取模型;从工程文件中获取输入数据,并进行预处理,将预处理后的数据输入至预训练文本提取模型,提取文本词汇;对文本词汇进行特征关联以及数据清洗处理,获取文本元数据;对文本元数据进行字符匹配,获取文本元数据中的多个字符属性;通过字符属性至工程档案规则库进行规则匹配,确定该文本元数据匹配的规则元属性,从而确定该文本元数据关联的实体;根据该文本元数据关联的实体生成结构化数据。数据。数据。

【技术实现步骤摘要】
一种工程档案结构化数据提取方法、系统、设备和存介质


[0001]本专利技术涉及一种工程档案结构化数据提取方法、系统、设备和存介质,属于工程档案数字化处理


技术介绍

[0002]随着人工智能领域的兴起与普及,大量减少了可重复性的工作内容,可通过深度学习的方式训练模型来满足日常我们重复性的工作,减少人工输入的成本,大大提升了工作的价值。人工智能领域运用广泛,档案业务通常需要保存一些重要的历史数据,数据往往会随着时代的技术所存储的方式也截然不同,从原先的纸质文件到现在的数字化数据,大量的数据需要根据人工去进行分析并著录,工程档案就是其中一类,它包含了工程建设过程中重要资料,是重要的档案资源。
[0003]工程档案文件是项目竣工的依据、工程质量的凭证以及科学研究和基础设施等方面的可靠资料,具有重复利用、提供借鉴以及促进创新的重要价值。在工程档案的管理上,通常以纸质签名版或电子扫描件进行存储保存,通常会经过,工程交接签字,工程文件备份扫描,存储工程档案文件电子版到数据库以一种非结构化的方式进行存储。对数据量日益增大的情况,无法很好的对工程档案进行整理和检索等操作,通常需要大量人工去手动输出,需要大量的人工成本。随着人工智能的技术日益成熟,利用人工智能技术对工程档案非结构化数据的自动著录成为了一条可行的解决之道。
[0004]现有技术如申请号为“202110289665.9”的专利技术专利公开了一种机关公文辅助生成方法,涉及自然语言生成
,该方法利用计算机的大容量存储、快速处理和便捷的人机交互能力,构建基于语料库的计算机辅助写作系统,通过人机交互形式为使用者实时推荐来源于真实语料库的句型和例句,面向造句这一核心活动提供帮助,填补基于语料库的计算机辅助写作系统的技术空白,通过采取该一站式智能公文写作辅助方法,解决现有技术提供信息不精准、效率低,写作辅助服务不到位、不完善的问题,全方位满足写作需要。但是该现有技术只是一种半自动的辅助写作方法,通过向作者推荐相关句型和例句,由作者进行修改,还是需要大量的人工用于精炼用词用句。
[0005]又如申请号为“201811548852.9”的专利技术专利公开了一种公文自动写作方法,根据用户输入的目标标题从文章模板库中匹配到具有相同文章体裁和核心内容的标题模板,并根据核心内容解析目标标题,生成目标标题模板,以及获取与目标标题模板相似的候选标题模板,然后根据目标标题模板与和候选标题模板的关键词等信息对候选标题模板进行评价,并选取评价最高的候选标题模板对应的文章模板作为目标标题对应的目标文章模板,最后根据目标标题和目标文章模板生成文章。但是该现有技术需要事先人工准备大量的模板库,同时只是以简单的关键词匹配的方式进行模板库的选取,难以避免模板库不适用的情况。

技术实现思路

[0006]为了解决上述现有技术中存在的问题,本专利技术提出了一种工程档案结构化数据提取方法,构建了一个工程档案规则库,在工程档案规则库的基础上,结合文本提取和特征关联,从而有效的从工程文件中关联所需要的文本实体,再通过工程档案管理规则进行实体关联存储,实现工程档案非结构化数据提取工作,大大提高了档案数字化效率。
[0007]本专利技术的技术方案如下:
[0008]一方面,本专利技术提供一种工程档案结构化数据提取方法,包括以下步骤:
[0009]根据历史工程档案以及工程档案管理方法构建工程档案规则库,所述工程档案规则库包含若干规则元属性;
[0010]预训练文本提取模型,收集历史工程档案专业词汇的结构化数据作为原始数据,利用数据挖掘技术抽离原始数据中的规则,形成基准模型,并利用抽离出的规则进行非监督学习,标注出规则以外的数据对基准模型进行迭代训练,得到文本提取模型;
[0011]从工程文件中获取输入数据,并对输入数据进行预处理,将预处理后的数据输入至预训练文本提取模型,提取出文本词汇;
[0012]对提取出的文本词汇进行特征关联以及数据清洗处理,获取文本元数据;
[0013]对文本元数据进行字符匹配,获取文本元数据中的多个字符属性;通过字符属性至工程档案规则库进行规则匹配,确定该文本元数据匹配的规则元属性,从而确定该文本元数据关联的实体;根据该文本元数据关联的实体生成结构化数据。
[0014]作为优选实施方式,所述对提取出的文本词汇进行特征关联的方法具体为:
[0015]获取文本词汇的词向量;
[0016]计算词向量的交叉熵;
[0017]将词向量的交叉熵输入至双向LSTM神经网络,进行特征提取;
[0018]在双向LSTM神经网络的输出层之后设置softmax函数,进行特征拼接,得到词向量的上下文特征向量。
[0019]作为优选实施方式,所述对提取出的文本词汇进行数据清洗处理的方法具体为:
[0020]利用文本正则的方式过滤文本词汇中不符合规则的数据。
[0021]作为优选实施方式,所述从工程文件中获取输入数据的方法具体为:
[0022]对工程文件OCR识别,得到工程文件的图像数据作为输入数据;
[0023]所述对输入数据进行预处理的方法具体为:
[0024]对图像数据依次进行高斯滤波、均值模糊、色调调节、对比度增强、图像边缘化、高斯噪声处理。
[0025]另一方面,本专利技术提供一种工程档案结构化数据生成系统,包括:
[0026]工程档案规则库构建模块,用于根据历史工程档案以及工程档案管理方法构建工程档案规则库,所述工程档案规则库包含若干规则元属性;
[0027]文本提取模型训练模块,用于收集历史工程档案专业词汇的结构化数据作为原始数据,利用数据挖掘技术抽离原始数据中的规则,形成基准模型,并利用抽离出的规则进行非监督学习,标注出规则以外的数据对基准模型进行迭代训练,得到文本提取模型;
[0028]输入模块,用于从工程文件中获取输入数据,并对输入数据进行预处理,并将预处理后的数据输入至预训练文本提取模型,提取出文本词汇;
[0029]关联模块,用于对提取出的文本词汇进行特征关联;
[0030]清洗模块,用于对提取出的文本词汇进行数据清洗处理,获取文本元数据;
[0031]匹配模块,用于对文本元数据进行字符匹配,获取文本元数据中的多个字符属性;通过字符属性至工程档案规则库进行规则匹配,确定该文本元数据匹配的规则元属性,从而确定该文本元数据关联的实体;
[0032]数据生成模块,用于根据该文本元数据关联的实体生成结构化数据。
[0033]作为优选实施方式,所述关联模块对提取出的文本词汇进行特征关联的方法具体为:
[0034]获取文本词汇的词向量;
[0035]计算词向量的交叉熵;
[0036]将词向量的交叉熵输入至双向LSTM神经网络,进行特征提取;
[0037]在双向LSTM神经网络的输出层之后设置softmax函数,进行特征拼接,得到词向量的上下文特征向量。
[0038]作为优选实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工程档案结构化数据提取方法,其特征在于,包括以下步骤:根据历史工程档案以及工程档案管理方法构建工程档案规则库,所述工程档案规则库包含若干规则元属性;预训练文本提取模型,收集历史工程档案专业词汇的结构化数据作为原始数据,利用数据挖掘技术抽离原始数据中的规则,形成基准模型,并利用抽离出的规则进行非监督学习,标注出规则以外的数据对基准模型进行迭代训练,得到文本提取模型;从工程文件中获取输入数据,并对输入数据进行预处理,将预处理后的数据输入至预训练文本提取模型,提取出文本词汇;对提取出的文本词汇进行特征关联以及数据清洗处理,获取文本元数据;对文本元数据进行字符匹配,获取文本元数据中的多个字符属性;通过字符属性至工程档案规则库进行规则匹配,确定该文本元数据匹配的规则元属性,从而确定该文本元数据关联的实体;根据该文本元数据关联的实体生成结构化数据。2.根据权利要求1所述的一种工程档案结构化数据提取方法,其特征在于,所述对提取出的文本词汇进行特征关联的方法具体为:获取文本词汇的词向量;计算词向量的交叉熵;将词向量的交叉熵输入至双向LSTM神经网络,进行特征提取;在双向LSTM神经网络的输出层之后设置softmax函数,进行特征拼接,得到词向量的上下文特征向量。3.根据权利要求1所述的一种工程档案结构化数据提取方法,其特征在于,所述对提取出的文本词汇进行数据清洗处理的方法具体为:利用文本正则的方式过滤文本词汇中不符合规则的数据。4.根据权利要求1所述的一种工程档案结构化数据提取方法,其特征在于,所述从工程文件中获取输入数据的方法具体为:对工程文件OCR识别,得到工程文件的图像数据作为输入数据;所述对输入数据进行预处理的方法具体为:对图像数据依次进行高斯滤波、均值模糊、色调调节、对比度增强、图像边缘化、高斯噪声处理。5.一种工程档案结构化数据提取系统,其特征在于,包括:工程档案规则库构建模块,用于根据历史工程档案以及工程档案管理方法构建工程档案规则库,所述工程档案规则库包含若干规则元属性;文本提取模型训练模块,用于收集历史工程档案专业词汇的结构化数据作为原始数据,...

【专利技术属性】
技术研发人员:邹永增魏宏俊翁非张望华黄云飞林衍
申请(专利权)人:国网福建省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1