基于深度学习和模型训练的建筑物资库数据处理方法技术

技术编号:39812598 阅读:7 留言:0更新日期:2023-12-22 19:29
本发明专利技术涉及建筑物资库数据处理领域,具体公开基于深度学习和模型训练的建筑物资库数据处理方法,本发明专利技术通过对建筑物资库中结构化文件进行去重

【技术实现步骤摘要】
基于深度学习和模型训练的建筑物资库数据处理方法


[0001]本专利技术涉及建筑物资库数据处理领域,涉及到基于深度学习和模型训练的建筑物资库数据处理方法


技术介绍

[0002]在建筑施工行业,物资管理是项目实施的核心要素之一,直接影响到工程的质量

进度和成本,对于施工企业来说,如何提升物资管理效率

降低误差并精确控制成本,无疑是提高整体竞争力和盈利能力的重要环节,因此,对建筑物资库数据进行处理具有重要意义

[0003]现有的建筑物资库数据处理方法存在一些不足:一方面,大部分的物资数据需要由业务人员手动录入,这使得数据的标准化程度较低,且存在大量的错误和冗余,这些错误和冗余的数据不仅增加了数据处理的工作量,而且对用户的筛选和引用构成了障碍,同时数据录入工作量庞大且重复性强,耗费了大量的人力资源

[0004]另一方面,物资数据中存在大量的非结构化数据,这些非结构化数据无法直接采取结构化数据导入的方式进行数据录入,导致了很多非结构化数据需要反复录入,进而加重物资管理部门的负担,也加剧了施工企业基层物资管理的复杂性和困难度


技术实现思路

[0005]针对上述问题,本专利技术提出了基于深度学习和模型训练的建筑物资库数据处理方法,具体技术方案如下:基于深度学习和模型训练的建筑物资库数据处理方法,包括如下步骤:步骤一

建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件

[0006]步骤二

结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件

[0007]步骤三

结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件

[0008]步骤四

结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储

[0009]步骤五

非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集

[0010]步骤六

非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型

[0011]步骤七

非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模
型,并进行存储

[0012]在上述实施例的基础上,所述步骤二的具体分析过程包括:
S1
:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件

[0013]S2
:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,表示初次文件间去重后的第个结构化文件的编号,,表示第个对照结构化文件编号,,获取初次文件间去重后的各结构化文件的文字总数量,将其记为

[0014]获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和

[0015]在上述实施例的基础上,所述步骤二的具体分析过程还包括:通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数,其中表示预设的近似系数的修正因子,表示自然常数,分别表示预设的标题区域和非标题区域的权值,

[0016]将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件

[0017]在上述实施例的基础上,所述步骤二的具体分析过程还包括:
F1:
将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除

[0018]F2:
通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除

[0019]F3:
依据
F1

F2
对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件

[0020]在上述实施例的基础上,所述步骤四的具体分析过程包括:通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集

[0021]将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件

[0022]在上述实施例的基础上,所述步骤四的具体分析过程还包括:获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于,包括如下步骤:步骤一

建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件;步骤二

结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件;步骤三

结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件;步骤四

结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储;步骤五

非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集;步骤六

非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型;步骤七

非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储
。2.
根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程包括:
S1
:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件;
S2
:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,表示初次文件间去重后的第个结构化文件的编号,,表示第个对照结构化文件编号,,获取初次文件间去重后的各结构化文件的文字总数量,将其记为;获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和
。3.
根据权利要求2所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程还包括:
通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数,其中表示预设的近似系数的修正因子,表示自然常数,分别表示预设的标题区域和非标题区域的权值,;将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件
。4.
根据权利要求3所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程还包括:
F1:
将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除;
F2:
通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词...

【专利技术属性】
技术研发人员:汪哲语胡伟赵晶丽穆明辉杨飞飞吴祥祥付雪丽郝彬彬潘成浩
申请(专利权)人:安徽数智建造研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1