基于大模型与知识图谱的铁路标准规范数字化处理方法技术

技术编号:46043764 阅读:8 留言:0更新日期:2025-08-11 15:34
本发明专利技术公开了一种基于大模型与知识图谱的铁路标准规范数字化处理方法,包括S1.铁路标准规范预处理,S2.铁路标准规范术语知识图谱构建,S3.铁路标准规范条文的语义拆分组合及语义提取,S4.铁路标准规范的结构化输出。本发明专利技术以大模型技术为核心,高度融合大模型的自然语言语义理解能力和知识图谱的行业知识管理能力,通过规范中术语智能提取、术语释义的语义拆解及术语相似度的智能计算,建立了铁路标准规范术语知识图谱,用以替代传统数字化处理中建立词典及近义词表的步骤,基于大模型智能拆分标准规范条文并初步提取关键词集,基于术语知识图谱扩充关键词集,自动构建近义词、关联词集合,最后,利用Python的lxml库对解析结果进行结构化输出,实现了铁路标准规范的高效数字化处理。

【技术实现步骤摘要】

本专利技术涉及铁路工程管理领域,尤其是涉及一种基于大模型与知识图谱的铁路标准规范数字化处理方法


技术介绍

1、标准规范是铁路勘察设计、建设施工、运营维护的重要依据,铁路标准规范数字化是建设数字化铁路的一项重要的组成部分。

2、铁路标准规范数字化是指将传统的纸质标准规范转化为电子格式,并通过信息技术手段进行管理、应用和传播的过程。标准规范数字化分为以传统文本格式(如txt)为代表的阶段0、以开放数字化格式(如pdf)为代表的阶段1、以机器可读文件(如xml)为代表的阶段2、以机器可理解内容(如知识语义化)为代表的阶段3以及以机器可交互内容(如内容自动生成)为代表的阶段4。

3、截至目前,现行铁路行业标准和铁路国家标准,主要领域为装备技术、工程建设(含工程造价)和运输服务。由于标准发布时间跨度大,存储格式为pdf(包含word转换的可读pdf与扫描图片转换的不可读pdf),将铁路标准规范处理为机器可读的形式,即铁路标准规范数字化处理工作量巨大,且结构化处理、关键词提取等依赖于处理人员的主观判释能力,难以全面推行。</p>

4、随着本文档来自技高网...

【技术保护点】

1.一种基于大模型与知识图谱的铁路标准规范数字化处理方法,其特征在于,包括:

2.根据权利要求1所述的铁路标准规范数字化处理方法,其特征在于,步骤S1包括:

3.根据权利要求2所述的铁路标准规范数字化处理方法,其特征在于,步骤S1-2中提取识别块中段落的方法为:根据该识别块的位置属性,获取该识别块所在页对应的识别块集合中,该识别块所在页面位置中包含的内容类识别块,如果该识别块所在页面位置中包含的内容类识别块数量为1,则将该内容类识别块的text属性或latex属性的文字内容作为paragraph,如果该识别块中该识别块所在页面位置中包含的内容类识别块数量大于1,则...

【技术特征摘要】

1.一种基于大模型与知识图谱的铁路标准规范数字化处理方法,其特征在于,包括:

2.根据权利要求1所述的铁路标准规范数字化处理方法,其特征在于,步骤s1包括:

3.根据权利要求2所述的铁路标准规范数字化处理方法,其特征在于,步骤s1-2中提取识别块中段落的方法为:根据该识别块的位置属性,获取该识别块所在页对应的识别块集合中,该识别块所在页面位置中包含的内容类识别块,如果该识别块所在页面位置中包含的内容类识别块数量为1,则将该内容类识别块的text属性或latex属性的文字内容作为paragraph,如果该识别块中该识别块所在页面位置中包含的内容类识别块数量大于1,则按照从上至下、从左至右的顺序将获取的内容类识别块的text属性或latex属性中的文字内容进行拼接,将拼接后文字内容作为paragr...

【专利技术属性】
技术研发人员:渠涧涛王卓宽左峰齐春雨王然李艳朱纯瑶李瑶王华
申请(专利权)人:中国国家铁路集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1