【技术实现步骤摘要】
本专利技术涉及铁路工程管理领域,尤其是涉及一种基于大模型与知识图谱的铁路标准规范数字化处理方法。
技术介绍
1、标准规范是铁路勘察设计、建设施工、运营维护的重要依据,铁路标准规范数字化是建设数字化铁路的一项重要的组成部分。
2、铁路标准规范数字化是指将传统的纸质标准规范转化为电子格式,并通过信息技术手段进行管理、应用和传播的过程。标准规范数字化分为以传统文本格式(如txt)为代表的阶段0、以开放数字化格式(如pdf)为代表的阶段1、以机器可读文件(如xml)为代表的阶段2、以机器可理解内容(如知识语义化)为代表的阶段3以及以机器可交互内容(如内容自动生成)为代表的阶段4。
3、截至目前,现行铁路行业标准和铁路国家标准,主要领域为装备技术、工程建设(含工程造价)和运输服务。由于标准发布时间跨度大,存储格式为pdf(包含word转换的可读pdf与扫描图片转换的不可读pdf),将铁路标准规范处理为机器可读的形式,即铁路标准规范数字化处理工作量巨大,且结构化处理、关键词提取等依赖于处理人员的主观判释能力,难以全面推行。<
...【技术保护点】
1.一种基于大模型与知识图谱的铁路标准规范数字化处理方法,其特征在于,包括:
2.根据权利要求1所述的铁路标准规范数字化处理方法,其特征在于,步骤S1包括:
3.根据权利要求2所述的铁路标准规范数字化处理方法,其特征在于,步骤S1-2中提取识别块中段落的方法为:根据该识别块的位置属性,获取该识别块所在页对应的识别块集合中,该识别块所在页面位置中包含的内容类识别块,如果该识别块所在页面位置中包含的内容类识别块数量为1,则将该内容类识别块的text属性或latex属性的文字内容作为paragraph,如果该识别块中该识别块所在页面位置中包含的内容类
...【技术特征摘要】
1.一种基于大模型与知识图谱的铁路标准规范数字化处理方法,其特征在于,包括:
2.根据权利要求1所述的铁路标准规范数字化处理方法,其特征在于,步骤s1包括:
3.根据权利要求2所述的铁路标准规范数字化处理方法,其特征在于,步骤s1-2中提取识别块中段落的方法为:根据该识别块的位置属性,获取该识别块所在页对应的识别块集合中,该识别块所在页面位置中包含的内容类识别块,如果该识别块所在页面位置中包含的内容类识别块数量为1,则将该内容类识别块的text属性或latex属性的文字内容作为paragraph,如果该识别块中该识别块所在页面位置中包含的内容类识别块数量大于1,则按照从上至下、从左至右的顺序将获取的内容类识别块的text属性或latex属性中的文字内容进行拼接,将拼接后文字内容作为paragr...
【专利技术属性】
技术研发人员:渠涧涛,王卓宽,左峰,齐春雨,王然,李艳,朱纯瑶,李瑶,王华,
申请(专利权)人:中国国家铁路集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。