【技术实现步骤摘要】
核电厂图纸信息识别与提取方法及系统
[0001]本专利技术涉及核电领域,尤其涉及一种核电厂图纸信息识别与提取方法。
技术介绍
[0002]在核电厂中,一期工程中备件对应的图纸预计10万项左右,若需要将图纸中所需信息提取出来,工作量巨大;若通过人工手动从图纸中逐项提取,则需要大量人员历经将近4年时间,强度极大,而且对数据的准确性要求很高,否则可能导致供应商无法识别或者现场维修时备件不匹配。
技术实现思路
[0003]本专利技术要解决的技术问题在于,提供一种核电厂图纸信息识别与提取方法。
[0004]本专利技术解决其技术问题所采用的技术方案是:构造一种核电厂图纸信息识别与提取方法,包括:
[0005]S10、表格识别:从图纸中识别含有表格信息的图形,表格信息包括表格线条、表格位置、由表格线条构成的单元格、单元格位置、各单元格内的文本信息;
[0006]S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容、文本类型;
[0007]S30、文本划分: ...
【技术保护点】
【技术特征摘要】
1.一种核电厂图纸信息识别与提取方法,其特征在于,包括:S10、表格识别:从图纸中识别含有表格信息的图形,表格信息包括表格线条、表格位置、由表格线条构成的单元格、单元格位置、各单元格内的文本信息;S20、文本识别及提取:从每个单元格中识别并提取文本信息,文本信息包括文本样式、文本内容、文本类型;S30、文本划分:在文本提取过程中,建立直角坐标系,根据单元格位置,将对应单元格内的文本信息赋予独立的坐标号;根据相应的坐标号,将同一纵坐标的文本信息划分为同一信息类型,同一横坐标的文本信息划分为同一备件的不同信息类型;S40、文本排序:建立总表格,根据信息类型、对应的坐标号,在总表格中将提取出来的文本信息按序排列。2.根据权利要求1所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S20中,包括以下子步骤:S21:通过OCR识别工具识别表格中的各单元格内的文本信息;S22:对识别出来的文本信息根据通用文本和/或预设文本进行修正;S23:提取文本修正后的各单元格内的文本信息。3.根据权利要求1或2任一项所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S30中,还包括以下子步骤:S31:判断在同一纵坐标的文本信息是否为同一信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不同于一类的信息类型对应的文本信息划分至正确的信息类型;S32:判断同一横坐标的文本信息是否为同一备件的不同信息类型;若是,执行下一步骤;若否,进行文本内容分析,将不是同一备件的信息类型对应的文本信息划分至正确的信息类型。4.根据权利要求3所述的核电厂图纸信息识别与提取方法,其特征在于,在步骤S30中,还包括以下子步骤:S33:判断在同一单元格内的文本信息是否包含多种信息类型,若是,则进行文本分类,将同一单元格内的文本信息重新划分为对应的信息类型,并赋予不同的纵向坐标。5.根据权利要求3所述的核电厂图纸信息识别与提取方法,其特征在于,在步...
【专利技术属性】
技术研发人员:巩海龙,刘昊,
申请(专利权)人:中国广核集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。