一种结构化建设行业材料文件及材料数据识别管理方法技术

技术编号:11610092 阅读:87 留言:0更新日期:2015-06-17 10:06
本发明专利技术涉及一种结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本发明专利技术可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。

【技术实现步骤摘要】

本专利技术属于建设行业材料文件处理领域,尤其涉及。
技术介绍
目前,建设行业材料多达几十万种,材料来源呈多样化,且记载材料数据的材料文件格式各异,因此难以进行统一规范及管理。在行业信息化管理及使用过程中,如何将材料数据从材料文件中甄别、判断材料属性是否完全,及对同类材料进行去重、归类,一直是行业的痛点。现有技术中针对建设行业材料文件及材料数据的识别及管理主要还是基于人工操作的方式,即对各类型材料文件进行收集后,人工将甄选的材料数据归并入分类的Excel文件进行保存,以备后续查阅及使用。但是,这种方式显然存在工作效率低下、运营成本过尚等缺陷。
技术实现思路
本专利技术针对现有技术中存在的工作效率低、运营成本过高等缺陷,提出一种效率高且能够节约运营成本的结构化建设行业材料文件及材料数据识别管理方法。本专利技术提出的,其包括以下步骤:检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件;检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件;读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置;从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值;基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存。进一步,读取所述有效数据文件内容中的材料数据之前还包括以下步骤:检测所述有效类型文件中表头的位置,并对所述表头的内容进行词义分析,确认出表头对应的数据列所代表的信息;所述读取所述有效数据文件内容中的材料数据包括:根据所述数据列所代表的信息,相应从所述数据列中读取所需的材料数据。进一步,从所述数据列中读取所需的材料数据之后,还包括以下步骤:通过字符识别将所述数据列中的无效数据进行清洗;将所述材料数据与预设的国标材料数据库中的材料名称进行匹配的步骤具体为:将所述材料数据中的有效数据与预设的国标材料数据库中的材料名称进行匹配。进一步,通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括:通过字符识别,对所述数据列中的空行或无效字符做相应的清除处理,并相应进行全角/半角转换。进一步,所述检测所述有效类型文件中表头的位置之后,还包括以下步骤:检测是否存在合并单元格;若是,则判断所述合并单元格是否为规格列;若是,则对其进行规范拆分;进一步,对所述表头的内容进行词义分析之后,还包括以下步骤:基于所述词义分析,确定是否存在多个价格表头;若是,则根据预设的优先顺序选取对应的数据列中的优选价格数据;所述得出所述有效数据文件的材料属性值的步骤中,将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。进一步,所述检测所述有效类型文件中表头的位置的步骤具体为:检测所述表头所处的列数及行数,以确定所述表头的位置。进一步,所述结构化建设行业材料文件包括:以XML、Excel、Word或PDF格式呈现的建设行业材料文件。进一步,所述预设文件类型具体为Excel文件类型。有益效果:本专利技术提出的结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本专利技术可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。【附图说明】图1为本专利技术提出的实施例的主要流程示意图。图2为本专利技术提出的实施例的详细流程示意图。【具体实施方式】为了便于本领域技术人员理解,下面将结合附图以及实施例对本专利技术进行进一步描述。本专利技术提出的实施例,可由具备关系型数据库存储结构的单台电脑、局域网电脑及广域互联网电脑来实施,请参阅图1,其主要包括以下步骤SlOO至S500:S100、检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件。步骤SlOO中,所述结构化建设行业材料文件具体是指:诸如XML、Excel、Word或PDF等已经数字化、格式化的建设行业材料文件,而不是像TXT之类没格式化的、纯文本的文件。所述预设文件类型是指可以进行统一处理的文件类型,本实施例中的预设文件类型以Excel文件类型为例,以便于材料数据的识别及处理。因此,在步骤SlOO中,假设接收到(用户上传)的结构化建设行业材料文件为Excel文件,则确定其为有效类型文件,不需要进行格式转换;假设接收到(用户上传)的结构化建设行业材料文件为PDF文件,则需将其转换成有效类型文件,即转换成Excel文件。S200、检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件。步骤S200中,若所述有效类型文件中非空数据少于三列,说明该有效类型文件的材料数据非常不完整,没有信息化意义;为了提高识别及管理的效率,本实施例去除这类文件,优选处理存在三列以上非空数据的文件。S300、读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置。步骤S300中,所述国标材料数据库是按照国家规定的建设行业材料标准分类法建立的数据库,其包括各种材料对应的通用的材料名称及对应的属性单位等。本实施例将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,可以大大提高材料识别的精度和管理的专业度。例如,国标材料数据库中存在通用的材料名称“圆钢”,同时,通过匹配发现所述有效数据文件内容中存在“圆钢”这一字样,则将“圆钢”作为所述有效数据文件的材料名称,同时标记所述有效数据文件内容中“圆钢”这当前第1页1 2 3 本文档来自技高网...
一种结构化建设行业材料文件及材料数据识别管理方法

【技术保护点】
一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,包括以下步骤:检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件;检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件;读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置;从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值;基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈红仙张晓张涛贺阳谭厚能
申请(专利权)人:广东中建普联科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1