一种钢贸行业现货资源的数据解析方法及其系统技术方案

技术编号:17007343 阅读:31 留言:0更新日期:2018-01-11 03:45
本发明专利技术公开了一种钢贸行业现货资源的数据解析方法及其系统,所述方法包括以下步骤:(1)调用方发送一资源单解析请求至第一服务器;(2)第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;(3)解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;(4)解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;(5)解析服务器发送一解析结果至所述调用方,并且更新所述第二服务器中相应的待解析任务请求的标识。

【技术实现步骤摘要】
一种钢贸行业现货资源的数据解析方法及其系统
本专利技术涉及数据分析
,尤其涉及一种钢贸行业现货资源的数据解析方法及其系统。
技术介绍
钢贸行业的“搜索”和其他行业一样,用户进入任何一个钢贸行业网站,通过输入关键词就可以进行搜索。在钢贸行业,用于查找目标信息的给定区域范围称之为“资源池”。钢贸行业的“资源池”一般包括如下信息:品类、材质、规格、钢厂、仓库、价格、数量、尺寸等等。另外,“资源池”中的数据一般为每天甚至每小时进行不断地更新数据。现代化钢贸行业网站的“资源池”数据一般由不同的钢材供应商及平台运营商将包含现货货源信息的原始资源单上传至网站,然后再汇总至网站的数据库中得来的。这些原始资源单一般以常见的文档格式上传,如word、excel或txt文档。由于每个供应商或平台运营商上传的资源单格式不尽相同,有的甚至是没有格式的纯自然语言,但是最终需要存储至数据库的数据必须严格按照网站要求的行列规整的数据表,因此,需要将各种杂乱无章的、格式多样、多种版本的资源单中数据提取出来,整理、筛选、组织成统一格式的有效数据。现有的数据解析平台是通过使用donet技术所开发的代码提供多个业务并针对不同格式的资源单进行数据解析。由于每个供应商或平台运营商提供的非标准资源单存在地域差异性,而且每一种格式的资源单需要使用单独的规则配置,因此,这就会增加数据解析的复杂度。另外,现有的数据解析平台是在单个机器上同时运行多个业务,容易造成数据解析时资源紧缺及系统性能下降。另外,现有的数据解析平台所使用的业务无法对占用空间较大的资源单和占用空间较小的资源单区分处理,这样会导致适宜处理占用空间较小的资源单的业务在处理占用空间较大的资源单时发生如卡死的异常情况,并且影响到其他业务执行数据解析的操作。另外,现有的数据解析平台在解析过程中,只支持固定一调度方,扩展性较差且难以维护。有鉴于此,需提供一种新的数据解析方法及其系统以解决上述问题。
技术实现思路
本专利技术的目的在于,提供一种钢贸行业现货资源的数据解析方法,所述方法是通过使用统一的接口来获取待解析的资源单,并利用一内置的解析规则模块将原始的资源单解析转变为具有标准格式的数据文档,以供多个调用方使用,从而实现解析分离,使得各个调用方的预设解析规则彼此不受影响,而且支持多种格式的资源单的解析以及超大文件的处理。且,所述方法具有实时维护、准确率高、效率佳及可扩展强等特点。为了解决上述问题,本专利技术提供了一种钢贸行业现货资源的数据解析方法,其包括以下步骤:(1)调用方发送一资源单解析请求至第一服务器;(2)第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;(3)解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;(4)解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;(5)解析服务器发送一解析结果至所述调用方,并且更新所述第二服务器中相应的待解析任务请求的标识。在本专利技术的一实施例中,在步骤(2)中,所生成的待解析任务请求中包括唯一的任务标识号,所述任务标识号用于区分不同的待解析任务请求,以便于在解析服务器发送解析结果至调用方之后,调用方识别出所述解析结果中的任务标识号,并根据所述解析结果中的地址信息从相应的文件服务器中调用与所述任务标识号相对应的数据文档。在本专利技术的一实施例中,在步骤(2)中,所生成的待解析任务请求中还包括一来源信息标识,所述来源信息标识用于区分不同的调用方。在本专利技术的一实施例中,在步骤(4)中,进一步包括:(41)解析服务器对所述原始资源单进行预处理操作;(42)在预处理操作之后,解析服务器对所述原始资源单进行数据提取操作,以获得标准的待处理数据结构体;(43)解析服务器对所述待处理数据结构体进行格式化操作;(44)解析服务器输出标准格式的数据文档。在本专利技术的一实施例中,在步骤(41)中进一步包括:(411)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为word文档,若是,则执行步骤(412),若不是,则执行步骤(42);(412)加载word解析程序,将所述word文档转化为文本文档,并返回至步骤(42)。在本专利技术的一实施例中,在步骤(42)中进一步包括:(421)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为excel文档;若是,则执行步骤(422),若不是,则直接执行步骤(423);(422)加载excel解析程序,通过POI方式读取所述excel文档,并将其转化为待处理数据结构体,并返回至步骤(43);(423)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为文本文档,若是,则执行步骤(424),若不是,则解析服务器发送一解析异常消息至第二服务器;(424)加载文本解析程序,逐行读取所述文本文档,并通过正则表达式及穷举词库转化为待处理数据结构体,并返回至步骤(43)。在本专利技术的一实施例中,在步骤(43)中,进一步包括:(431)解析服务器对待处理数据结构体中的信息项进行补全操作;(432)解析服务器对待处理数据结构体中的重复信息项进行清洗操作;(433)解析服务器对待处理数据结构体中的信息项进行拆分操作。另外,本专利技术还提供一种钢贸行业现货资源的数据解析系统,包括:一资源单解析请求模块,所述资源单解析请求模块用于使用方发送一资源单解析请求至第一服务器;一待解析任务请求生成模块,所述待解析任务请求生成模块与所述资源单解析请求模块相连,所述待解析任务请求生成模块用于使第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;一原始资源单获取模块,所述原始资源单获取模块与所述待解析任务请求生成模块相连,所述原始资源单获取模块用于使解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;一标准数据文档生成模块,所述标准数据文档生成模块与所述原始资源单获取模块相连,所述标准数据文档生成模块用于使解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;一解析结果生成模块,所述解析结果生成模块与所述标准数据文档生成模块相连,所述解析结果生成模块用于使解析服务器发送一解析结果至所述调用方,并且更新所述第二服务器中相应的待解析任务请求的标识。在本专利技术的一实施例中,所述待解析任务请求生成模块还用于使所生成的待解析任务请求中包括唯一的任务标识号,所述任务标识号用于区分不同的待解析任务请求,以便于在解析服务器发送解析结果至调用方之后,调用方识别出所述解析结果中的任务标识号,并根据所述解析结果中的地址信息从相应的文件服务器中调用与所述任务标识号相对应的数据文档。在本专利技术的一实施例中,所述待解析任务请求生成模块还用于使所生成的待解析任务请求中还包括一来源信息标识,所述来源信息标识用于区分不同的调用方。在本专利技术的一实施例中,所述标准数据文档生成模块进一步包括:一原始资源单预处理单元,所述原始资源单预处理单元用于使解析服务器对所述原始资源单进行预处理操作;本文档来自技高网
...
一种钢贸行业现货资源的数据解析方法及其系统

【技术保护点】
一种钢贸行业现货资源的数据解析方法,其特征在于,包括以下步骤:(1)调用方发送一资源单解析请求至第一服务器;(2)第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;(3)解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;(4)解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;(5)解析服务器发送一解析结果至所述调用方,并且更新所述第二服务器中相应的待解析任务请求的标识。

【技术特征摘要】
1.一种钢贸行业现货资源的数据解析方法,其特征在于,包括以下步骤:(1)调用方发送一资源单解析请求至第一服务器;(2)第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;(3)解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;(4)解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;(5)解析服务器发送一解析结果至所述调用方,并且更新所述第二服务器中相应的待解析任务请求的标识。2.根据权利要求1所述的数据解析方法,其特征在于,在步骤(2)中,所生成的待解析任务请求中包括唯一的任务标识号,所述任务标识号用于区分不同的待解析任务请求,以便于在解析服务器发送解析结果至调用方之后,调用方识别出所述解析结果中的任务标识号,并根据所述解析结果中的地址信息从相应的文件服务器中调用与所述任务标识号相对应的数据文档。3.根据权利要求1所述的数据解析方法,其特征在于,在步骤(2)中,所生成的待解析任务请求中还包括一来源信息标识,所述来源信息标识用于区分不同的调用方。4.根据权利要求1所述的数据解析方法,其特征在于,在步骤(4)中,进一步包括:(41)解析服务器对所述原始资源单进行预处理操作;(42)在预处理操作之后,解析服务器对所述原始资源单进行数据提取操作,以获得标准的待处理数据结构体;(43)解析服务器对所述待处理数据结构体进行格式化操作;(44)解析服务器输出标准格式的数据文档。5.根据权利要求4所述的数据解析方法,其特征在于,在步骤(41)中进一步包括:(411)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为word文档,若是,则执行步骤(412),若不是,则执行步骤(42);(412)加载word解析程序,将所述word文档转化为文本文档,并返回至步骤(42)。6.根据权利要求4所述的数据解析方法,其特征在于,在步骤(42)中进一步包括:(421)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为excel文档;若是,则执行步骤(422),若不是,则直接执行步骤(423);(422)加载excel解析程序,通过POI方式读取所述excel文档,并将其转化为待处理数据结构体,并返回至步骤(43);(423)解析服务器通过加载于内存的预设解析规则进行判断原始资源单是否为文本文档,若是,则执行步骤(424),若不是,则解析服务器发送一解析异常消息至第二服务器;(424)加载文本解析程序,逐行读取所述文本文档,并通过正则表达式及穷举词库转化为待处理数据结构体,并返回至步骤(43)。7.根据权利要求4所述的数据解析方法,其特征在于,在步骤(43)中,进一步包括:(431)解析服务器对待处理数据结构体中的信息项进行补全操作;(432)解析服务器对待处理数据结构体中的重复信息项进行清洗操作;(433)解析服务器对待处理数据结构体中的信息项进行拆分操作。8.一种钢贸行业现货资源的数据解析系统,其特征在于,包括:一资源单解析请求模块,所述资源单解析请求模块用于使用方发送一资源单解析请求至第一服务器;一待解析任务请求生成模块,所述待解析任务请求生成模块与所述资源单解析请求模块相连,所述待解析任务请求生成模块用于使第一服务器通过异步方式生成待解析任务请求,并将所述待解析任务请求存储至第二服务器;一原始资源单获取模块,所述原始资源单获取模块与所述待解析任务请求生成模块相连,所述原始资源单获取模块用于使解析服务器定时从所述第二服务器调取所述待解析任务请求,并从文件服务器获得与所述待解析任务请求相对应的原始资源单;一标准数据文档生成模块,所述标准数据文档生成模块与所述原始资源单获取模块相连,所述标准数据文档生成模块用于使解析服务器通过一内置的解析规则模块将所述原始资源单解析为标准格式的数据文档,并将所述数据文档存储至所述文件服务器;一解析结果生成模块,所述解析结果生成模块与所述标准数据文档生成模块相连,所述解析结果生成模块用于使解析服务器发送一解...

【专利技术属性】
技术研发人员:张家卫李剑袁刚马志鑫朱成军
申请(专利权)人:上海找钢网信息科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1