一种钢贸行业现货资源的数据解析方法及系统技术方案

技术编号:11399865 阅读:77 留言:0更新日期:2015-05-03 14:56
本发明专利技术提供了一种钢贸行业现货资源的数据解析方法及系统,方法包括:1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库。本发明专利技术通过钢材现货穷举词库实现对数据快速解析以及有效限定数据区域;经实测,采用本发明专利技术所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。

【技术实现步骤摘要】
一种钢贸行业现货资源的数据解析方法及系统
本专利技术涉及数据分析
,尤其涉及一种钢贸行业现货资源的数据解析方法及系统。
技术介绍
钢贸行业的“搜索”和其他行业一样,用户进入任何一个钢贸行业的网站,都会在醒目的位置找到搜索框,在搜索框内输入关键词就可以进行搜索。各种行业、领域的搜索框从形式上来看都是大同小异,但是后台的实现方式基于行业或者网站本身的特性是千差万别的。但无论基于何种方式,所有的搜索行为都会在一个给定的区域范围里进行。在钢贸行业,这样的一个用来查找目标信息的给定的区域范围称之为“资源池”。钢贸行业的“资源池”一般包括如下信息:品种、品名、规格、产地、仓库、价格、数量、重量、联系人等等。基于钢贸行业特性,用户在钢贸行业里进行搜索的目的当然是为了买入货物,而已经卖掉的货物或挂着前一天价格的货物并非用户所要查找的目标信息。所以,“资源池”里的数据一定是最新的,必须是搜索出来以后能够以挂牌价格买得到的货物。因此,“资源池”必须每天、甚至每小时源源不断地更新数据。现代化钢贸行业网站的“资源池”数据一般是由不同的钢材供应商将包含现货货源信息的原始资源文档上传到网站,然后再汇总到网站的数据库中得来的。这些原始资源文档一般是以常见的文档格式上传的,比如word、Excel或txt文档。由于每个供应商上传的资源文档格式不尽相同,有的甚至是没有格式的纯自然语言;但最终需要录入到数据库的数据必须是严格按照网站要求的行列规整的数据表;因此需要将各种杂乱无章的、格式多样的资源文档中的数据提取出来,整理、筛选、组织成统一格式的有效数据。现有技术中资源文档的解析对于原始文档内容本身的格式规范要求比较高,必须是行列对齐工整的数据。一旦原始文档不符合要求就无法从中提取有效数据,因此有效数据转化率比较低。
技术实现思路
本专利技术的目的在于,针对现有技术中钢贸行业资源文档的解析对于原始文档内容本身的格式规范要求比较高,存在有效数据转化率比较低的技术问题,提供一种数据解析方法及系统,通过采用钢材现货穷举词库对原始文档进行解析拆分,大幅提高了有效数据转化率。为实现上述目的,本专利技术提供了一种钢贸行业现货资源的数据解析方法,包括:(1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库。为实现上述目的,本专利技术还提供了一种钢贸行业现货资源的数据解析系统,包括:文档获取单元、拆分单元、解析单元以及数据清洗单元;所述文档获取单元,用于获取包含钢材现货资源的文本文档;所述拆分单元与所述文档获取单元相连,用于加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;所述解析单元与所述拆分单元相连,用于对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;所述数据清洗单元与所述解析单元相连,用于清洗解析后的数据,得到完整的数据信息并存储入库。本专利技术的优点在于:通过钢材现货穷举词库实现对数据快速解析以及有效限定数据区域;经实测,采用本专利技术所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。附图说明图1,本专利技术所述的钢贸行业现货资源的数据解析方法的流程示意图;图2,本专利技术所述的钢贸行业现货资源的数据解析系统的架构示意图。具体实施方式下面结合附图对本专利技术提供的钢贸行业现货资源的数据解析方法及系统做详细说明。参考图1,本专利技术所述的钢贸行业现货资源的数据解析方法流程示意图。所述方法包括,S12:获取包含钢材现货资源的文本文档;S14:加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;S16:对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;S18:清洗解析后的数据,得到完整的数据信息并存储入库。以下对本专利技术所述的方法进行详细说明。S12:获取包含钢材现货资源的文本文档。获取包含钢材现货资源的文档可能包含.doc或.docx形式的word文档以及.txt形式的文本文档。对于文本文档可以直接采用本专利技术所述方法进行解析,对于word文档则需先转换成文本文档。因此,作为优选的实施方式,本专利技术所述方法进一步包括判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档,使文档格式统一化。S14:加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合。钢材现货穷举词库内记录后钢材的品名、材质、钢厂、规格、厚度、宽、仓库等;根据钢材现货穷举词库,即可解析出所获取的文本文档的每一行中各数据所代表的具体信息。钢贸行业中对于钢材规格的表述是有一定规律的,一般总是包含以下特征内容的字符串:数字、星号(*)、斜杠(/)、反斜杠(\)、短横杠(-)、单位名称(例如:mm,毫米)、求和符号(Σ)等。以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分。例如,一行数据源为本钢Q235B2.5*1250=3650,2.7*1250/1500HPCC3630;利用钢材现货穷举词库对该行数据源进行扫描解析,可以解析出2.5*1250为一钢材规格串,2.7*1250/1500为一钢材规格串,因此将2.7*1250/1500及其之后的数据从原行中拆分出来作为新一行。为了避免误读数据,可以在拆分前加载钢材现货穷举词库以及数字对应汉字编码,解析出品名、材质、钢厂、仓库,并将品名、材质、钢厂、仓库进行数字转换中文处理,避免解析钢材规格时出现误读,造成拆分失败。数字对应汉字编码中,每一阿拉伯数字对应一中文大写汉字数字;即“0123456789”对应“零壹贰叁肆伍陆柒捌玖”。例如对于数据409L/2D,利用钢材现货穷举词库解析出其为一种钢材材质,则利用数字对应汉字编码,将数据409L/2D转换成肆零玖L/贰D;从而避免解析钢材规格时出现误读。在解析、拆分完成后,再将这些中文相应转换成数字,以便于使用者查阅。为了保证拆分后每一行数据的完整性,作为优选的实施方式,本专利技术进一步定义全局变量,并将所述全局变量带入每一行拆分后的对应下层,所述全局变量包括品名、材质、钢厂、仓库的至少其中之一。也即,当一行中包含品名、材质、钢厂、仓库等数据时,这些数据将作为全局变量带入下层,保证拆分后每一行数据的完整性。定义的全局变量可以在步骤S14进行拆分的同时,直接带入拆分出的对应下层;也可以在拆分后将全局变量带入拆分后的对应下层。其中,每一行的局部变量优先级高于所述全局变量的优先级,从而在将全局变量带入拆分后的对应下层时,不会出现跨行带入。也即本行的全局变量只会带入本行拆分出的对应下层内;解析到下一行时,获取当前行对应的全局变量进行后续的带入。S16:对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条。通过步骤S14的操作得到钢材现货数据集合本文档来自技高网
...
一种钢贸行业现货资源的数据解析方法及系统

【技术保护点】
一种钢贸行业现货资源的数据解析方法,其特征在于,包括:(1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库。

【技术特征摘要】
1.一种钢贸行业现货资源的数据解析方法,其特征在于,包括:(1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合,以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库;步骤(2)进一步包括:(21)定义全局变量,并将所述全局变量带入每一行拆分后的对应下层,其中每一行的局部变量优先级高于所述全局变量的优先级,所述全局变量包括品名、材质、钢厂、仓库的至少其中之一;步骤(3)进一步包括:根据钢材规格与钢材价格对应关系,将包含并列信息的钢材规格和/或钢材价格数据分解为多条。2.根据权利要求1所述的数据解析方法,其特征在于,步骤(1)之前进一步包括:(10)判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档。3.根据权利要求1所述的数据解析方法,其特征在于,步骤(2)之前进一步包括:(20)加载钢材现货穷举词库以及数字对应汉字编码,对所述文本文档中包含的品名、材质、钢厂、仓库进行数字转换中文处理。4.一种钢贸行业现货资源的数据解析系统,其特征在于,包括:文档获取单元、拆分单元、解析单元以及数据清洗单元;所述文档获...

【专利技术属性】
技术研发人员:衡宏昌
申请(专利权)人:上海钢富电子商务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1