【技术实现步骤摘要】
网页中标数据结构化方法及装置
[0001]本专利技术涉及数据处理
,尤其涉及一种网页中标数据结构化方法及装置。
技术介绍
[0002]中标信息常用于分析、统计科学仪器行业的各种仪器,是相关部门对器械进行掌握和决策的基础,具有有非常重要的意义,其中,中标信息包括各种仪器购买情况、分布情况、供应商分布情况以及购买单位情况等。中标信息大多分布于中央、地方、科研机构以及高校等多种类型的采购网站中。由于不同网站可能存在中标数据格式不一致的情形,同一网站中的中标数据可能存在多个表格互相嵌套、同一表格存在多个表头、表格中存在合并单元格以及不存在表格等情形,以致无法统一对中标数据进行分析和统计。
[0003]目前,中标信息抽取的方式通常采用两种服务模式,第一种是采用无需标注和模型训练的基础服务,第二种是采用需要标注和模型训练的服务,两种服务均是以api格式将指定字段的值和百分比以Json形式输出。
[0004]然而,第一种服务中仅指出中标概况的字段,未对中标标的物的品牌、型号、数量以及单价等属性进行解析,以致无法准确统 ...
【技术保护点】
【技术特征摘要】
1.一种网页中标数据结构化方法,其特征在于,包括:获取网页中标数据;循环读取所述网页中标数据,并基于预先建立的解析预测模型和结构化映射模板,确定选择表格解析模型或键值解析模型,以对所述网页中标数据进行解析,并将解析结果存储至关系型数据库中。2.根据权利要求1所述的网页中标数据结构化方法,其特征在于,基于预先建立的解析预测模型和结构化映射模板,确定选择表格解析模型或键值解析模型,包括:循环读取所述网页中标数据中的文本信息和所述文本信息对应的节点位置,并基于所述文本信息和所述文本信息对应的节点位置构建第一数组;循环每个所述文本信息,并利用所述文本信息在预先建立的结构化映射模板中进行查询,并根据查询结果更新所述第一数组;基于预设列名,将所述第一数组分别转化为具有二维表格型数据结构的第二数组,所述预设列名包括字段名称列、预设值列和路径文本列;读取所述第二数组中字段名称为非0的行,组成第三数组,并根据文本所在节点位置至最近父节点的路径文本和所述文本最近的行与所述行在其父表格内的行号,对所述第三数组进行分组;根据分组结果,基于字段名称列包含至少两个维度的字段名称和预设值列为第一预设值,对各分组进行筛选,若得到筛选结果,则基于与对应分组的路径文本列相同且大于所述对应分组父表行号列内行号,对各分组进行筛选,得到二次筛选结果;若所述二次筛选结果预设列值为第二预设值,得到数组集合,则选择表格解析模型对相应网页中标数据进行解析,否则,选择键值解析模型对相应网页中标数据进行解析。3.根据权利要求2所述的网页中标数据结构化方法,其特征在于,所述根据查询结果更新所述第一数组,包括:基于得到查询结果,选择所述文本信息中等级类型最高的字段名称添加至所述第一数组;否则,对所述第一数组中的文本信息添加第一预设值,并分别利用每行文本信息在预先建立的标的物特征表中进行相似度查询;基于得到相似度查询结果,对所述第一数组中的文本信息的预设列添加第二预设值,否则,对所述第一数组中的文本信息的预设列添加所述第一预设值。4.根据权利要求1所述的网页中标数据结构化方法,其特征在于,确定选择所述表格解析模型对相应网页中标数据进行解析,以对所述网页中标数据进行解析,并将解析结果存储至关系型数据库中,包括:基于XML路径语言,提取所述网页中标数据中的表格数据;循环每个表格数据,并根据XML路径语言轴解析出表格提示文本信息,所述表格提示文本信息对应非表格标签的文本信息,且所述表格提示文本信息与对应表格数据距离最近且同级;将所述表格提示文本信息与预先基于关系型数据库获取的标的物提示语进行相似度匹配;基于相似度匹配成功,选择对应表格数据,并结合所述结构化映射模板,对所述表格数据进行解析。
5.根据权利要求4所述的网页中标数据结构化方法,其特征在于,所述基于相似度匹配成功,选择对应表格数据,并结合所述结构化映射模板,对所述表格数据进行解析,包括:Sa,基于相似度匹配成功,选择对应表格数据,并基于XML路径语言,对所述表格数据进行解析,得到对应行数据;Sb,循环每个行数据,并基于解析提取源代码数据工具,解析得到对应各所述行数据每个单元格的文本信息;Sc,根据所述行数据和对应各所述行数据每个单元格的文本信息,并基于Numpy,构建第一序列化矩阵;Sd,将所述第一序列化矩阵各行的每个元素分别与所述结构化映射模板进行比较,并基于存在元素符合所述结构化映射模板,将对应元素所在行数据作为表头,并根据所述表头对相应所选表格数据进行划分,得到子表格数据;Se,基于所述Numpy,将所述子表格数据进行序列化,得到第二序列化矩阵;Sf,循环所述第二序列化矩阵,基于各所述第二序列化矩阵首行的各个元素以及预设查询规则,对所述结构化映射模板的字段名称进行查询,以基于查询结果,更新预设数组和第一字符串;Sg,查询更新后的预设数组中元素值符合第三预设值的索引,并删除所述索引对应的第二序列化矩阵中的列,判断能否得到第三序列化矩阵;Sh,基于得到所述第三序列化矩阵,循环所述第三序列化矩阵,将更新后的第一字符串作为insert字段的字段名,以及基于预设分隔符将非首行的每行数据的所有元素串联成第二字符串,并将所述字段名和所述第二字...
【专利技术属性】
技术研发人员:刘成书,王涛,杨瑞龙,韩博,刘真,武自伟,林沙平,张丽娟,唐海霞,
申请(专利权)人:北京信立方科技发展股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。