一种元数据采集方法和系统技术方案

技术编号:12128064 阅读:94 留言:0更新日期:2015-09-25 16:59
本发明专利技术公开的元数据采集方法和系统,采用自顶向下的方式,首先获取数据源中目标数据内容的布局结构,其中数据源包含N个布局结构相同的目标数据内容;并基于所述布局结构建立元数据提取规则,该规则能够反映各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系;之后依据所述元数据提取规则,对所需的元数据内容进行定位、提取,实现元数据采集。可见,本发明专利技术通过制定元数据提取规则,实现了对所需的元数据内容进行精确定位,进而实现了高准确度元数据的提取,为数据共享和交易平台的高水准服务提供了支持。

【技术实现步骤摘要】

本专利技术属于数据存储平台中的数据提取
,尤其涉及一种元数据采集方法和系统
技术介绍
元数据是描述数据的数据,用于描述数据的特征与属性,是海量信息组织、检索和查询的物质基础,可应用于数据共享和交易平台的数据定位中。在数据共享和交易平台中,元数据的准确性会直接影响用户对其所需数据的定位速度,而让用户快速定位到所需数据是数据共享和交易平台最基本的服务要求,因此对元数据的准确性要求较高。传统的元数据提取方法多为自下而上的方法,一般从数据(譬如公布于网上的大量科技文献)所在的网页入手,通过对数据进行语法分析、提取、汇总、统计、挖掘或机器学习,形成最终的元数据。此类方法无法保证最终所提取元数据的准确性和正确性,从而无法满足数据共享和交易平台对元数据的准确性要求。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种元数据采集方法和系统,旨在通过自顶向下对元数据进行精准定位,实现高准确度元数据的提取,为数据共享和交易平台的高水准服务提供支持。为此,本专利技术公开如下技术方案:一种元数据采集方法,包括:获取数据源中目标数据内容的布局结构;所述数据源包含N个布局结构相同的目标数据内容,N为自然数;基于所述布局结构建立元数据提取规则;其中,所述元数据提取规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性;依据所述元数据提取规则,在各个目标数据内容中对各元数据属性对应的元数据内容进行定位、提取。上述方法,优选的,所述数据源为预设网站,则所述获取数据源中目标数据内容的布局结构包括:获取所述预设网站中目标数据内容所在网页的网页源代码;基于所述网页源代码,生成超文本标记语言HTML标签树;其中,所述HTML标签树包含P个HTML标签节点,各HTML标签节点对应相应的元数据标签,各HTML标签节点间的节点关系反映相应元数据标签在目标数据内容中的布局关系,每个元数据标签在目标数据内容中对应相应的元数据内容,P为自然数。上述方法,优选的,所述基于所述布局结构建立元数据提取规则为:基于所述HTML标签树,建立每个元数据属性与相应元数据标签间的对应关系。上述方法,优选的,所述元数据标准还规定了预设元数据属性的标准值菜单或取值范围,则所述方法还包括:在提取的元数据内容与相应元数据属性的标准值菜单或取值范围不相符时,对提取的所述元数据内容进行预设处理,并将处理结果与所述元数据属性的标准值菜单或取值范围进行匹配;若匹配失败,则触发人工介入流程。上述方法,优选的,还包括:接收提交者针对目标元数据属性提交的元数据内容,同时将所述目标元数据属性的值更新为提交的所述元数据内容。上述方法,优选的,所述元数据标准还规定了预设元数据属性的同类标签列表,则所述方法还包括:接收用户针对预设的开放性元数据属性添加的属性值或同类标签;在所述属性值或同类标签通过准确性评估后,将所述属性值或同类标签相应添加至所述开放性元数据属性的标准值菜单或同类标签列表中。上述方法,优选的,还包括:在数据源中目标数据内容的布局结构发生变化时,调整、更新所述元数据提取规则。一种元数据采集系统,包括:获取模块,用于获取数据源中目标数据内容的布局结构;所述数据源包含N个布局结构相同的目标数据内容,N为自然数;规则建立模块,用于基于所述布局结构建立元数据提取规则;其中,所述元数据提取规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系;各个所述元数据属性为预先制定的元数据标准所规定的属性;提取模块,用于依据所述元数据提取规则,在各个目标数据内容中对各元数据属性对应的元数据内容进行定位、提取。上述系统,优选的,所述数据源为预设网站,则所述获取模块包括:获取单元,用于获取预设网站中目标数据内容所在网页的网页源代码;生成单元,用于基于所述网页源代码,生成HTML标签树;其中,所述HTML标签树包含P个HTML标签节点,各HTML标签节点对应相应的元数据标签,各HTML标签节点间的节点关系反映相应元数据标签在目标数据内容中的布局关系,每个元数据标签在目标数据内容中对应相应的元数据内容,P为自然数。上述系统,优选的,所述规则建立模块为:规则建立单元,用于基于所述HTML标签树,建立每个元数据属性与相应元数据标签间的对应关系。上述系统,优选的,所述元数据标准还规定了预设元数据属性的标准值菜单或取值范围,则所述系统还包括匹配处理模块,所述匹配处理模块包括:处理单元,用于在提取的元数据内容与相应元数据属性的标准值菜单或取值范围不相符时,对提取的所述元数据内容进行预设处理,并将处理结果与所述元数据属性的标准值菜单或取值范围进行匹配;触发单元,用于在匹配失败时,触发人工介入流程。上述系统,优选的,还包括:人工提交模块,用于接收提交者针对目标元数据属性提交的元数据内容,同时将所述目标元数据属性的值更新为提交的所述元数据内容。上述系统,优选的,所述元数据标准还规定了预设元数据属性的同类标签列表、则所述系统还包括添加模块,所述添加模块包括::接收单元,用于接收用户针对预设的开放性元数据属性添加的属性值或同类标签;添加单元,用于在所述属性值或同类标签项通过准确性评估后,将所述属性值或同类标签项相应添加至所述开放性元数据属性的标准值菜单或同类标签列表中。上述系统,优选的,还包括:规则调整模块,用于在数据源中目标数据内容的布局结构发生变化时,调整、更新所述元数据提取规则。由以上方案可知,本专利技术采用自顶向下的方式,首先获取数据源中目标数据内容的布局结构,其中数据源包含N个布局结构相同的目标数据内容;并基于所述布局结构建立元数据提取规则,该规则能够反映各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系;之后依据所述元数据提取规则,对所需的元数据内容进行定位、提取,实现元数据采集。可见,本专利技术通过制定元数据提取规则,实现了对所需的元数据内容进行精确定位,进而实现了高准确度元数据的提取,为数据共享和交易平台的高水准服务提供了支当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种元数据采集方法,其特征在于,包括:获取数据源中目标数据内容的布局结构;所述数据源包含N个布局结构相同的目标数据内容,N为自然数;基于所述布局结构建立元数据提取规则;其中,所述元数据提取规则包含各个元数据属性与相应元数据内容在目标数据内容中的布局位置之间的对应关系,各个所述元数据属性为预先制定的元数据标准所规定的属性;依据所述元数据提取规则,在各个目标数据内容中对各元数据属性对应的元数据内容进行定位、提取。

【技术特征摘要】

【专利技术属性】
技术研发人员:丰强泽王大亮揭宇飞
申请(专利权)人:数据堂北京科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1