一种基于数据标签海量网页的数据提取识别方法和系统技术方案

技术编号:38499990 阅读:32 留言:0更新日期:2023-08-15 17:08
公开了基于数据标签海量网页的数据提取识别方法和系统,包括获取HTML文档,HTML文档包括HOST、URL、HTTP HEAD、HTTP CONTENT;利用hostinfo标记HTTP HOST,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;利用urlinfo标记HTTP URL,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;根据HTTP HOST和HTTP URL匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。本申请通过标签提取网页内容并还原网页内容的真实含义,具备一次配置标签模板反复使用的特点,按网站域名进行标签模板配置方便管理,极大提升了网页内容提取的效率和精确度。极大提升了网页内容提取的效率和精确度。极大提升了网页内容提取的效率和精确度。

【技术实现步骤摘要】
一种基于数据标签海量网页的数据提取识别方法和系统


[0001]本专利技术涉及网页数据提取的
,尤其是一种基于数据标签海量网页的数据提取识别方法和系统。

技术介绍

[0002]现今的网页数据提取识别大多是对网页文本的提取。具体来说就是将网页数据保存成海量图片快照,再通过OCR、机器学习等技术手段扫描辨识图片快照,将图片快照中的内容还原成文本。
[0003]目前网页数据识别提取仅仅是做到将网页中的内容提取成文本;并没有深入理解提取的文本的含义。

技术实现思路

[0004]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种基于数据标签海量网页的数据提取识别方法和系统,以解决上述技术问题。
[0005]根据本专利技术的一个方面,提出了一种基于数据标签海量网页的数据提取识别方法,包括:
[0006]S1:获取HTML文档,HTML文档包括HOST、URL、HTTP HEAD、HTTP CONTENT;
[0007]S2:利用hostinfo标记HTTP HOST,属性包括主机名host、主机编本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据标签海量网页的数据提取识别方法,其特征在于,包括:S1:获取HTML文档,所述HTML文档包括HOST、URL、HTTP HEAD、HTTP CONTENT;S2:利用hostinfo标记HTTP HOST,属性包括主机名host、主机编码hostid和主机说明desc,根据host属性逐级匹配对应提取模板,匹配各级子域名直至匹配到提取模板;S3:利用urlinfo标记HTTP URL,属性包括url、urlid、dec、fullmatch,根据url属性在对应提取模板中匹配符合的提取规则;S4:根据所述HTTP HOST和HTTP URL匹配到对应的提取模板后,利用模板内定义的getinfo提取规则进行内容提取。2.根据权利要求1所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述HTML文档根据请求方式不同所述HTML包括HTTP GET、HTTP POST,所述HTTP POST的请求参数方式包括URLENCODE、FORMDATA。3.根据权利要求2所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述getinfo的属性包括指定解析类型pType、指定数据来源srcData、指定自定义处理类class和自定义解码器decode。4.根据权利要求3所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述指定解析类型pType包括:按照url编码规则对数据进行分解和解析,pType取值为PTCFG_CURLENCODE;按照中间字符串截取方式对数据进行分解和解析,pType取值为PTCFG_MIDSTR;按照XML文档规范对数据进行分解和解析,pType取值为PTCFG_XMLPAR;按照json对数据进行分解和解析,pType取值为PTCFG_JSONPAR;自定义解析器,指定Java类进行处理,class属性配置类名,pType取值为PTCFG_CLASS;按照HTTP content

type=formdata表单类型对数据进行分解和解析,pType取值为PTCFG_FORMDATA;按照HTTP HEAD方式对数据分解和解析,pType取值为PTCFG_HEADPARAM。5.根据权利要求4所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述指定数据来源srcData包括:从所述HTTP POST中获取信息,srcData取值为H_REQ_POSTDATA,指定解析类型pType取值包括PTCFG_CURLENCODE、PTCFG_MIDSTR、PTCFG_FORMDATA、PTCFG_FORMDATASEQ、PTCFG_CLASS、PTCFG_XMLPAR、PTCFG_JSONPAR;从HTTP COOKIES中获取信息,srcData取值为H_REQ_COOKIE,指定解析类型pType取值包括PTCFG_CURLENCODE、PTCFG_MIDSTR、PTCFG_CLASS;从所述HTTP URL中获取信息,srcData取值为H_REQ_URL,指定解析类型pType取值包括PTCFG_CURLENCODE、PTCFG_MIDSTR、PTCFG_CLASS;从所述HTTP GET中获取信息,srcData取值为H_REQ_GETDATA,指定解析类型pType取值包括PTCFG_MIDSTR、PTCFG_JSONPAR、PTCFG_CLASS;从HTTP URL中获取信息,srcData取值为H_REQ_URL,指定解析类型pType取值包括PTCFG_CURLENCODE、PTCFG_MIDSTR、PTCFG_CLASS;从所述HTTP POST中的RESPONSE获取信息,srcData取值为H_RESP_RESPDATA,指定解析类型pType取值包括PTCFG_MIDSTR、PTCFG_JSONPAR、PTCFG_CLASS;
从HTTP COOKIES和HTTP POST中获取信息,srcData取值为H_REQ_COOKIEPOST,指定解析类型pType取值包括PTCFG_CLASS;从HTTP HEAD中获取信息,srcData取值为H_REQ_HTTPHEAD,指定解析类型pType取值包括PTCFG_HEADPARAM、PTCFG_MIDSTR、PTCFG_CLASS;从HTTP RESPONSE HEAD中获取信息,srcData取值为H_RESP_RESPHEAD,指定解析类型pType取值包括PTCFG_HEADPARAM、PTCFG_MIDSTR、PTCFG_CLASS;从HTTP GET HEAD中获取信息,srcData取值为H_REQ_GETHEAD,指定解析类型pType取值包括PTCFG_HEADPARAM、PTCFG_MIDSTR、PTCFG_CLASS。6.根据权利要求1所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述getinfo提取规则中还包括利用todata定义具体提取项,属性包括元素名name、获取数据方式keystring、自定义编码器decode和指定自定义处理类class。7.根据权利要求6所述的基于数据标签海量网页的数据提取识别方法,其特征在于,所述元素名name用于设置文本语义表中定义的数据项;所述获取数据方式keystring用于设置数据获取方式,与pType属性设置的解析方式一一对应;所述自定义编码器decode用于设置解码器,在HTML文档内容与内容提取器编码不一致时,在内容提取前根据解码器设置的规则进行解码后进行内容提取;所述指...

【专利技术属性】
技术研发人员:张文张永光刘襄雄许一郎古松景倪艳玉
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1