【技术实现步骤摘要】
本专利技术涉及。
技术介绍
随着互联网的高速发展,Web技术的不断改进,越来越多的机构和个人将信息发放到互联网。每天,互联网上都有成千上万的网页被生成,互联网已经成为了一个巨大的信息共享的“图书库”。如何从海量的Web信息中寻找、提取有效的数据信息成为了一个重要的课题。HTML网页是互联网的一种最重要的数据格式,它是一个标签语言,在结合脚本、样式后,由浏览器进行显示。HTML本质是一种半结构化的语言,它适合被渲染后由人类进行浏览,但是却不利于由计算机程序对数据进行识别和抽取。在HTML标签的定义中,是没有语义方面的定义的,内容的展现组合很多,导致程序无法根据标签来判断某个标签的区域是数据区域、广告区域、还是版权声明区域等其他区域。如果过滤HTML网页中的噪声信息,获取所需的数据区域记录已经形成了一门研究课程。Web信息的自动抽取,已有不少研究I.基于统计的方法这种方法是针对新闻、博客等网页的正文提取类任务,有通过DOM树中的特定节点(Table、Div,P)等进行处理来得到网页有用信息,如《基于统计的网页正文信息抽取方法的研究》中认为网页的正文信息一般存在于一个 ...
【技术保护点】
一种基于不完全子树匹配的Web数据记录提取方法,其特征在于:包括如下步骤:?a.根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;b.过滤噪声标记信息;c.利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;d.候选子树集抽取;e.不完全子树匹配;f.数据记录集确定。
【技术特征摘要】
【专利技术属性】
技术研发人员:胡海斌,王慧昌,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。