【技术实现步骤摘要】
本专利技术属于计算机应用领域,涉及TOB数据爬取及信息获取,尤其涉及一种基于高频字图模型的De印Web数据爬取方法。
技术介绍
由于Deep Web数据存储在Web数据库中,用户只有向查询表单提交查询,才能访问其中的数据。De印Web数据爬取时,每次使用查询词向其查询接口提交查询后,Web服务器会从后台数据库中获取包含满足查询条件数据,将其组织为查询结果列表页面。Deep Web比Surface Web蕴含了更多有价值的信息,在市场情报分析、舆情分析、 电子商务等应用系统中,都需要尽可能全面地爬取De印Web数据,但是De印Web特殊访问方式阻碍了对其内容的获取,因此,为了给分析挖掘提供更为丰富的数据,如何进行Deep Web数据爬取最大限度地获取Deep Web数据页面是一个重要的研究内容,其中关键问题主要集中在如何选择合适查询词,以较少次的数据库查询获得尽可能高的数据覆盖,特别是对于中文环境下的DeepWeb数据获取,查询词选择的难度更大。Raghavan S.等提出了 HiTO框架模型,主要通过手工提供查询词或者从查询结果中手工获取查询词,而没有考虑自动产 ...
【技术保护点】
1.一种基于高频字图模型的Deep Web数据爬取方法,其特征是,该方法的实现步骤如下:步骤1:使用采样数据库和汉字频度表作为输入,统计获得属性高频字列表和属性高频字覆盖率图;步骤2:将属性高频字列表中的第一个汉字用作查询关键字;步骤3:根据查询关键字,查询接口向Web数据库提交查询请求;步骤4:Web数据库响应查询请求,将查询结果集合组织为Deep Web动态页面;步骤5:获取相应的Deep Web页面,得到结构化数据记录,将这些记录放入本地数据库;步骤6:如果查询覆盖率达到δ则转步骤7,否则对每一个候选汉字统计属性高频字覆盖率图模型中已提交字的覆盖率之和,其值最小的为最 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:禹晓辉,闫中敏,彭朝晖,
申请(专利权)人:山东英佰德信息科技有限公司,
类型:发明
国别省市:88
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。