【技术实现步骤摘要】
网页信息收集系统和方法
[0001]本专利技术涉及网页信息收集系统、网页信息收集方法,特别涉及支援行业构造分析的网页信息收集系统、网页信息收集方法。
技术介绍
[0002]近年来,随着互联网的普及,企业、个人将信息向网页站点公开的情况不断增加。收集网站上公开的信息(以下,称为网页信息)进行营销策略、企业策略制定越来越多。这就要求对收集到的网页信息适当地进行分类、整理。由于人工整理成本太高,现有技术中已经出现根据需要整理的目标文件对网站信息进行分类整理的方法。
[0003]现有的方法利用网页信息公开了附加有表示信息的属性的源码信息(例如,RDF (Resource Description Framework:资源描述框架)等)进行信息的分类/整理。
[0004]为了判定网页信息是否包含所需的的信息,对内容(文本)进行词法分析、语法分析,并且与产品信息数据的匹配。但是,经常会发生网页信息的内容的表现方式、波动、词法的表记错误等,有时无法取得直接相关的信息的情况。
[0005]在网页信息未包括与所需的背景知 ...
【技术保护点】
【技术特征摘要】
1.一种网页信息收集系统,其特征在于,包括:关键词生成模块(10),其能够根据用户指定的文档生成关键词;信息收集模块(20),其用于收集随附于所述网页信息的源码;规则存储模块(30),其预设有关键词和网页信息的源码的对应规则;数据库(50),其用于存储所述关键词和收集到的所述网页信息和所述源码;以及判定模块(40),其基于所述关键词和收集到的所述源码信息来判断所述关键词和网页信息源码是否符合所述的对应规则,如果符合所述对应规则,则将所述关键词、所述网页信息和所述源码对应存入所述数据库,如果不符合所述对应规则,则处理结束。2.根据权利要求1所述的网页信息收集系统,其特征在于,所述关键词生成模块使用词向量的算法进行聚类统计。3.根据权利要求1...
【专利技术属性】
技术研发人员:胡日勒,
申请(专利权)人:盐城至新达科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。