网络信息获取方法和装置制造方法及图纸

技术编号:5208946 阅读:180 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网络信息获取方法和装置,其中,该方法包括:通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。通过使用本发明专利技术,能够避免人工编写新的搜索引擎,借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率,有效提高搜索的灵活性,最大程度上保证搜索结果的准确性。

【技术实现步骤摘要】

本专利技术涉及通信领域,尤其涉及一种网络信息获取方法和装置
技术介绍
随着网络的不断发展和普及,互联网正在为人们的日常工作和生活提供越来越多 的信息。利用网络的搜索引擎进行搜索是从网络获取信息的一个重要途径。目前,网络上 的搜索引擎会根据用户输入的关键字进行搜索,并将搜索到的与关键字匹配的条目呈献给 用户。由于网路搜索引擎的功能很强,因此能够搜索到的条目非常多,但是,在这些搜索到 的条目中,有很多条目仅仅是包含用户提供的关键词,但是其主要内容与用户期望搜索的 内容并不匹配,并且,对于一些实时变换的信息,很可能会有已经过期的旧内容被搜索到, 因此,如果用户要得到其期望的内容,就需要根据自己的判断对这些搜索条目进行逐条筛 选,从而增加用户的工作量。例如,在现阶段的导航电子地图数据生产过程中,基本上都是通过人工来进行情 报数据的获取和更新,由于路况信息的更新比较快,这种人工获取数据的方式已经很难满 足大规模地理信息数据生产的需求,并且难以适应信息的更新。针对这种人工筛选搜索条目工作量很大的问题,很多设计者都提出了通过编写软 件在网上搜索并过滤条目的搜索技术,但是这些技术大多需要自行编写搜索引擎以及索引 库,并且需要配置复杂的过滤模板才能够进行搜索条目的过滤,如果需要更改搜索的条件 就需要重新配置搜索模板,灵活性较差;并且,不论是搜索引擎的编写还是模板的配置都会 产生很大的工作量,不能够有效提高搜索的效率,且配置的搜索引擎很可能不能够全面搜 集数据,导致信息的遗漏。针对相关技术中网络信息获取人工操作量大、灵活性差的问题,目前尚未提出有 效的解决方案。专利技术内容针对相关技术中网络信息获取人工操作量大、灵活性差的问题,本专利技术提出一种 网络信息获取方案,能够使网络信息的获取具有更好的灵活性,并且减少人工操作。本专利技术的技术方案是这样实现的根据本专利技术的一个方面,提供了 一种网络信息获取方法。根据本专利技术的网络信息获取方法包括通过执行预设的搜索任务来利用元搜索引 擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的网络 信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络 fn息ο其中,在搜索到与关键词相关的网络信息之后、进行价值评分之前,该方法可进一 步包括将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;对统一编码后的网络信息进行参数提取,得到结构化的网络信息。另外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括根据预设 的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网 络信息删除。此外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括根据预设 的标题过滤规则对搜索到的网络信息的标题进行过滤评分,并将过滤评分未达到第二分数 阈值的标题所对应的网络信息删除。可选地,保存价值评分达到第一分数阈值的网络信息的处理具体可以包括对于 价值评分达到第一分数阈值的网络信息,根据该网络信息的价值评分和过滤评分得到综合 评分,并将得到的综合评分与相应的网络信息一并保存。根据本专利技术的另一方面,提供了一种网络信息获取装置。根据本专利技术的网络信息获取装置包括搜索模块,用于通过执行预设的搜索任务 来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;分析模块,用于根据预设的 模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分;存储模 块,用于存储价值评分达到第一分数阈值的网络信息。其中,搜索模块可以进一步包括第一处理子模块,用于将统一资源定位符相同的 网络信息合并,并统一搜索到的网络信息的编码;第二处理子模块,用于对统一编码后的网 络信息进行参数提取,得到结构化的网络信息。并且,分析模块可以进一步包括第一分析子模块,用于根据预设的时间过滤规则 对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除;第 二分析子模块,根据预设的标题过滤规则对第一分析子模块过滤后剩余的网络信息的标题 进行匹配并给出过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删 除;第三分析子模块,用于根据模糊过滤规则第二分析子模块过滤后剩余的网络信息进行 价值评分。此外,分析模块还可用于根据价值评分达到第一分数阈值的网络信息的价值评分 和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并提供给存储模块进 行保存。本专利技术通过元搜索引擎并结合关键词进行搜索,能够避免人工编写新的搜索引 擎,能够借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率;并且,由 于搜索基于关键词进行,所以能够有效提高搜索的灵活性,如果用户希望变更搜索条件仅 需要修改关键词即可,而无需更换预先配置的整个搜索模板或索引库;此外,由于采用了模 糊过滤规则并基于搜索结果的相关性进行过滤,从而能够最大程度上保证搜索结果的准确 性,并且能够避免将有用的搜索结果过滤掉。附图说明图1是根据本专利技术方法实施例的网络信息获取方法的流程图;图2是根据本专利技术装置实施例的网络信息获取装置的框图;图3是根据本专利技术装置实施例的网络信息获取装置可应用的系统的框图;图4是根据本专利技术装置实施例的网络信息获取装置进行网络信息获取的原理示5意图。具体实施例方式针对相关技术中网络信息获取人工操作量大、灵活性差的问题,本专利技术提出首先 通过人工或程序在Web数据管理系统中产生关键词和规则,基于“元搜索”的方式(S卩,结 合各大搜索引擎查询结果),获取数据,通过规则和机器学习算法(也可称为自适应学习) 的方式,来对数据进行过滤,并计算出一个价值分数,通过常用的内容相似度计算方法来对 新旧数据进行查重处理,避免出现重复数据,最终得到与搜索条件相匹配的情报数据,从而 能够以简单的方式对网络上抓取的信息进行筛选,如果需要变更搜索的条件或搜索结果的 匹配程度、时间等要求,仅仅改变关键词和过滤规则即可,因此,能够提高搜索的灵活性,并 且能够有效减少操作人员的工作量,能够快速地实现可用网络信息的获取。下面将结合附图详细描述本专利技术的实施例。方法实施例图1是根据本实施例的网络信息获取方法的流程图。如图1所示,根据本实施例的网络信息获取方法包括步骤S102,通过执行预设的搜索任务来利用元搜索引擎(元搜索引擎是指通常所 使用的谷歌(Google)、百度(Baidu)、雅虎(Yahoo)等多种搜索引擎,本专利技术不仅可以使用 其中的一种搜索引擎,还可以同时采用多种搜索引擎)搜索与预先输入的关键词(例如,包 括事件、时间、地点等条件)相关的网络信息;步骤S104,根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网 络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。在上述处理中,通过元搜索引擎并结合关键词进行搜索,能够避免人工编写新的 搜索引擎,能够借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率;并 且,由于是基于关键词进行搜索,能够有效提高搜索的灵活性,如果用户希望变更搜索条件 仅需要修改关键词即可,而无需更换预先配置的整个搜索模板或索引库;此外,由于上述处 理采用模糊过滤规则并基于搜索结果的相关性进行过滤,因此,能够最大程度上保证搜索 结果的准本文档来自技高网...

【技术保护点】
一种网络信息获取方法,其特征在于,所述方法包括:通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的所述网络信息的内容的相关性对所述网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。

【技术特征摘要】
1.一种网络信息获取方法,其特征在于,所述方法包括通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的所述网络信息的内容的相关性对所述网络信 息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。2.根据权利要求1所述的方法,其特征在于,在搜索到与所述关键词相关的网络信息 之后、进行价值评分之前,所述方法进一步包括将统一资源定位符相同的网络信息合并,并统一搜索到的所述网络信息的编码;对统一编码后的所述网络信息进行参数提取,得到结构化的网络信息,其中,之后进行 价值评分的所述网络信息是指所述结构化的网络信息。3.根据权利要求1所述的方法,其特征在于,在对搜索到的所述网络信息进行价值评 分之前,所述方法进一步包括根据预设的时间过滤规则对搜索到的所述网络信息进行时间过滤,将发布时间不符 合所述时间过滤规则的网络信息删除,将剩余的网络信息作为后续进行价值评分的网络信 息。4.根据权利要求1所述的方法,其特征在于,在对搜索到的所述网络信息进行价值评 分之前,所述方法进一步包括根据预设的标题过滤规则对搜索到的所述网络信息的标题进行过滤评分,并将过滤评 分未达到第二分数阈值的标题所对应的网络信息删除,将剩余的网络信息作为后续进行价 值评分的网络信息。5.根据权利要求4所述的方法,其特征在于,保存价值评分达到所述第一分数阈值的 网络信息的处理具体包括对于价值评分达到所述第一分数阈值的网络信息,根据该网络信息的价值评分和过滤 评分得到综合评分,并将得到的综合评分与相应的网络信息一并保存。6.根据权利要求1所述的方法,其特征在于,在保存价值评分达到所述第一分数阈值 的网络信息之后,...

【专利技术属性】
技术研发人员:陈文斌汪洋徐瑞峰罗丽俊杜宇程曹晓航程鹏
申请(专利权)人:北京四维图新科技股份有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1