当前位置: 首页 > 专利查询>清华大学专利>正文

基于语义的信息采集方法及系统技术方案

技术编号:9490102 阅读:105 留言:0更新日期:2013-12-25 23:54
本发明专利技术涉及数据挖掘技术领域,具体涉及一种基于语义的信息采集方法及系统。该信息采集方法包括步骤:S1.根据网络资源的典型特征,建立网络资源抽象数据模型;S2.借助搜索引擎从互联网采集网络信息,并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理;S3.对格式化处理后的网络信息进行聚类分析,并根据聚类分析结果将所述网络信息划分入对应的话题中,并提取每个话题的标签;S4.对所述步骤S3中处理结果进行可视化展示。本发明专利技术由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看,从而可以多维度的对网络信息进行展现,以形象、直观的方式将网络信息呈现给用户,实现了提高用户浏览效率的效果。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及数据挖掘
,具体涉及一种基于语义的信息采集方法及系统。该信息采集方法包括步骤:S1.根据网络资源的典型特征,建立网络资源抽象数据模型;S2.借助搜索引擎从互联网采集网络信息,并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理;S3.对格式化处理后的网络信息进行聚类分析,并根据聚类分析结果将所述网络信息划分入对应的话题中,并提取每个话题的标签;S4.对所述步骤S3中处理结果进行可视化展示。本专利技术由话题驱动进行网络资源组织、可视化展示以及对网络资源的下载和离线查看,从而可以多维度的对网络信息进行展现,以形象、直观的方式将网络信息呈现给用户,实现了提高用户浏览效率的效果。【专利说明】基于语义的信息采集方法及系统
本专利技术涉及数据挖掘
,具体涉及一种基于语义的信息采集方法及系统。
技术介绍
网络资料(资源)是指互联网上各种信息资源的总和,包括电子文献、数据库、数字化文献、数字化书目、电子报刊、网络新闻等各种形式的知识、资料、情报、消息等的集合互联网上的资料信息具有数据量大、更新速度快、时效性强等特点,每天有大量的网络信息产生本文档来自技高网...

【技术保护点】
一种基于语义的信息采集方法,其特征在于,包括步骤:S1.根据网络资源的典型特征,建立网络资源抽象数据模型;S2.借助搜索引擎从互联网采集网络信息,并将采集的网络信息用所述网络资源抽象数据模型进行格式化处理;S3.对格式化处理后的网络信息进行聚类分析,并根据聚类分析结果将所述网络信息划分入对应的话题中,并提取每个话题的标签;S4.对所述步骤S3中处理结果进行可视化展示。

【技术特征摘要】

【专利技术属性】
技术研发人员:李涓子祁羽何巍焦程波张鹏杨瑞兵
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1