【技术实现步骤摘要】
本专利技术主要涉及网络技术中额网络搜索
,尤其涉及一种完善社区网络的方法和系统。
技术介绍
随着互联网技术的不断发展,网络上的资源也越来越多。越来越多的用户从网络上搜索、筛选自己需要的数据。因着网络上数据的飞速增长,导致用户需要在网络上耗费大量的时间检索自己所需要的数据。因而随之产生了社区服务,社区服务是指将包含类似或相关内容的网页有序的罗列在一起,例如BBS论坛、在线交友以及贴吧空间等。在社区服务的背后,需要计算机对海量的信息自动进行社区挖掘,而文本又是网页的主要内容,所以文本挖掘显得尤为重要。文本挖掘的内容是以自然语言的形式呈现的,而复杂的自然语言是计算机所难以理解的,因此我们可以采用从网页中提取关键词的办法,来表达网页的大意。另外随着网络技术的发展,用户留在网络上的信息不仅包括访问记录和操作行为,还包括用户为网络图片打上注释、评论所看到的文章、为访问过的页面打上标签等。带有用户鲜明个性的标签,已然为海量网页的呈现、组织和检索质量造成了显著的影响,因而网页标签足以对网络的自我组织产生决定性影响,所以本申请主要是基于网页标签来对网页内容进行检索,以完善社区网络的信息。传统的基于标签进行信息检索,如图I所示,主要包括如下步骤SlOl :获得网络链路信息;S103 :通过所述网页链接信息,获得与其相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;S105 :提取用来表征所述网页的关键词信息;S107 :相似度分析将所述关键词与进行搜索的基准关键词进行相似度分析,得到所述网页与基准为网页的相似度;S109 :网页筛选当所述相似度满足一定 ...
【技术保护点】
一种完善社区网络的方法,其特征在于,包括:获得网络链接信息;通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。
【技术特征摘要】
1.一种完善社区网络的方法,其特征在于,包括 获得网络链接信息; 通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息; 获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。2.如权利要求I所述的方法,其特征在于,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。3.如权利要求I或2所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括 将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。4.如权利要求2所述的方法,其特征在于,所述至少一个第二关键词通过如下步骤获得 搜集所述网页中的关键词信息,得到至少一个第三关键词; 对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词; 利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。5.一种完善社区网络的系统,其特征在于,包括 信息采集模块用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;关键词提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 筛选模块用于当所述第二网页相似...
【专利技术属性】
技术研发人员:高燕,傅力,张震玮,张岩,孔亮,黄丛蕊,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。