一种完善社区网络的方法和系统技术方案

技术编号:8323452 阅读:159 留言:0更新日期:2013-02-14 00:58
本申请公开了一种完善社区网络的方法和系统以及网页相似度计算方法和系统,网页相似度的计算方法包括如下步骤:提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。

【技术实现步骤摘要】

本专利技术主要涉及网络技术中额网络搜索
,尤其涉及一种完善社区网络的方法和系统
技术介绍
随着互联网技术的不断发展,网络上的资源也越来越多。越来越多的用户从网络上搜索、筛选自己需要的数据。因着网络上数据的飞速增长,导致用户需要在网络上耗费大量的时间检索自己所需要的数据。因而随之产生了社区服务,社区服务是指将包含类似或相关内容的网页有序的罗列在一起,例如BBS论坛、在线交友以及贴吧空间等。在社区服务的背后,需要计算机对海量的信息自动进行社区挖掘,而文本又是网页的主要内容,所以文本挖掘显得尤为重要。文本挖掘的内容是以自然语言的形式呈现的,而复杂的自然语言是计算机所难以理解的,因此我们可以采用从网页中提取关键词的办法,来表达网页的大意。另外随着网络技术的发展,用户留在网络上的信息不仅包括访问记录和操作行为,还包括用户为网络图片打上注释、评论所看到的文章、为访问过的页面打上标签等。带有用户鲜明个性的标签,已然为海量网页的呈现、组织和检索质量造成了显著的影响,因而网页标签足以对网络的自我组织产生决定性影响,所以本申请主要是基于网页标签来对网页内容进行检索,以完善社区网络的信息。传统的基于标签进行信息检索,如图I所示,主要包括如下步骤SlOl :获得网络链路信息;S103 :通过所述网页链接信息,获得与其相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;S105 :提取用来表征所述网页的关键词信息;S107 :相似度分析将所述关键词与进行搜索的基准关键词进行相似度分析,得到所述网页与基准为网页的相似度;S109 :网页筛选当所述相似度满足一定条件时,将所述网页加入到社区中。不难看出,标签作为关键词的扩展形式,由于其所含的信息量比较大。因而利用传统的文本挖掘技术时,不免影响对其进行准确的分析,尤其是当两个标签,其在自然语言中是意义相同的同义词,而在基于统计方法的文本挖掘中,可能会被直观的处理为毫无意义而正交的两个向量,这样轻率的判断无疑会很大程度上降低网络服务的质量。
技术实现思路
本申请提供了一种通过文本挖掘来完善社区网络的方法和系统。用以解决现有技术中,对于自然语言中意义相同的同义词的两个标签,可能会被处理为毫无意义而正交的两个向量,进而降低了社区网络服务质量的问题。一方面,本专利技术通过本申请中的一个实施例,提供如下技术方案一种完善社区网络的方法,包括如下步骤获得网络链接信息;通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的 语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。可选的,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。可选的,所述至少一个第二关键词通过如下步骤获得搜集所述网页中的关键词信息,得到至少一个第三关键词;对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词;利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案一种完善社区网络的系统,包括信息采集模块用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;关键词提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;相似度分析模块用于基于所述特征信息和所述语义相似度矩阵,获得所述网页与所述基准网页的第二网页相似度值;筛选模块用于当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。可选的,所述相似度分析模块,具体包括第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案一种网页相似度计算方法,包括如下步骤提取用来表征网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。可选的,所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。可选的,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;对所述第一网页相似度进行聚类分析,得到所述第二网页相似度值,即为所述网页相似度。另一方面,本专利技术通过本申请中的另一实施例提供如下技术方案一种网页相似度计算系统,包括关键字提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述网页的标签信息对应;网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述网络社区中将要与所述网页进行相似度比较的已经提取好关键词的基准网页对应的关键词;语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值。可选的,所述相似度分析模块,具体包括·第一网页相似度获取模块用于将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值;第二网页相似度获取模块用于对所述第一网页相似度进行聚类分析,得到所述第本文档来自技高网
...
一种完善社区网络的方法和系统

【技术保护点】
一种完善社区网络的方法,其特征在于,包括:获得网络链接信息;通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应;将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词;将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值;基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值;当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。

【技术特征摘要】
1.一种完善社区网络的方法,其特征在于,包括 获得网络链接信息; 通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息; 获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 当所述第二网页相似度值满足一定条件时,将所述网页加入到所述社区网络中。2.如权利要求I所述的方法,其特征在于,所述网页还包括有网页内容;所述至少一个关键词还包括有至少一个第二关键词,所述至少一个第二关键词与所述网页内容对应。3.如权利要求I或2所述的方法,其特征在于,所述基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值,具体包括 将所述语义相似度值引入到所述特征信息中,对所述特征信息进行一个补充,得到第一网页相似度值; 对所述第一网页相似度值进行聚类分析,得到所述第二网页相似度值。4.如权利要求2所述的方法,其特征在于,所述至少一个第二关键词通过如下步骤获得 搜集所述网页中的关键词信息,得到至少一个第三关键词; 对所述至少一个第三关键词进行过滤处理,得到至少一个第四关键词; 利用所述至少一个第四关键词,通过统计方法,对所述网页特征进行分析,得到所述至少一个第二关键词。5.一种完善社区网络的系统,其特征在于,包括 信息采集模块用于获得网络链路信息,然后通过如所述网页链接信息,获得与所述网页链接信息相对应的网页,所述网页包括访问过所述网页链接的用户设置的标签信息;关键词提取模块用于获得用来表征所述网页特征的至少一个关键词,所述至少一个关键词中的至少一个第一关键词与所述标签信息对应; 网页特征信息获取模块用于将所述至少一个关键词与基准关键词进行相似度分析,得到所述网页的特征信息,所述基准关键词为所述社区网络中已经有的基准网页对应的关键词; 语义相似度获取模块将所述至少一个关键词与所述基准关键词进行语义相似度分析,得到所述网页的语义相似度值; 相似度分析模块用于基于所述特征信息和所述语义相似度值,获得所述网页与所述基准网页的第二网页相似度值; 筛选模块用于当所述第二网页相似...

【专利技术属性】
技术研发人员:高燕傅力张震玮张岩孔亮黄丛蕊
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1