【技术实现步骤摘要】
范例学习驱动的内容关联网站发掘方法
本专利技术涉及一种内容关联网站发掘方法,特别涉及范例学习驱动的内容关联网站发掘方法,属于内容关联网站推荐
技术介绍
随着信息技术应用越来越广泛,网络对人类生活产生了巨大的影响,在一定程度上改变了人们的生活方式,人们获取信息的主要来源也发生了变化,当今网络已成为最大的信息资源平台,然而随着信息技术的发展,每天的信息量都是亿级以上的速度增长,从海量信息中获取所需信息也成为了一个难题。当用户在网络上浏览或搜索某类信息时,在浏览当前页面的同时,一般希望系统给出相类似的信息,这样就能让用户更方便的获取有用的信息,提高办事质量和处理效率。因此,系统能智能推荐类似信息也成一种巨大需求,设计一种根据当前信息搜索近似信息,并判断搜索信息是否与当前信息近似的方法是亟解决的问题。通过学习范例网站并在网络上寻找的关联网站,是网站主题内容与范例网站的主题内容近似,即网页内容围绕的主题或体现的主题近似。主题网站不能有太多的主题,最好只有一个主题,能很清楚的知道主题是什么。为获取网站主题需要对范例网站 ...
【技术保护点】
1.范例学习驱动的内容关联网站发掘方法,其特征在于,采用范例学习的方法依据当前的网站信息智能发掘与其内容关联的信息,提出学习范例网站发掘内容关联网站并推荐给用户的方法,主要内容包括:/n一是基于范例网站的数据,通过改良的关键词提取方法提取范例网站的关键词,关键词综合考虑影响关键词权重的词长、词频、词性和词的出现位置因素,其中词的出现位置分为标题、段落开头、段落中间和段落结尾;/n二是提出范例网站主题聚类模型,将范例网站的网页文本、提取得到的范例网站关键词集合以及这些关键词的权重信息构建范例网站主题聚类模型,范例网站主题聚类模型有效表达原网站的信息;/n三是采用搜索引擎在网络 ...
【技术特征摘要】
1.范例学习驱动的内容关联网站发掘方法,其特征在于,采用范例学习的方法依据当前的网站信息智能发掘与其内容关联的信息,提出学习范例网站发掘内容关联网站并推荐给用户的方法,主要内容包括:
一是基于范例网站的数据,通过改良的关键词提取方法提取范例网站的关键词,关键词综合考虑影响关键词权重的词长、词频、词性和词的出现位置因素,其中词的出现位置分为标题、段落开头、段落中间和段落结尾;
二是提出范例网站主题聚类模型,将范例网站的网页文本、提取得到的范例网站关键词集合以及这些关键词的权重信息构建范例网站主题聚类模型,范例网站主题聚类模型有效表达原网站的信息;
三是采用搜索引擎在网络上搜索同主题关键词的关联网页,对爬取得到的网页结果进行URL分析,构建这些URL的主题关键词权重特征向量,并将这些URL特征向量跟范例网站主题聚类模型的特征向量进行近似度计算,最后将近似度值排在最前面的部分网站推荐给用户;
本发明提出构建范例网站的主题聚类模型,描述范例网站的主题内容信息;首先获取范例网站的所有网页信息,并对这些网页做过滤处理得到纯净的网页文本,然后用改良的TF-IDF方法计算网页文本的关键词权重,综合考虑包括词频统计信息、词出现位置、词性标注和词长影响权重的因素,综合以上影响因素得到范例网站的关键词集合,并用这些关键词生成描述范例网站的主题聚类模型;爬取近似时,用主题关键词的各种组合作为搜索条件,并用正则表达式对爬取的页面进行解析,提取其中的URL,根据URL获取URL对应的域名,并保存到数据库,利用数据库的性质实现URL的去重工作;网站近似度计算提出将网站的主题聚类模型映射到向量空间的方法,以关键词的权重信息构成网站的特征向量,将网站的近似度计算转变成向量的近似度计算;然后设定近似度临界值确定近似的网站。
2.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法,其特征在于,处理网页噪声获取纯净的网页文本,剔除网页中的垃圾信息,保留与网页主题内容关联的信息,减小对网页关键词提取的影响;
去除网页中存在的垃圾信息,根据HTML的结构处理,再采用程序方法获取最终的纯净的网页文本;一个HTML文件相当于一棵DOM树,根据DOM的结点剔除垃圾信息,保留网页正文;正文是在BODY标签里面,正文的提取在处理垃圾信息之后进行;剔除垃圾信息利用正则表达式对其过滤,BODY中存在一些广告的链接,依据广告的特征将广告链接剔除,或在提取正文时忽略这些信息;而正文内容中,包含许多的段落标签P、字体属性信息,对这些信息作标注,并生成相应的文本内容;最后根据得到的纯净文本,对其进行关键词提取;
前置处理是去除网页中的无用标签内容,采用正则表达式匹配的方法;首先利用正则表达式匹配无用的标签,然后用空串替换掉匹配到的标签内容;对所有的无用标签匹配过后,剩下的内容则是纯净的网页文本。
3.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法,其特征在于,网页关键词加权处理采用ICTCLAS分词系统对纯净的文本网页进行中文分词、位置标注和词性标注,得到初始关键词;ICTCLAS系统包括中文分词、词性标注、未登录词识别;网页关键词提取的具体过程包括以下四个步骤:
步骤1,停用词过滤:停用词不属于主题关键词集合,利用STOP词库直接排除文档中的停用词,生成初始备选关键词集合;
步骤2,位置标注:所有关键词在网页文本中都有其相应出现的位置,比如标题和正文,而正文又分为段落起始位置、段落中间和段落结尾,用位置标注法标注关键词的起始位置和终止位置;
步骤3,词性过滤:根据词性选择中文分词后生成的关键词,保留名词或包含名词的词汇,排除其它词性的词汇,减小寻找关键词的集合;
步骤4,生成备选关键词集合:按顺序完成停用词的过滤、位置信息标注和词性信息的标注,得到正式的初始关键词集合,为计算主题关键词的最终加权处理提供数值基础。
4.根据权利要求1所述的范例学习驱动的内容关联网站发掘方法,其特征在于,TF-IDF加权方法中,用C(ui,j)表示某一指定网页文本hj中的备选关键词ui的词频,则有:
其中,表示关键词ui在网页文档hj中出现的次数,分母是所有k个关键词在网页文档hj中的出现次数之和;
IDF逆文档频率衡量一个关键词的普遍重要性,由包含该关键词的文件数量除以语料库数,再对计算得到的结果取自然对数得到;某个关键词的逆文档频率,由总文件数除以拥有该词语的文件数目,再对得到的值取自然对数得到,根据这一特征,得出关键词ui的逆文档频率:
其中,|H|为范例网站的网页文本总数,|{j:ui∈hj}|为包含关键词ui的文档数量,即的文档数量,如果该词语不在网页文本中,则分母等于零,因此采用1+|{j:ui∈hj}|;
由式1和式2得到备选关键词ui的TF-IDF加权式:
式3为指定网页文本hj中的备选关键词ui的的TF-IDF值。
5.根据权利要求4所述的范例学习驱动的内容关联网站发掘方法,其特征在于,本发明提出位置权重Spos(ui,j),描述出现在网页标题、段落起始、段落中间、段落结尾的关键词ui的位置权重信息;当备选关键词ui出现在标题中时,Spos(ui,j)的值设定为2.6;当备选关键词ui出现在段落起始部分或结尾部分时,Spos(ui,j)的值设定为1.4;当备选关键词ui出现在段落中间时,Spos(ui,j)的值设置为0;位置加权函数WJ(ui,j)等于位置权重信息,如下式所示:
WJ(ui,j)=Spos(ui,j)式4
其中,Spos(ui,j)已确定位置的重要性,按照设定值,出现在标题中的关键词权重是普通关键词的2.6倍,出现在段落起始或结尾部分的关键词权重是一般关键词的1.4倍。
6.根据权利要求5所述的范例学习驱动的内容关联网站发掘方法,其特征在于,关键词词性加权处理:名词是能概括文章内容的词汇,关键词基本上都是由名词或包含名词的词汇构成,因此如果关键词为名词或包含名词,则要对这种关键词赋予较大的权重系数;如果用Stype(ui,j)表示网页Qj关键词ui的词性类型,当关键词ui为名词或包含名词时,Stype(ui)=1,如果ui为其他类型时,Stype(ui)=0;假定用Stype表示词性的权重系数,那么词性的加权函数Rtype(vi,j)表示为:
Rtype(ui,j)=Stype(ui,j)*Stype式5
其中,Stype的取值情况:关键词ui是名词,缺省值设置为2;关键词ui不是名词但包含名词,缺省值设置为1.5;其他情况则为0;名词是一般词汇的2倍,包含名词的关键词为普通词汇的1.5倍。
7.根据权利要求6所述的范例学习驱动的内容关联网站发掘方法,其特征在于,关键词词长加权处理:关键词的长度影响这个关键词的重要性,长度较长的关键词短可描述更多的内容,能够更好的概括文档的内容信息,更能够体现出主题;如果用cd(ui)表示关键词ui的长度,则对词长归一化处理后有:
由式6可...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。