【技术实现步骤摘要】
基于网站特征分析的信源评价方法、装置及存储设备、程序
本专利技术涉及网页内容推送
,具体涉及一种基于网站特征分析的信源评价方法、装置及存储设备、程序。
技术介绍
随着网络和信息技术的快速发展,互联网上的信息数量呈爆炸式增长,每天都有无数信息扩充其中。如何在短时间内从海量的信息中找出自己所需要的信息成为了不可避免的问题。一般情况下用户都是通过搜索引擎获得自己需要的信息,在搜索结果中逐条找出自己感兴趣的内容所对应的网页。此外,对用户来说,他们更倾向于点击排名结果靠前的网页,网页相对的点击数量随着排名的降低而下降。但是,搜索引擎排名靠前的网页可能并不是用户所期待的结果,并且用户有时并不清楚自己想要知道与搜索关键词相关的哪方面的内容,可能更希望搜索引擎推荐与关键词相关的整个网站,从而在最相关的网站获取更加全面的信息。现有的信源发现技术主要是针对网页查询问题。当用户输入想要查询的关键词时,通过系统返回的是对应的单个网页内容。由于网页内页内容具有单一性,所含内容较少,用户获取到的网页内容可能与用户想要查询的内容并不相关。所以,根据调查研究发现,当根据搜索关键词返回多个网站的排序结果时,用户能有效根据对应的网站找出自己所需要的信息。第二,针对网页排序问题,有基于内容的方法和基于链接的方法两种。对于基于链接的排序方法来说,由于方法中过于强调链接的重要性,当网页由于一些人为因素链接到其他高质量的站时,对此种网页的排序效果不好,同时基于链接的网页排序算法无法有效的解决领域漂移问题。对于基于内容的网页排序算法来说,主要是利用 ...
【技术保护点】
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:/n(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;/n(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;/n(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;/n(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;/n(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;/n(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。/n
【技术特征摘要】
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。
2.根据权利要求1所述的方法,其特征在于,所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。
3.根据权利要求1所述的方法,其特征在于,所述步骤(3)后还包括如下步骤:对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:
其中,d为阻尼系数,w为两词语之间边的权重,一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其它边的权重之和。
4.根据权利要求1所述的方法,其特征在于,根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度,包括:根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站内容的相关程度。
5.根据权利要求4所述的方法,其特征在于,根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站内容的相关程度。具体为:
1)计算公式为:
ftitle=cos(key_word,titlevec)
fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur...
【专利技术属性】
技术研发人员:尹宝生,张龙龙,徐文文,秦航,
申请(专利权)人:沈阳航空航天大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。