基于网站特征分析的信源评价方法、装置及存储设备、程序制造方法及图纸

技术编号:24206851 阅读:87 留言:0更新日期:2020-05-20 15:02
本发明专利技术涉及网页内容推送技术领域,具体涉及基于网站特征分析的信源评价方法、装置及存储设备、程序,该方法包括:通过搜索引擎获取用户输入关键词对应的前n个网站的URL;对所获得的网页进行深度爬取,获取所对应网页的HTML信息;根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;结合BM25算法与余弦距离计算的相关度,根据网站的打分值得到相关网站信源的排序结果。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。

Source evaluation method, device, storage device and program based on website feature analysis

【技术实现步骤摘要】
基于网站特征分析的信源评价方法、装置及存储设备、程序
本专利技术涉及网页内容推送
,具体涉及一种基于网站特征分析的信源评价方法、装置及存储设备、程序。
技术介绍
随着网络和信息技术的快速发展,互联网上的信息数量呈爆炸式增长,每天都有无数信息扩充其中。如何在短时间内从海量的信息中找出自己所需要的信息成为了不可避免的问题。一般情况下用户都是通过搜索引擎获得自己需要的信息,在搜索结果中逐条找出自己感兴趣的内容所对应的网页。此外,对用户来说,他们更倾向于点击排名结果靠前的网页,网页相对的点击数量随着排名的降低而下降。但是,搜索引擎排名靠前的网页可能并不是用户所期待的结果,并且用户有时并不清楚自己想要知道与搜索关键词相关的哪方面的内容,可能更希望搜索引擎推荐与关键词相关的整个网站,从而在最相关的网站获取更加全面的信息。现有的信源发现技术主要是针对网页查询问题。当用户输入想要查询的关键词时,通过系统返回的是对应的单个网页内容。由于网页内页内容具有单一性,所含内容较少,用户获取到的网页内容可能与用户想要查询的内容并不相关。所以,根据调查研究发现,当根据搜索关键词返回多个网站的排序结果时,用户能有效根据对应的网站找出自己所需要的信息。第二,针对网页排序问题,有基于内容的方法和基于链接的方法两种。对于基于链接的排序方法来说,由于方法中过于强调链接的重要性,当网页由于一些人为因素链接到其他高质量的站时,对此种网页的排序效果不好,同时基于链接的网页排序算法无法有效的解决领域漂移问题。对于基于内容的网页排序算法来说,主要是利用TF-IDF算法和BM25等基于内容的算法。当用户查询的关键词不在网页中直接出现时,排序的效果不好。
技术实现思路
本专利技术提供了一种基于网站特征分析的信源评价方法、装置及存储设备、程序,克服了现有信息检索问题只是找出关键词对应的单一网页,而不能找出与其相关网站信源的问题。为了达到上述技术效果,本专利技术包括以下技术方案:第一方面,本专利技术提供了一种基于网站特征分析的信源评价方法,包括如下步骤:(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。第二方面,本专利技术提供了一种基于网站特征分析的信源评价装置,包括:网站的URL获取单元:用于通过搜索引擎获取用户输入关键词对应的前n个网站的URL;网页的HTML信息获取单元:用于对所获得的网页进行深度爬取,获取所对应网页的HTML信息;网站特征信息内容获取单元:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;第一计算单元:用于根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;第二计算单元:用于用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;第三计算单元:用于结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。第三方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的基于网站特征分析的信源评价方法。第四方面,本专利技术提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的信源评价方法。采用上述技术方案,包括以下有益效果:本专利技术所提供的基于网站特征分析的信源评价方法、装置及存储设备、程序,先通搜索引擎获取关键词对应的数个网页,然后通过爬虫程序获取网页所属网站的内容并且提取其中的特征,然后结合BM25算法与余弦距离计算相关度,最终根据网站的打分值得到相关网站信源的排序结果。同时结合用户浏览网站时间的隐性反馈行为,动态地调节网站排序结果,使搜索结果富有个性化。该方法能充分利用网页特征,并且结合网站内容的语义信息,提高了网站信源评价算法的质量。附图说明图1为本专利技术所提供的基于网站特征分析的信源评价方法的总流程示意图。具体实施方式下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。实施例1:本实施例提供了一种基于网站特征分析的信源评价方法,包括如下步骤:步骤S1、通过搜索引擎获取用户输入关键词对应的前n个网站的URL;首先根据用户所输入的关键词在搜索引擎中进行搜索结果,搜索引擎可以为百度引擎。这里以“人工智能”关键词为例,在搜索引擎中结果中,去除广告、百度百科等干扰选项,筛选出其中的前10个搜索结果,获取结果对应的URL。以此URL为基准,步骤S2:对所获得的网页进行深度爬取,获取所对应网页的HTML信息;利用爬虫程序进行depth=2的深度优先爬取,获取depth=1、depth=2、和所有外部链接,并且进行编号存储。步骤S3:根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。并且其中的数据内容都按照字典存储,具体的存储格式为:{“ID”:”编号”,”html_content”:{“data”:”网页发布日期”,”content”:”网页中文章内容”,”title”:”网页文章标题”},”anchor”:”锚文本内容”,”html_title”:”网页html中title属性”,”html_meta”:”网页html中meta属性”}步骤S4:根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;同时,对于一些网站,只有一部分可用特征,造成网页中内容虽少,但是对网站整体相关度的贡献比大的问题,为此设立了一个惩罚项。根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的本文档来自技高网
...

【技术保护点】
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:/n(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;/n(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;/n(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;/n(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;/n(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;/n(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。/n

【技术特征摘要】
1.一种基于网站特征分析的信源评价方法,其特征在于,包括如下步骤:
(1)通过搜索引擎获取用户输入关键词对应的前n个网站的URL;
(2)对所获得的网页进行深度爬取,获取所对应网页的HTML信息;
(3)根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取;
(4)根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度;
(5)用BM25算法计算用户所输入关键词与网站特征信息内容的相关程度;
(6)结合BM25算法与余弦距离计算的相关度,最终根据网站的打分值得到相关网站信源的排序结果。


2.根据权利要求1所述的方法,其特征在于,所述根据爬虫程序获取的对应网站中的HTML信息,采用正则表达式提取其中的URL链接,进行其中网站特征信息内容的获取,包括:
1)通过URLIO工具获取每个URL对应的Date、Content、Title内容;
2)利用正则表达式获取URL链接对应的锚文本、网页Title属性、Meta属性内容。


3.根据权利要求1所述的方法,其特征在于,所述步骤(3)后还包括如下步骤:对获取到的网站特征信息内容进行预处理,并且编号存储,所述预处理方法的步骤为:用TextRank算法提取出其中的多个关键词,所述的TextRank计算公式如下:



其中,d为阻尼系数,w为两词语之间边的权重,一个单词的权重取决于在i前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其它边的权重之和。


4.根据权利要求1所述的方法,其特征在于,根据余弦距离计算用户所输入的关键词与网站特征信息内容的相关程度,包括:根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站内容的相关程度。


5.根据权利要求4所述的方法,其特征在于,根据全部语料信息进行Word2Vec词向量的计算,生成100维的词向量,然后根据余弦距离以及所选网站特征信息内容加权求和,计算用户所输入的关键词与网站内容的相关程度。具体为:
1)计算公式为:



ftitle=cos(key_word,titlevec)



fID[n]=wdatefdate+wcontentfcontent+...+whtml_metafhtml_meta-scorecur...

【专利技术属性】
技术研发人员:尹宝生张龙龙徐文文秦航
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1