当前位置: 首页 > 专利查询>郑州大学专利>正文

用于网页链接检索排序的基于智能学习的优化系统及方法技术方案

技术编号:17007872 阅读:38 留言:0更新日期:2018-01-11 04:06
本发明专利技术公开了一种用于网页链接检索排序的基于智能学习的优化系统及方法,涉及检索软件技术领域,运用倒排索引技术从所抓取的网页中提取相关数据,构建数据库。采用多种智能算法相融合的决策技术,具有很高的智能性和客观性。本发明专利技术与现有的检索系统相比,拥有快速部署的能力,由底层数据模块自动快速进行范围内容信息获取并离线计算处理,针对检索结果排序采用了多种算法技术进行优化,具有可解释性高,操作简单,稳定性强等特点。

【技术实现步骤摘要】
用于网页链接检索排序的基于智能学习的优化系统及方法
本专利技术涉及检索软件
,特别是涉及一种用于网页链接检索排序的基于智能学习的优化系统及方法。
技术介绍
在信息爆炸的互联网时代,对于个人来说,如何从海量的信息中快速、准确地搜寻到最想要的信息网页是关键;对于各个拥有庞大数量网页的网站站点来说,如何快速构建一个准确化、个性化的检索系统成为当务之急。而随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学习到人们的偏好从而自主学习成为可能,传统的搜索引擎已经满足不了人们对于搜索网页的主题化和偏好个性化的需求。因此一个能实现快速部署的智能学习网页内容信息的检索系统能在人们日常生活学习中有着重要的现实意义。各个企业、事业单位网站站点井喷式爆发,伴随着大量站内信息出现的同时,在站点内快速部署一套精准、个性化检索的检索系统成为一种迫切的需求,人们需要在不改变现有网站代码和结构的基础上部署一套轻量化、准确快速的、符合各自站点内部检索特点的信息检索系统。目前的检索系统在检索的时候一般是基于关键字匹配检索,但是无法根据全文内容的主题进行检索。比如有很多网页内容是关于美国篮球运动的,那么人们输入“湖人队”等一些其他网页出现过的相关的词汇时就需要展示出所有的这些网页,虽然这些关键字可能没有在其中的一些网页出现过,但我们说它们是主题相关的。目前检索系统在检索流程中也存在较多可优化的地方:1、缺少一个可自动学习改进机制的反馈系统。用户一般需要以调查的方式填写哪个是自己需要的网站或者就没有反馈的自己个性化选择的机会。这些检索系统忽视了用户会直接点击选择自己喜欢的网页这一行为,从而无法从用户的默认行为中学习用户偏好。2、无法智能联系关键字。一个著名的例子是尿布与啤酒,形容这二者之间有一些人们无法察觉却又微妙的联系,现在大多检索系统无法察觉这种联系,但通过神经网络模型进行自动学习人们输入的关键字和对结果网页的点击选择,使检索系统自动学习这种关联成为可能。
技术实现思路
本专利技术的目的是针对大量的站点有需要快速构建检索系统又不能修改原有网站结构的需求,传统检索主题无关性和无法根据关键字泛化拟合还有无法通过学习人们的选择对排序进行改善的问题,提出了一种快速部署的适用于网页链接检索排序的基于智能学习优化系统及方法。可以对一个范围内网页的内容完成快速部署进行信息检索,基于pagerank,LDA主题模型提取和神经网络等理论,根据对抓取网页进行主题提取和神经网络强大的拟合和泛化能力对检索结果排序进行改善。可以串联一个范围内的网页,进行关键字输入,并返回结果网页达到范围网页内容检索的目的,在一定程度上改善了链接排序质量,从而快速构建站内检索并提升人们的检索体验。本专利技术提供了一种用于网页链接检索排序的基于智能学习的优化系统,所述系统包括:爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;数据库:用于存储所述网页内容和网页连接关系数据;Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;神经网络模块:用于运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。本专利技术还提供了一种用于网页链接检索排序的基于智能学习的优化方法,所述方法包括:使用爬虫模块抓取范围内的网页内容和网页连接关系数据,并存储到数据库中;经过Pagerank模块和LDA主题提取模块的信息提取处理,根据抓取的网页内容和网页连接关系数据计算得到每个相关网页的Pagerank信息以及关键字和网页主题词的匹配相关度,并存储至数据库;通过搜索决策模块查询与关键字的相关网页,用于构建神经网络,以及在数据库中提取关键字在相关网页中的位置、距离信息,整合网页的pagerank信息、关键字与网页主题词的匹配相关度信息以进行综合判断与评分,最终将相关网页按排名列出,供用户浏览;询问用户是否同意改进神经网络的权重以改善排序结果,若同意则进行反馈调节,然后结束此次检索,若不同意则直接结束此次检索,整个过程结束。本专利技术实施例中的用于网页链接检索排序的基于智能学习的优化系统及方法,具有以下特点:(1)快速部署和良好的可扩展性本系统轻量化的设计可以快速自动获取范围内网页的关系与信息,进行离线计算,轻松地在其它的类树状网页结构中扩展使用,不用对原有网站代码和结构进行繁琐的改动,具有快速部署能力和良好的可扩展性和通用性。(2)检索相关度的高准确性本系统运用倒排索引将抓取网页信息完全存储,在系统数据库中提取相关数据,并根据网页数据特点和相应的智能算法参与决策和检索控制,具有很高的准确性。(3)检索的可解释性本系统通过运用LDA主题模型对所获取的网页内容进行主题词提取,弥补了传统方法主题无关的缺点,利用主题词与关键字进行快速与准确地匹配,使检索结果具有很高的主题相关性与可解释性。(4)自动学习点击行为反馈和智能联系关键字本系统通过运用神经网络模型,对关键字和用户点击行为之间的联系自动地进行学习,可以发现关键字之间微妙的关联,更重要的是可以从人们的点击行为中学习到大多数用户的行为偏好,从而将这些更受欢迎的网页赋予更高的权重使更多的人能更方便地看到它们,点击它们。(5)基于多种智能算法共同决策本系统主要采用传统网页相关度原理与智能学习方法相结合的方式进行检索结果链接排序,并通过模块化设计支持不同类型的智能学习方法,如神经网络模型、LDA主题提取算法、距离频度因素算法等,将所有信息综合以后进行排序,具有很高的合理性、智能性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的用于网页链接检索排序的基于智能学习的优化系统的整体功能模块图;图2为图1中底层数据层的具体功能模块图;图3为图1中信息提取层的具体功能模块图;图4为图1中决策层的具体功能模块图;图5为本专利技术实施例提供的用于网页链接检索排序的基于智能学习的优化方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参照图1至图4,本专利技术实施例中提供了一种用于网页链接检索排序的基于智能学习的优化系统,该系统包括六大部分:爬虫模块、数据库、Pagerank模块、LDA主本文档来自技高网
...
用于网页链接检索排序的基于智能学习的优化系统及方法

【技术保护点】
一种用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述系统包括:爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;数据库:用于存储所述网页内容和网页连接关系数据;Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;神经网络模块:用于运用神经网络理论对关键字‑结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。

【技术特征摘要】
1.一种用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述系统包括:爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;数据库:用于存储所述网页内容和网页连接关系数据;Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;神经网络模块:用于运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。2.如权利要求1所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述爬虫模块包括:URL管理器模块:用于从网页中提取URL链接地址并维持一个待下载链接的下载队列,并从指定入口作为起始下载网页,保证连续自动化抓取,以及防止循环/重复抓取网页;网页下载器模块:用于从下载队列中取出相应链接并下载整个网页;网页解析器模块:用于解析下载的网页中包含的网页连接关系和网页内容,若包含的网页链接未下载过会加入下载队列,网页内容会进行分词以倒排索引的形式存入所述数据库,所述数据库将存储所有的网页内容、词典信息和网页连接关系信息。3.如权利要求2所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述Pagerank模块包括:第一数据读取模块:用于从所述数据库读取所需的网页连接关系数据;第一迭代计算模块:用于根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算,直到前后两次误差小于一定值,或者达到一定次数时计算完成,得到Pagerank信息;第一结果存储模块:用于将计算结果按构建好的结构插入所述数据库。4.如权利要求3所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述LDA主题提取模块包括:第二数据读取模块:用于从所述数据库读取所需的网页内容数据;第二迭代计算模...

【专利技术属性】
技术研发人员:陶永才石磊卫琳张青任鹏程丁鑫海朝阳巴阳赵国桦火昊杨朝阳张鑫倩曹朝阳
申请(专利权)人:郑州大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1