【技术实现步骤摘要】
用于网页链接检索排序的基于智能学习的优化系统及方法
本专利技术涉及检索软件
,特别是涉及一种用于网页链接检索排序的基于智能学习的优化系统及方法。
技术介绍
在信息爆炸的互联网时代,对于个人来说,如何从海量的信息中快速、准确地搜寻到最想要的信息网页是关键;对于各个拥有庞大数量网页的网站站点来说,如何快速构建一个准确化、个性化的检索系统成为当务之急。而随着深度神经网络和文本主题技术的成熟使机器自动从信息中提取信息和学习到人们的偏好从而自主学习成为可能,传统的搜索引擎已经满足不了人们对于搜索网页的主题化和偏好个性化的需求。因此一个能实现快速部署的智能学习网页内容信息的检索系统能在人们日常生活学习中有着重要的现实意义。各个企业、事业单位网站站点井喷式爆发,伴随着大量站内信息出现的同时,在站点内快速部署一套精准、个性化检索的检索系统成为一种迫切的需求,人们需要在不改变现有网站代码和结构的基础上部署一套轻量化、准确快速的、符合各自站点内部检索特点的信息检索系统。目前的检索系统在检索的时候一般是基于关键字匹配检索,但是无法根据全文内容的主题进行检索。比如有很多网页内容是关于美国篮球运动的,那么人们输入“湖人队”等一些其他网页出现过的相关的词汇时就需要展示出所有的这些网页,虽然这些关键字可能没有在其中的一些网页出现过,但我们说它们是主题相关的。目前检索系统在检索流程中也存在较多可优化的地方:1、缺少一个可自动学习改进机制的反馈系统。用户一般需要以调查的方式填写哪个是自己需要的网站或者就没有反馈的自己个性化选择的机会。这些检索系统忽视了用户会直接点击选择自己喜欢的网页 ...
【技术保护点】
一种用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述系统包括:爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;数据库:用于存储所述网页内容和网页连接关系数据;Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;神经网络模块:用于运用神经网络理论对关键字‑结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。
【技术特征摘要】
1.一种用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述系统包括:爬虫模块:用于对指定范围内网页进行爬取,获得网页内容和网页连接关系;数据库:用于存储所述网页内容和网页连接关系数据;Pagerank模块:用于利用获取的网页连接关系,运用Pagerank网页重要度计算理论,对网页进行计算评分,得到Pagerank信息;LDA主题提取模块:用于运用主题模型提取理论对爬取的网页内容进行网页主题词提取,并计算网页主题词与关键字的匹配相关度;神经网络模块:用于运用神经网络理论对关键字-结果构建一个三层的神经网络,并对各层的权重进行更新,输出的权重作为影响网页排序的相对得分;以及搜索决策模块:用于接收关键字,计算关键字的内容得分并整合输出权重信息、Pagerank信息、关键字与网页主题词的匹配相关度信息,以进行综合判断与评分,并将其作为排名依据对相关网页进行排名,最终按排名的顺序列出各个相关网页作为检索结果来供用户进行点击浏览。2.如权利要求1所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述爬虫模块包括:URL管理器模块:用于从网页中提取URL链接地址并维持一个待下载链接的下载队列,并从指定入口作为起始下载网页,保证连续自动化抓取,以及防止循环/重复抓取网页;网页下载器模块:用于从下载队列中取出相应链接并下载整个网页;网页解析器模块:用于解析下载的网页中包含的网页连接关系和网页内容,若包含的网页链接未下载过会加入下载队列,网页内容会进行分词以倒排索引的形式存入所述数据库,所述数据库将存储所有的网页内容、词典信息和网页连接关系信息。3.如权利要求2所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述Pagerank模块包括:第一数据读取模块:用于从所述数据库读取所需的网页连接关系数据;第一迭代计算模块:用于根据读取的数据重复调用Pagerank网页重要度公式构建矩阵进行计算,直到前后两次误差小于一定值,或者达到一定次数时计算完成,得到Pagerank信息;第一结果存储模块:用于将计算结果按构建好的结构插入所述数据库。4.如权利要求3所述的用于网页链接检索排序的基于智能学习的优化系统,其特征在于,所述LDA主题提取模块包括:第二数据读取模块:用于从所述数据库读取所需的网页内容数据;第二迭代计算模...
【专利技术属性】
技术研发人员:陶永才,石磊,卫琳,张青,任鹏程,丁鑫,海朝阳,巴阳,赵国桦,火昊,杨朝阳,张鑫倩,曹朝阳,
申请(专利权)人:郑州大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。