当前位置: 首页 > 专利查询>倪毅专利>正文

对象级个性化垂直搜索引擎设计技术制造技术

技术编号:7270873 阅读:321 留言:0更新日期:2012-04-15 17:00
本发明专利技术公开一种对象级个性化垂直搜索引擎的设计技术,该算法其基本思想是:采用自适应垂直爬虫技术获取互联网上相关网页,通过对数据进行语义分析、抽取、集成等一系列对象化处理,获得互联网上的对象化信息,最后以搜索引擎的方式为每个用户返回个性化排序对象结果。采用本技术设计的搜索引擎,通过数据挖掘技术对原始页面数据进行了高度提纯、组织,确保数据的质量,最大程度控制非法信息的收录。此外,其个性化搜索推荐技术能准确判断用户的消费偏好,确保了对用户查询意图的理解。该对象级个性化垂直语义搜索引擎在充分借鉴和吸收语义搜索、对象级搜索、个性化搜索技术优势的基础上,进行集成创新,完全符合下一代搜索引擎的发展方向。

【技术实现步骤摘要】

本专利技术涉及对象级个性化垂直搜索引擎设计领域的技术研究。
技术介绍
随着WEB2. 0技术的迅猛发展,互联网数据海量增长。如何为互联网用户提供准确有效的信息显得尤为重要。通用搜索的策略是尽量获取数据,但是对数据的处理水平比较低,突出问题就是无效信息过多(噪音数据多)、有效信息不足、有效信息非结构化、返回结果无个性化优化机制。通用搜索中无价值数据比例越高,这些对用户无效的数据浪费了数据中心相当多的存储和运算能力,意味着不仅单次搜索消耗的能源浪费比例高,还会干扰有效信息的提取,致使用户很可能需要进行多次搜索,消耗更多的能源。本专利技术的对象级个性化垂直搜索的策略与通用搜索完全不同。在所垂直的领域内,该技术为用户提供的都是经过整理的、结构化的对象信息,从而大大降低无效信息的比例。其数据处理技术对原始页面数据进行了高度提纯、组织,采用各种方法消除无效数据, 在数据处理上要比通用搜索更加深入,确保了数据的质量。每次搜索需要查询的数据量远远小于通用搜索,这意味着本搜索引擎技术对能源的消耗远远小于通用搜索。其突出的语义扩展和个性化推荐技术远远优于通用搜索引擎,根据不同用户特征返回个性化排序结果,确保了对用户查询意图的理解。因此用户使用本搜索引擎看到的是高质量的数据,无须多次翻页,也无须多次检索,就能找到最想要的结果。因此该对象级垂直语义搜索引擎设计技术有极大的经济和社会价值。
技术实现思路
本专利技术公开的垂直领域的对象级搜索技术(Object-Level Search)其基本原理是采用自适应垂直爬虫技术获取互联网上相关网页,通过对信息进行对象级信息抽取、对象级信息集成等一系列对象化处理过程,建立与现实世界中真实对象相对应的互联网对象 (信息),通过个性化排序为用户提供以对象为单位的搜索结果。与传统搜索引擎的区别是他们的搜索结果是网页,我们的搜索结果是对象化的网页集。对象给出了构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇(术语)和词汇之间相互关系的明确定义。对象提供了人机交流的机制,使得机器可以理解语义,从而为搜索引擎提高效率奠定了基石出。本专利技术的自适应垂直爬虫实现了互联网中垂直领域内生活信息网页的自动发现和全面抓取,克服了传统通用搜索引擎爬虫数据冗余、数据格式限制等局限性。该爬虫可以通过任务周期调度工具配置任务执行周期,实现爬虫任务并行执行,并且根据网页URL格式和文本信息学习相关规则,自动定向抓取相关网页资源,通过URL配置方法成功解决了对JavMcript这类非URL网络资源的抓取难题,在保证网上数据资源抓取的高准确率、抓取率的同时,极大提高了爬虫系统的工作效率。本专利技术的对象级信息抽取和集成技术主要针对爬虫抓取得到的垂直领域的网页, 分析网页内容,将每个网页所携带的主体信息转换成对象属性的描述信息,然后根据不同网页对同一个对象各属性的描述信息集成出完整的对象。该对象对应于现实世界中的一个真实对象,如一个餐馆、一本图书和一个旅游目的地等。基于模板的信息抽取和集成方法,即对每一个网站的页面定制一个抽取模板,这个模板里定义了各属性的精确位置,然后由信息抽取模块读取模板信息进行网页信息抽取,最后通过对象信息消重集、同一性判断、属性集成、高性能对象集成、增量集成等信息集成技术获得理想的对象数据,实验证明这个方法可以保证对象信息处理的高精确度。本专利技术中的语义搜索提供的是语义级的匹配,我们通过建立行业对象库,把不同对象按照类别和属性间的关联信息组织起来,通过对象等级关联和属性同义词关联对对象库信息进行语义关联、而进行语义搜索。本专利技术中的对象级个性化推荐排序技术iRank是指在普通相关性排序基础上,根据用户的背景,使用记录和兴趣等信息调整排序算法,针对不同的用户提供不同的服务。对象级个性化排序算法iRank根据用户浏览网页时的行为和用户的特征信息建立个性化用户模型,运用数据挖掘和个性化推荐技术(基于内容和协同过滤)预测用户对信息的需求, 智能地对信息检索结果进行个性化的排序,为用户提供个性化的信息服务,增加搜索引擎对用户兴趣的应变能力。下一代搜索引擎必须比现在的搜索引擎更精准、更智能,智能化、精准化的前提是对象化、语义化、个性化。本项目是垂直领域的对象级搜索,充分借鉴和吸收了对象级搜索、 个性化搜索的最新研究成果,完全符合下一代搜索引擎的发展方向。附图说明图1系统整体架构2对象级个性化搜索返回页面3自适应爬虫技术架构4基于可视化模板的信息抽取 5Cron_Expressions 配置样例6个性化推荐排序流程图具体实施例方式图1为本专利技术系统的整体架构图,系统分为对象级信息处理、对象级语义处理和对象级个性化建模三个模块。对象级个性化搜索引擎的基本设计方法如下(1)在领域专家的帮助下,通过网络爬虫等信息获取工具建立相关领域的对象库;(2)收集信息源中的数据,并参照已建立的对象库,把收集来的数据按对象化规定的格式存储在元数据库(关系数据库、知识库等)中;(3)对用户检索界面获取的查询请求,查询转换器按照对象库要求把查洵请求转换成规定的格式,从元数据库中匹配出符合条件的数据集合;(4)对检索的结果进行个性化处理,针对不同用户特征返回给个性化推荐结果。本系统的对象级个性化搜索返回效果图请参看图2.1、对象级信息处理模块对象级信息处理模块主要包括自适应爬虫、信息抽取、集成、任务管理器等子模块,其主要子模块介绍如下1)自适应垂直爬虫自适应垂直爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的垂直信息。与通用爬虫不同,垂直领域爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网上数据资源,为面向对象的用户查询准备数据资源。具体架构请参看图3。本专利技术的自适应爬虫采用数据挖掘和机器学习之中文本分类聚类等技术,对单个网页进行内容分析和URL分析,找到符合条件的网上资源,自动过滤掉无用的冗余信息。 另外增量更新等在不同网站需要采用不同的策略来实现,比如根据发帖时间,根据帖子ID 等,这些可以抽象为一些增量更新方法。另外,目前对javascript这类非URL的网络资源的抓取还处在研究阶段,没有成熟的技术。本专利技术的自适应垂直爬虫针对不同领域特点,通过URL配置方法成功解决了对非URL网络资源的抓取难题,丰富了行业对象库资源。此外,由于生活消费信息的数量巨大,如果不设计好的任务调度策略,为造成网络阻塞,一方面会让被访问网站产生敌对心理,也会让爬虫服务器遇到性能瓶颈。而爬虫任务管理器是专门解决这个问题。通过提供可视化的任务管理,可以对不同任务进行执行时间配置(日,周,月),更新频率配置等,也提供可视化的任务进度监控,做到爬虫状况的全面掌握。2)基于模板的信息抽取本项目针对生活消费类网页进行对象化信息处理,需要将对象信息从网页中抽取出来,对对象信息的属性进行语义标注。信息抽取是一个研究热点,研究者也提出了很多方法,比如基于模板的方法,基于机器学习的方法,基于视觉的方法等等,对于本项目来说,信息的正确性十分重要,对信息抽取的精度要求很高,因此采用基于模本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:倪毅张惟师刘杰
申请(专利权)人:倪毅
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术