当前位置: 首页 > 专利查询>华天清专利>正文

信息对象搜索的方法和装置制造方法及图纸

技术编号:3872783 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种信息对象搜索的方法和装置,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元数据的集合。通过建设语义结构和网络资源URI或其前缀的关联库,能够使用目标网页URI查询关联库,获得语义结构;在语义结构的指导下格式化网页信息并建立索引;响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树;并在用户点击语义导航树的节点时,给用户提供精炼的搜索结果。本发明专利技术属于计算机科学技术领域,适用于网络信息提取、全文搜索和语义搜索、手机搜索等应用领域。

【技术实现步骤摘要】

本专利技术属于计算机科学
语义搜索分支,具体涉及一种信息对象搜索的方法和装 置,适用于网络信息提取、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识库建 立、手机搜索等应用领域。
技术介绍
査准率和查全率是衡量搜索引擎的两个重要指标,但是对于海量的综合的搜索引擎来说, 由于互联网信息过剩,重复率很高,对于一般的检索请求,在上述两个指标并不是很优秀的 情况下,仍然能够给客户提供较满意的搜索结果。但是,如果用户要检索一些强结构化的信 息(下文将其称为信息对象,或简称对象,就像面向对象编程里面的对象一样,是强结构化 的,其结构由可嵌套的对象属性(property)构造),普通的综合搜索引擎很难给出满意的结 果,例如,用户搜索最近发布的跟PHP编程有关的威客项目,或者近期将在深圳举办的个人 钢琴表演活动,几乎当前所有的主流搜索引擎不能给出满意的结果。这类信息一方面是强结 构化的,其信息结构表达丰富的语义信息但是信息内容文字数量很小,而普通的综合搜索引 擎难于有效利用这些语义信息;另一方面,这类信息对象往往是有生命周期的,普通的搜索 引擎的索引策略,例如,经典的PageRank,没有很好的利用和管理代表其生命周期的信息。垂直搜索是一个比较有效的解决方案,垂直搜索将索引的内容专注于某个特定领域或者 行业,采用定制的网络爬虫、内容存储和索引算法和搜索结果呈现方法,提高查准率。例如, 使用定题爬虫和定题搜索方法,为特定几个网站的内容进行索引和搜索。在用户操作界面上, 一般提供类似于数据库査询的操作接口,例如,査询深圳到北京的航班信息或者査询某个商 品的价格等等,像关系数据库査询一样能够获得几乎是完美的査准率。虽然,定制开发的垂 直搜索比较好地解决了领域内的信息搜索问题,但是形成了一个信息孤岛,难于实现异构信 息的共享、交换和检索。综合搜索引擎也提供垂直化的搜索手段,例如,新闻搜索、博客搜 索、论坛搜索等等,然而这种语义的划分是一种粗粒度的分类,不能贴切地反映被搜索内容 的语义。语义网络的一个重要目标将所有信息孤岛连接起来,促进信息的共享和交换,首先,被 交换和共享的信息必须含有语义结构元数据,才能够被智能代理或者其它各种计算机程序自动识别和处理,采用的技术手段可以是XML和RDF技术等等,例如,如果搜索引擎能够识别 代表信息对象生命周期的信息的语义,那么就可以解决前面述及的搜索引擎的缺陷;其次, 在具有语义结构的互联网内容之上通过建立知识模型,例如采用OWL技术,由计算机程序实 现基于知识的推理等智能运算。然而要全面实现语义网络,必须有效地跨出基础性的一步——互联网信息的结构化(在 英文文献中,结构化的内容称为data sets,也就是本文所说的信息对象),即使这一步也没 有行之有效的可商用的解决方案。人们试图解决这个问题,涌现出各种方法,大致可以分成 两类,第一类是在网页中直接嵌入元数据,指导计算机程序识别被标记的内容的语义,例如, Microformat可以作为这一类的代表,然而按照统一的标准的语义标记重新书写现有的互联 网页面是不可行的,改写成本难于承担,而且标准讨论和达成一致的过程很漫长;另外一类 采用一些自适应的方法,企图从互联网页面内容中识别出语义信息,然而这类方法基本上还 处于研究或者实验阶段,识别的准确度有待提高,而且实现难度过高,短时间内难于普及应 用。从另一个角度分析,垂直搜索甚至关系数据库査询系统具有很高的查准率,得益于用户 知晓被査询信息的元数据或者系统将元数据提示给用户,例如,用户査询威客项目时,系统 提供査询界面上给出了多个字段,"类别"、"时间段"、"关键字"等等,用户可以按字段提供 査询条件,经过多个条件的综合约束,将査询范围变得很狭窄。但是,综合搜索系统中,与 某个关键词关联的语义很广泛,也就是说一个关键词可能会落入多个不同的语义范畴,如果 这些语义范畴都用不同的语义结构建模,那么与该关键词关联的语义结构千差万别,用户猜 不出目标语义结构而系统也给不出一个按字段査询的界面。例如,在综合搜索引擎中,用户 输入"最新PHP编程威客项目",想找到与PHP编程有关的威客项目而且还是没有结标的项 目(最新)几乎是不可能的。随着移动数据业务的普及,用户越来越多的使用手机搜索,用户使用桌面计算机搜索信 息往往是一种探索性的行为,经常乐于翻看搜索引擎提供的多页搜索结果。而手机搜索往往 是一种即兴的、短暂的行为,而且用户还希望一搜即得,获得某个特定信息对象或者怎样获 得该对象的准确的建议。这进一步提高了对信息对象査准率的要求。本专利技术的方法和装置解决了上述问题,用于建立综合搜索系统,使用具有语义结构识别 能力的综合网络爬虫提取互联网内容,所述综合是指不局限于特定垂直领域,此网络爬虫利 用语义结构知识库识别目标网页的语义结构,而不局限于特定主题的内容;本方法和装置将 提取到的内容格式化成有语义结构的信息对象,并且从语义知识库中获得索引信息对象的信息属性的指令,分别索引各信息属性,而不是将整个对象的所有内容当成一段文字进行索引; 最后,用户不必按字段输入査询条件,就像使用综合搜索服务一样,仅仅输入被查对象可能 包含的文本短语或者关键字,本专利技术的方法和装置根据相关性给出多个搜索结果,同时,提 供一个层次化的语义导航树,用户通过点击导航树节点,提炼搜索结果集,快速定位被搜索 的对象,最适于手机或者数字电视等没有全尺寸字符键盘的终端使用。
技术实现思路
本专利技术公开了一种信息对象搜索的方法和装置,根据本专利技术的一个方面,提供了一种信 息对象搜索的方法,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的 信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元 数据的集合,元数据包括信息对象的特性、信息属性的特性、信息对象和信息属性之间的语 义关系、信息属性之间的语义关系、本信息对象与其它有语义关联的信息对象的关系等。其 特征在于,所述方法包括(1) 建设语义结构和网络资源URI或其前缀的关联库;(2) 使用目标网页URI査询关联库,获得语义结构;(3) 根据语义结构,提取网页信息并建立索引;(4) 响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树;(5) 用户点击语义导航树的节点时,给用户提供精炼的搜索结果。根据本专利技术的另一个方面,提供了一种信息对象搜索的装置,其特征在于,所述装置包括语义结构编辑单元为语义结构编辑人员提供用户界面和编辑工具,生成{语义结构,网 络资源URI)二元组;语义结构管理单元将网络资源URI解析成路径分解序列,向语义结构和网络资源URI 或其前缀的关联库发送语义结构的插入或者删除或者修改请求;语义结构和网络资源URI关联库存储和管理语义结构和网络资源URI或者URI前缀的关联关系树,对外提供语义结构査询接口和语义结构管理接口。查询语义结构时,按照尽可能深的匹配原则,定位到最深的节点,按优先级排列所有此查找路径上的语义结构;插入 语义结构时,修剪存储树,找出合适的节点存储语义结构;网络内容提取单元由网络爬虫和内容提取器组成,、网络爬虫根据爬行任务列表中的目 标网络资源的地址下载网络资源,通过语义结构査询单元査询语义结构,验本文档来自技高网
...

【技术保护点】
一种信息对象搜索的方法,所述信息对象是有语义结构的信息内容,包括多个存在语义关联关系的信息属性构成,所述信息属性是信息对象不同语义方面内容的单元,所述语义结构是语义元数据的集合,元数据包括信息对象的特性、信息属性的特性、信息对象和信息属性之间的语义关系、信息属性之间的语义关系、本信息对象与其它有语义关联的信息对象的关系等。其特征在于,所述方法包括: (1)建设语义结构和网络资源URI或其前缀的关联库; (2)使用目标网页URI查询关联库,获得语义结构; (3 )根据语义结构,提取网页信息并建立索引; (4)响应用户搜索请求,按相关性排序提供搜索结果的同时提供层次化语义导航树; (5)用户点击语义导航树的节点时,给用户提供精炼的搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:华天清曹鸿钧齐勇挺宋栋
申请(专利权)人:华天清齐勇挺
类型:发明
国别省市:94[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1