当前位置: 首页 > 专利查询>石忠民专利>正文

摘要式网络搜索引擎系统及其搜索方法与应用技术方案

技术编号:2912804 阅读:324 留言:1更新日期:2012-04-11 18:40
本发明专利技术提供一种摘要式网络搜索引擎系统及其搜索方法与应用,其系统主要包括用户界面、网页抓取模块、语句索引模块、摘要式搜索模块等;其搜索方法主要包括以下步骤:(1)抓取网络上的网页,并生成语句索引;(2)生成摘要式搜索结果。本系统可应用为通用搜索引擎系统或专业搜索引擎系统,亦可配置成为特定用户或用户群提供摘要式搜索服务的桌面系统或远程服务系统或配置成适用于手机等移动通讯设备的信息搜索平台等。相对于现有技术,本发明专利技术可给用户更简洁、更翔实、更相关、更人性化的搜索结果。

【技术实现步骤摘要】

本专利技术属于计算机信息处理领域,特别涉及一种摘要式网络搜索引擎系统及其搜索方法与应用
技术介绍
近年来互联网技术的飞速发展深刻的影响了人类的信息获取和决策模式。为了帮助用户在互联网上数以百亿计的网页中精确而迅速地获得他们所需的信息,传统的搜索引擎公司,如百度、雅虎和谷歌等开发出有效的搜索引擎并且赢得了可观的商业利润。然而,传统的搜索引擎存在以下缺陷:·搜索结果为目录式,即返回成千上万个网页标题和链接,而不是用户所需的答案。·搜索结果通常包含大量重复的网页内容,用户需要自己去分析、判断并排除这些重复的信息。·所需的答案往往分散在不同的网页上,用户需要自己将这些分散的信息收集和总结。对许多的热门话题,除了使用搜索引擎以外,人们还可以从网上百科全书,如百度百科、维基百科等,获得准确翔实的信息。然而,这些百科全书的内容都为手工编辑,而且对大多数的话题很难做到实时更新。新的搜索引擎技术也层出不穷。各种优化排序的方法,比如申请号为US5864845和US5864846的美国专利申请最早提出了Meta Search的想法,将多个搜索引擎的搜索结果以一定的方式整合起来,提供“最优”的排序方案。典型的Meta Search类搜索引擎包括DogPile.com,A9.com,searchmash.com等。这些优化排序的方法更专注于在目录式的基础上如何提高搜索结果的相关性,而不是如何解决上述缺陷。在本专利技术之前,确有研究涉及到使用某些“摘要”形式来捕捉单个网页的信息。比如,申请号为US6581057的美国专利申请提出,在生成索引的同时为每个网页产生一个主题描述,并在网页被回溯时显示出来。更进-->一步地,申请号为US20020078019的美国专利申请对每个网页产生两级描述:一个主题描述和一个更详细的描述。图形信息也被考虑跟每个相关网页关联起来,比如Michael Wynblatt和Dan Benson的文章“Web PageCaricatures:Multimedia Summaries for WWW Documents”(ICMCS,1998年)中提到用网页图标,Allison Woodruff等的文章“Using Thumbnails toSearch the Web”(CHFCS,2001年)中提到用图像小样,以及申请号为US6643641的美国专利申请提出的使用图像快照。上述这些“摘要”形式都只应用于单个网页。还有一些技术使用一个信息集合来代表多个相关网页的内容。特别是申请号为US20060155728的美国专利申请,提出可以把多个网址整理成一个单一的特殊网址,当用户点击这个特殊网址时,它所代表的那些网页将被传入浏览模块中。然而,该技术并不涉及任何摘要形式。另有一类技术,如申请号为US6862586的美国专利申请,使用聚类和主题词来代表所有相关网页。在这种基于网页聚类的搜索引擎,例如Clusty.com,的搜索结果中网页还是被排序并单独呈现。本专利技术也使用了聚类技术,但主要是用于生成子话题的摘要,而不是为生成网页的聚类。专利申请号为US6591261的美国专利申请提出根据网页间的超链接来确定相关网页。用户因此可以从一个网页链接到它的相关网页。但是,这些相关网页往往含有大量重复信息,并且没有帮助用户从大量的搜索结果中解放出来。总的来讲,现有这些搜索引擎技术仍存在下面主要缺陷:(1)传统的搜索引擎,也称作“基于关键字的搜索引擎”,是依靠关键字来匹配相关内容。这种技术的瓶颈在于,单纯依靠关键字匹配并不能真正理解内容的含义。这也是为什么传统搜索引擎的结果常常含有大量似是而非的无关网页。(2)传统搜索引擎的另一大弊端是其索引方式:页面索引。用户搜索的目的是要相关内容或答案;而页面索引只能提供大量网页,用户往往需要阅读多个网页,并在搜索结果和页面之间不停地切换,来自己判断、整理和总结相关内容。所以,现存的这些缺陷有待克服和解决。
技术实现思路
本专利技术的首要目的在于针对现有搜索引擎存在的的缺陷,致力于提供给用户更简洁、更翔实、更相关、更人性化的搜索结果的摘要式网络搜索-->引擎系统。本专利技术的另一目的在于提供由上述系统实现的摘要式网络搜索方法。本专利技术的再一目的在于提供由上述系统实现的摘要式网络搜索方法的应用。本专利技术的目的通过下述技术方案实现:一种摘要式网络搜索引擎系统,包括如下组成部分:(1)接收用户查询请求和显示摘要式搜索结果的用户界面;(2)负责抓取网页的网页抓取模块;其特征在于还包括如下组成部分:(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。组成部分(3)中,所述的语句索引模块,包括:(3.1)从网络抓取模块抓取下来的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;(3.2)对有效网页内容中的文字段落进行语句划分,并对每个语句进行语法和语义分析及注释的语法语义注释模块;同时,语句索引模块的特征还可包括:(3.3)根据有效网页内容的语法和语义分析结果,来识别语句的语义是否重复的重复语句识别模块;(3.4)根据有效网页内容的语法和语义分析结果,来删除语句非重要成分的语句压缩模块;(3.5)建立基于语句(而不是网页)的语句索引生成模块;(3.6)以及将每个图像、视频和音频信息同语句关联起来的多媒体关联模块。(3.2)中,所述的语法语义注释模块包括:语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和情感分析模块。组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块和摘要生成模块;其特征包括:-->语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总结相关内容:段落、条目、表格和图形。所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由所述的多媒体关联模块提供。所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实体抽取模块和实体关系分析模块提供。所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实体由所述的实体抽取模块和实体关系分析模块提供。组成部分(4)中,所述“与用户查询请求相关的内容”,简称相关内容,是指在段落索引模块中索引的语法和语义的分析结果,并与用户查询请求相关。这个相关内容包含文字、图像、视频以及音频信息。一种由上述系统实现的摘要式网络搜索方法,其特征在于包括以下步骤:(1)抓取网络上的网页,并生成语句索引;(2)生成摘要式搜索结果;步骤(1)中,所述生成语句索引,包括以下具体步骤:(1.1)从抓取的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息;(1.2)本文档来自技高网
...

【技术保护点】
一种摘要式网络搜索引擎系统,包括如下组成部分: (1)接收用户查询请求和显示摘要式搜索结果的用户界面; (2)负责抓取网页的网页抓取模块; 其特征在于:还包括如下组成部分: (3)对抓取的网页进行深层次的语法和语义分 析,并基于语法和语义的分析结果建立语句索引的语句索引模块; (4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。

【技术特征摘要】
US 2007-10-18 60/999,3891、一种摘要式网络搜索引擎系统,包括如下组成部分:(1)接收用户查询请求和显示摘要式搜索结果的用户界面;(2)负责抓取网页的网页抓取模块;其特征在于:还包括如下组成部分:(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。2、根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:组成部分(3)中,所述的语句索引模块,包括:(3.1)从网络抓取模块抓取下来的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;(3.2)对有效网页内容中的文字段落进行语句划分,并对每个语句进行语法和语义分析及注释的语法语义注释模块;(3.3)根据有效网页内容的语法和语义分析结果,来识别语句的语义是否重复的重复语句识别模块;(3.4)根据有效网页内容的语法和语义分析结果,来删除语句非重要成分的语句压缩模块;(3.5)建立基于语句的语句索引生成模块;(3.6)以及将每个图像、视频和音频信息同语句关联起来的多媒体关联模块。3、根据权利要求2所述的摘要式网络搜索引擎系统,其特征在于:(3.2)中,所述的语法语义注释模块包括:语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和情感分析模块。4、根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块和摘要生成模块;语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总结相关内容:段落、条目、表格和图形;所述“与用户查询请求相关的内容”,是指在段落索引模块中索引的语法和语义的分析结果,并与用户查询请求相关;这个相关内容包含文字、图像、视频以及音频信息。5、根据权利要求4所述的摘要式网络搜索引擎系统,其特征在于:所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由所述的多媒体关联模块提供;所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实体抽取模块和实体关系分析模块提供;所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实体由所述的实体抽取模块和实体关系分析模块提供。6、一种摘要式网络搜索方法,其特征在于包括以下步骤:(1)抓取网络上的网...

【专利技术属性】
技术研发人员:石忠民徐亚波
申请(专利权)人:石忠民徐亚波
类型:发明
国别省市:CA[加拿大]

相关技术
    暂无相关专利
网友询问留言 已有1条评论
  • 来自[未知地区] 2011年09月22日 10:37
    很有用的搜索系统
    0
1