【技术实现步骤摘要】
本专利技术属于计算机信息处理领域,特别涉及一种摘要式网络搜索引擎系统及其搜索方法与应用。
技术介绍
近年来互联网技术的飞速发展深刻的影响了人类的信息获取和决策模式。为了帮助用户在互联网上数以百亿计的网页中精确而迅速地获得他们所需的信息,传统的搜索引擎公司,如百度、雅虎和谷歌等开发出有效的搜索引擎并且赢得了可观的商业利润。然而,传统的搜索引擎存在以下缺陷:·搜索结果为目录式,即返回成千上万个网页标题和链接,而不是用户所需的答案。·搜索结果通常包含大量重复的网页内容,用户需要自己去分析、判断并排除这些重复的信息。·所需的答案往往分散在不同的网页上,用户需要自己将这些分散的信息收集和总结。对许多的热门话题,除了使用搜索引擎以外,人们还可以从网上百科全书,如百度百科、维基百科等,获得准确翔实的信息。然而,这些百科全书的内容都为手工编辑,而且对大多数的话题很难做到实时更新。新的搜索引擎技术也层出不穷。各种优化排序的方法,比如申请号为US5864845和US5864846的美国专利申请最早提出了Meta Search的想法,将多个搜索引擎的搜索结果以一定的方式整合起来,提供“最优”的排序方案。典型的Meta Search类搜索引擎包括DogPile.com,A9.com,searchmash.com等。这些优化排序的方法更专注于在目录式的基础上如何提高搜索结果的相关性,而不是如何解决上述缺陷。在本专利技术之前,确有研究涉及到使用某些“摘要”形式来捕捉单个网页的信息。比如,申请号为US6581057的美国专利申请提出,在生成索引的同时为每个网页产生一个主题描述,并在网 ...
【技术保护点】
一种摘要式网络搜索引擎系统,包括如下组成部分: (1)接收用户查询请求和显示摘要式搜索结果的用户界面; (2)负责抓取网页的网页抓取模块; 其特征在于:还包括如下组成部分: (3)对抓取的网页进行深层次的语法和语义分 析,并基于语法和语义的分析结果建立语句索引的语句索引模块; (4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。
【技术特征摘要】
US 2007-10-18 60/999,3891、一种摘要式网络搜索引擎系统,包括如下组成部分:(1)接收用户查询请求和显示摘要式搜索结果的用户界面;(2)负责抓取网页的网页抓取模块;其特征在于:还包括如下组成部分:(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。2、根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:组成部分(3)中,所述的语句索引模块,包括:(3.1)从网络抓取模块抓取下来的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;(3.2)对有效网页内容中的文字段落进行语句划分,并对每个语句进行语法和语义分析及注释的语法语义注释模块;(3.3)根据有效网页内容的语法和语义分析结果,来识别语句的语义是否重复的重复语句识别模块;(3.4)根据有效网页内容的语法和语义分析结果,来删除语句非重要成分的语句压缩模块;(3.5)建立基于语句的语句索引生成模块;(3.6)以及将每个图像、视频和音频信息同语句关联起来的多媒体关联模块。3、根据权利要求2所述的摘要式网络搜索引擎系统,其特征在于:(3.2)中,所述的语法语义注释模块包括:语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和情感分析模块。4、根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块和摘要生成模块;语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总结相关内容:段落、条目、表格和图形;所述“与用户查询请求相关的内容”,是指在段落索引模块中索引的语法和语义的分析结果,并与用户查询请求相关;这个相关内容包含文字、图像、视频以及音频信息。5、根据权利要求4所述的摘要式网络搜索引擎系统,其特征在于:所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由所述的多媒体关联模块提供;所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实体抽取模块和实体关系分析模块提供;所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实体由所述的实体抽取模块和实体关系分析模块提供。6、一种摘要式网络搜索方法,其特征在于包括以下步骤:(1)抓取网络上的网...
【专利技术属性】
技术研发人员:石忠民,徐亚波,
申请(专利权)人:石忠民,徐亚波,
类型:发明
国别省市:CA[加拿大]