本发明专利技术属于搜索引擎领域,特别是涉及搜索网页的方法和建立数据库的方法及其在商品搜索中的应用。利用能够从互联网上自动收集网页的蜘蛛程序从互联网提取各个网站的信息,包括网页文字、图片、视频、音声等建立数据库。在完成根据用户搜索条件进行第一轮搜索后,从与用户搜索条件匹配最好或满足其他条件下的每个行数据中选择一个或多个新的信息数据作为新的搜索条件进行下一轮搜索。重复此过程直至搜索完成后按一定的排列顺序返回结果。也可以用上述方法在原来的索引数据库中加入分类重组索引数据库。这样有助于挖掘更深层的相关信息。本发明专利技术可以广泛应用于互联网搜索、移动终端搜索等领域,尤其适用于网上购物的商品搜索等领域。
【技术实现步骤摘要】
本专利技术属于搜索引擎领域,特别是涉及利用基于内容的多媒体搜索技术和基于关 键词的文本搜索技术以及它们的组合技术进行及其 在商品搜索中的应用。
技术介绍
单纯基于文本使用关键词从互联网中搜索网页信息、图片、视频、音乐等的著名搜 索引擎有百度、谷歌、必应和雅虎等。但是它们的索引数据库通常只包括网页地址(URL)、编 码类型、关键词、关键词位置、生成时间、大小和与其他网页的链接关系等。而且搜索条件一 般也只限于关键词。
技术实现思路
本专利技术所要解决的技术问题是更深层次的信息搜索。本专利技术为了解决上述技术问 题所采用的技术方案之一是建立包含网页基本信息、图片、视频、音声等信息的多维信息 索引数据库。其中网页基本信息包括网页地址(URL)、编码类型、关键词、关键词位置、生成 时间、大小和与其他网页的链接关系等。图片、视频、音声等信息则包括从网页中的图片、视 频、音声等信息中提取的特征值,譬如图像的颜色、形状、纹理、空间关系等特征值、以及生 成时间、大小、标注、格式等。搜索时,以计算机、手机等输入设备取得一个或多个搜索条件, 系统根据需要进行特征值抽取等处理后由搜索系统程序从上述多维信息索引数据库中找 到相关数据,实现第一轮对多维索引数据库的搜索。之后系统从上述搜索结果中指定一个 或多个,譬如从匹配度最高的一个多维数据中选择一个或多个其他信息作为新的搜索条件 进行下一轮搜索。重复此过程直至搜索完成后由页面生成系统将搜索结果的链接地址和页 面内容摘要、图片等内容组织起来按一定排列顺序返回给用户。本专利技术为了解决上述技术问题所采用的技术方案之二是对上述多维信息索引数 据库按以下方法重新组织,建立新的索引数据库,以增加搜索范围和提高搜索速度。首先在 索引数据库中的任意一个索引行数据中选择一个或多个索引数据以外的列数据作为搜索 条件在上述多维信息索引数据库中搜索具有相同或相似列的行数据,并将其归为同类或相 似类建立索引数据库,然后依次在这些行数据中选择另一个或多个其他数据作为新的搜索 条件,重复以上过程直至新的索引数据库建成。这样对具有上述索引数据库结构的网页索 引数据库进行搜索时,搜索条件符合同类或相似列数据中任意一条或多条都可以视为符合 此搜索条件,页面生成系统将搜索结果的链接地址和页面内容摘要、图片等内容组织起来 按一定排列顺序返回给用户。具体实施例方式下面首先从搜索过程来阐述本专利技术的技术方案的具体实施方式,然后以商品搜索 为实施例对本专利技术进一步说明。本专利技术的网页搜索的步骤主要包括(1)从互联网抓取网页。利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有网页地址(URL)爬到其他网页,重复此过程,并把爬 过的所有网页收集到服务器中。(2)建立索引数据库。由索引系统程序对收集回来的网页进行分析,提取相关网页 基本信息(包括网页地址(URL)、编码类型、关键词、关键词位置、生成时间、大小和与其他 网页的链接关系等)。同时对网页里可能存在的图片、视频、音声等信息进行特征值抽取处 理,提取相关的特征值信息(譬如图片的颜色、形状、纹理、空间关系等),以及生成时间、大 小、标注、格式等。根据一定的相关度算法进行计算,得到每一个网页针对页面内容中及超 链中每一个关键词、特征值的相关度(或重要性),然后用这些相关信息建立网页索引数据 库。(3)在索引数据库中搜索。当用户输入搜索条件,譬如关键词、图片、视频、音声 等信息或它们的特征值请求搜索后,如果是图片、视频、音声等信息则进行特征值抽取后, 分解搜索请求,由搜索系统从网页索引数据库中找到符合该搜索条件的所有相关网页。(4)对搜索结果进行排序。所有相关网页针对该搜索条件的相关信息在索引库中 都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排 序越靠前。(5)根据搜索结果请求二次搜索。对(4)的搜索结果进行分析,如果需要,对排名 最前或排名前几位的网页的索引数据中其他一个或多个列数据作为新的搜索条件返回(3) 请求新的一轮搜索。当然新的搜索条件可以是事先指定的也可以提示给用户由用户选择。如果不需要则进入(6)。(6)组织结果返回给用户。最后由页面生成系统将搜索结果的链接地址和页面内 容摘要等内容组织起来返回给用户。本专利技术的基于索引数据库分类的搜索方法的步骤主要包括(1)从互联网抓取网页。利用能够从互联网上自动收集网页的网络蜘蛛程序,自动 访问互联网,并沿着任何网页中的所有网页地址(URL)爬到其他网页,重复此过程,并把爬 过的所有网页收集到服务器中。(2)建立索引数据库。由索引系统程序对收集回来的网页进行分析,提取相关网页 基本信息(包括网页地址(URL)、编码类型、关键词、关键词位置、生成时间、大小和与其他 网页的链接关系等)。同时对网页里可能存在的图片、视频、音声等信息进行特征值抽取处 理,提取相关的特征值信息(譬如图片的颜色、形状、纹理、空间关系等),以及生成时间、大 小、标注、格式等。根据一定的相关度算法进行计算,得到每一个网页针对页面内容中及超 链中每一个关键词、特征值的相关度(或重要性),然后用这些相关信息建立网页索引数据 库。(3)建立包括分类的新索引数据库。在上述关键词、特征值等中选择一个或几个 列数据作为搜索条件在上述网页索引数据库中搜索具有相同或相似列数据的行数据,并从 中选择一个或几个数据列使其具有和搜索条件相同或相似的索引功能,并根据一定的相关 度算法进行计算,给出它们的相关度(或重要性)。重复以上过程以建立新的索引数据库。 也就是说以后凡是以上述搜索条件进行搜索时,不仅可以搜到原索引数据库的数据,还可以搜到新追加的索引数据。(4)在新索引数据库中搜索。当用户输入搜索条件,譬如关键词、图片、视频、音 声等信息或它们的特征值请求搜索后,如果是图片、视频、音声等信息则进行特征值抽取 后,分解搜索请求,由搜索系统从新网页索引数据库中找到符合该搜索条件的所有相关网 页。(5)对搜索结果进行排序。所有相关网页针对该搜索条件的相关信息在索引库中 都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排 序越靠前。(6)组织结果返回给用户。最后由页面生成系统将搜索结果的链接地址和页面内 容摘要等内容组织起来返回给用户。 下面以商品搜索为实施例对本专利技术进一步说明。本专利技术用于商品搜索时具体搜索的步骤主要包括(1)从互联网抓取购物网站网页。利用能够从互联网上自动收集网页的网页蜘蛛 程序,自动访问分布在网络上的购物网站,并把所有网页收集到服务器中(2)建立商品索引数据库。由索引系统程序对收集回来的网页进行分析,提取每个 商品的网页基本信息,包括网页地址(URL)、编码类型、商品名、型号、商家名、商品简介、价 格以及生成时间、大小和与其他网页的链接关系等。同时对网页里的商品图片进行特征值 抽取处理,提取图片的颜色、形状、纹理等特征值,以及生成时间、大小、标注、格式等。根据 一定的相关度算法进行计算,得到每一个商品针对每一个关键词(譬如商品名、型号、商家 名、商品简介、价格等)、特征值(譬如图片的颜色、形状、纹理等)的相关度(或重要度), 然后用这些相关信息建立商品网页索引数据库。(3)在商品本文档来自技高网...
【技术保护点】
一种网页的搜索方法,其特征在于把网站的信息,网页基本信息、图片、视频、音声等信息,其中网页基本信息包括网页所在URL、编码类型、关键词、关键词位置、生成时间、大小和与其他网页的链接关系等,图片、视频、音声等信息则包括从图片、视频、音声等信息中提取的特征值,如图像的颜色、形状、纹理、空间关系等,建立多维信息索引数据库,然后在多维信息数据空间中由搜索系统程序从多维信息索引数据中找到完全符合用户搜索条件、或计算用户搜索条件与目标数据之间的相似程度,实现第一轮对多维数据的搜索,之后从上述搜索结果中指定一个或多个,譬如匹配度最高的一个多维行数据中选择一个或多个其他信息数据作为新的搜索条件进行下一轮搜索,重复此过程直至搜索完成后按一定的排列顺序向用户返回结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:唐堂正明,
申请(专利权)人:苏州搜图网络技术有限公司,
类型:发明
国别省市:32[中国|江苏]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。