基于网上交易平台的检索方法、装置和服务器制造方法及图纸

技术编号:7352427 阅读:181 留言:0更新日期:2012-05-18 23:41
本申请提供了一种基于网上交易平台的检索方法、装置和服务器,所述方法包括:依据浏览器当前提交的查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;对所述初始网页进行相关性处理以得到满足预置条件的相关网页;对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。采用本申请实施例公开的检索方法、装置和服务器,可以减少用户与搜索引擎服务器之间的交互次数,降低搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。

【技术实现步骤摘要】

本申请涉及网络数据处理领域,特别涉及基于网上交易平台的检索方法、装置和服务器
技术介绍
基于网上交易平台的搜索,一般都是接收用户输入的查询关键词之后,会将包括了查询关键词的一些产品显示给用户,这些包括了查询关键词的产品就是用户可能会感兴趣的产品。这些产品一般可以通过与关键词相关联的形式,使得某个输入相关联的关键词,就可以得到与该关键词相关联的产品。当用户搜索某一款具体的产品时,现有技术一般采用如下方式:根据产品的名称、类目或/和属性进行关键词匹配,只是这种搜索方式只能适用于纯产品类目词或产品名称和属性等关键词。当用户输入的查询词没有包括产品具体名称或者属性等时,就有可能在存在这类产品的情况下还是搜索不到结果。例如,对于“适合女士用的手机”的关键词,由于数据库中保存的数据一般是根据产品名称、类目或属性等关键词建立的,并没有保存仅仅具有描述性质的关键词的信息,因此就无法搜索到用户需要的结果。举例来讲,“飞利浦588”是一款普遍被认为适合女士用的手机,但是当用户直接在网上交易平台中搜索“适合女士用的手机”是无法搜索到这款手机的。由以上对现有技术的分析可知,现有技术在实现网上交易平台的检索时,由于不能完全和用户的需求相匹配,所以如果出现搜索不到用户感兴趣的结果时,就需要用户变换查询词继续搜索,这样就增加了用户和服务器之间的交互次数,在服务器端也会增加对于查询词的匹配过程,就会增加服务器的工作量,进一步影响网上交易平台服务器的运行速度和性能。总之,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新的提出一种基于网上交易平台的检索方法,以解决现有技术中无法搜索到用户需求的结果,导致影响网上交易平台服务器运行速度和性能的技术问题。
技术实现思路
本申请所要解决的技术问题是提供一种基于网上交易平台的检索方法,用以解决现有技术中无法搜索到用户需求的结果导致的影响网上交易平台服务器运行速度和性能的技术问题。本申请还提供了一种基于网上交易平台的检索装置和服务器,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种网页数据库的建立方法,包括:抓取网页;分析所述网页的关键字,得到所述网页上涉及到的产品关键词;按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一个产品标识;将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联保存至预置的数据库。本申请公开了一种基于网上交易平台的检索方法,包括:依据浏览器当前提交的查询词,从预置的网页数据库中查询得到与该查询词匹配的初始网页;所述预置的网页数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;对所述初始网页进行相关性处理以得到满足预置条件的相关网页;对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。本申请公开了一种基于网上交易平台的检索装置,包括:查询初始网页模块,用于依据查询词,从预置的数据库中查询得到与该查询词匹配的初始网页;所述预置的数据库用于保存网页及其涉及到的至少一个产品标识,和,网页和产品标识之间的关联;获取相关网页模块,用于对所述初始网页进行相关性处理以得到满足预置条件的相关网页;产品相关处理模块,用于对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关处理;排序展示模块,用于将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。与现有技术相比,本申请包括以下优点:在本申请中,预先已经将网页上出现的产品信息和网页做了关联,因此,依据用户输入的关键词在网上交易平台上做检索的时候,就会考虑到产品的网页信息,即是只要有论坛或者网页讨论过某个产品,就可以在检索产品的时候依据这个产品和网页之间的关联检索到相关产品。这避免了当用户输入的查询词没有包括产品具体名称或者属性等时,而产品的网页信息中具备关键词的相关信息,但却出现搜索不到产品的情况的发生,提高了用户的查询效率。通过本申请,用户不需要重复搜索相关产品,这减少了用户与搜索引擎服务器之间的交互次数,降低了搜索引擎服务器的重复运行次数,从而提高搜索引擎服务器的运行速度、工作效率和工作性能。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一中建立预置的数据库的流程图;图2是本申请的一种基于网上交易平台的检索方法实施例一的流程图;图3是本申请的一种基于网上交易平台的检索方法实施例二的流程图;图4是本申请方法实施例二中检索结果的展示示意图;图5是本申请的一种基于网上交易平台的检索装置实施例三的结构框图;图6是本申请的一种基于网上交易平台的检索装置实施例四的结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本申请的主要思想之一可以包括,在本申请实施例中,首先需要对于网络爬虫抓取到的网页进行预处理,具体过程是:针对抓取到的网页识别出该网页内容出主要涉及到的某几种具体的产品,并将这些产品的产品标识与该网页对应关联起来,并将这种关联关系以及关联中涉及到的...

【技术保护点】

【技术特征摘要】
1.一种网页数据库的建立方法,其特征在于,包括:
抓取网页;
分析所述网页的关键字,得到所述网页上涉及到的产品关键词;
按照预置规则分析所述产品关键词,以得到与所述网页相关的至少一
个产品标识;
将所述网页、至少一个产品标识,以及,网页和产品标识之间的关联
保存至预置的数据库。
2.根据权利要求1所述的方法,其特征在于,所述分析所述网页的
关键字,以得到所述网页上涉及到的产品关键词,具体包括:
提取所述网页上的文本内容;
对所述文本内容进行分析以得到所述网页的相关关键词;
从所述相关关键词中获取到与产品相关的产品关键词。
3.根据权利要求1所述的方法,其特征在于,所述按照预置规则分
析所述产品关键词,具体包括:
检测所述产品关键词中出现概率高于一定阈值的候选关键词;
判断所述候选关键词与所述网页的文本内容是否相关。
4.一种基于网上交易平台的检索方法,其特征在于,包括:
依据查询词,从预置的网页数据库中查询得到与该查询词匹配的初始
网页;所述预置的网页数据库用于保存网页及其涉及到的至少一个产品
标识,和,网页和产品标识之间的关联;
对所述初始网页进行相关性处理以得到满足预置条件的相关网页;
对所述相关网页涉及到的产品标识所对应的至少一个产品进行相关
处理;
将进行过相关处理之后的至少一个产品按照相关性值向客户端展示。
5.根据权利要求1所述的方法,其特征在于,所述对所述初始网页
进行相关性处理以得到满足预置条件的相关网页;具体包括:
采用预定算法对所述初始网页进行第一次相关性打分,所述第一次相
关性打分的分值与初始网中特定的产品关键词的第一参数成正比,与第
二参数成反比,所述第一参数为在当前的一个初始网页中出现的概率,
所述第二参数为在网页数据库中的所有网页中出现的概率;
对进行第一次相关打分之后的初始网页按照预设阈值获取分值较高
的前若干个网页,并依据产品关键词在网页中出现的概率、所述查询词
的相邻关键字在网页中同时出现的距离和所述查询词中的相邻关键字在
网页中预设大小的窗口内是否同时出现,对所述前若干个网页进行第二
次相关性打分,得到相关网页。
6.根据权利要求1所述的方法,其特征在于,所述对所述相关网页
涉及到的产品标识所对应的至少一个产品进行相关处理,具体包括:
对所述相关网页中产品标识相同的网页进行分组,得到多组产品标识
相同的网页...

【专利技术属性】
技术研发人员:潘晓雯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术