一种搜索方法、搜索装置及一种搜索引擎系统制造方法及图纸

技术编号:8703973 阅读:207 留言:0更新日期:2013-05-16 17:39
本申请提供了一种搜索方法、搜索装置及一种搜索引擎系统,以解决现有技术在识别用户搜索意图时不够准确,进而影响搜索精度的问题。所述方法包括:接收实时搜索字符串;将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。本申请可显著提高搜索精度,提供更加精确的搜索结果数据。

【技术实现步骤摘要】

本申请涉及网络技术,特别是涉及一种搜索方法、搜索装置及一种搜索引擎系统。
技术介绍
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎的出现,为用户使用网络信息提供了便利性,用户可以从互联网提供的海量数据中检索出自己需要的息。利用现有的搜索引擎系统,如果用户想从网上下载“王菲”演唱的“萤火虫”这首歌,若在搜索主页的搜索框中输入关键词“萤火虫”,大多数搜索引擎网站会给出如图1所示或类似图1的搜索结果。在这些搜索结果中,排在最前位置的是介绍“萤火虫”这种动物的网页链接,这个结果显然不符合用户的搜索意图。为了改善这种情况,有些搜索引擎系统提供了分类搜索功能,利用这种搜索引擎系统,用户可进入音乐类的搜索页面,然后在搜索框中输入关键词“萤火虫”,此时多数搜索引擎网站又会给出如图2或图3所示的类似搜索结果。这些搜索结果虽然列出了歌曲的链接,但是,在歌曲名同名而歌手不同或多个歌手演唱同一首歌的情况下,搜索结果中排在最前位置的歌曲链接并不是流传度最广、多数用户最想找的王菲演唱的“萤火虫”,而是其他歌手演唱的“萤火虫”。此时,用户需要在搜索结果中一条一条地查找王菲演唱的“萤火虫”,非常麻烦。此外,有些搜索结果还不是针对歌曲“萤火虫”的链接,而是其他的歌曲,只是这些歌曲的名字或歌词中出现了“萤火虫”一词,如图2所示。这样,搜索的准确度就更难保证了。因此,目前的搜索引擎在识别用户搜索意图时还不够准确,进而影响了搜索精度。
技术实现思路
本申请提供了一种搜索方法、搜索装置及一种搜索引擎系统,以解决现有技术在识别用户搜索意图时不够准确,进而影响搜索精度的问题。为了解决上述问题,本申请公开了一种搜索方法,包括:接收实时搜索字符串;将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。优选地,所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;所述词典中的第一类词是所述模式中的意图词;所述词典中的第二类词是关系数据中的元数据。优选地,所述方法还包括预生成模式的步骤:将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。优选地,将所述实时搜索字符串与预生成的词典进行匹配,包括:将所述实时搜索字符串从左至右顺次与预生成的词典进行完全匹配。优选地,所述依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,包括:如果匹配完成后的实时搜索字符串由第二类词所属类别的标签组成,和/或,由第一类词和第二类词所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图。优选地,依据所述的特定搜索意图返回搜索结果数据,包括:将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回。优选地,所述的特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。本申请还提供了 一种搜索装置,包括:输入模块,用于接收实时搜索字符串;实时匹配模块,用于将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;替换模块,用于当所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上时,将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;实时输出模块,用于依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。优选地,所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;所述词典中的第一类词是所述模式中的意图词;所述词典中的第二类词是关系数据中的元数据。优选地,所述装置还包括:模式生成模块,具体包括:替换子模块,用于将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;统计子模块,用于统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。本申请还提供了一种搜索引擎系统,包括如上所述的搜索装置。与现有技术相比,本申请包括以下优点:首先,本申请从大规模的历史搜索数据和特定领域的关系数据出发,事先计算出特定搜索意图包含的意图词及其模式,并结合相关领域的关系数据,实时地判断给定的搜索字符串是否具有其特定的搜索意图。本申请可准确识别搜索字符串中每个部分的特定意图,进而精准确定该搜索字符串的搜索意图,显著提高搜索精度,提供更加精确的搜索结果数据。而且,本申请还可确保自动识别用户特定搜索意图的三个条件,即:很高的实时响应速度、很高的正确率以及较高的召回率。其次,本申请在实时判断给定的搜索字符串是否具有其特定的搜索意图时,优选采用完全匹配的方法,进一步提高了搜索精度。再次,本申请根据识别出的特定搜索意图返回的搜索结果数据与现有技术不同,本申请是将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回,并且特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。这种展现方式给出的搜索结果更加精准、给出的与结果相关的信息更加丰富,方便了用户操作。当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。附图说明图1、图2和图3是现有技术中搜索结果页面的示意图;图4是本申请实施例所述一种搜索方法的总体流程示意图;图5是本申请实施例所述离线生成搜索意图模式的示意图;图6是本申请实施例所述在线进行模式匹配的示意图;图7是本申请实施例所述在线搜索的流程图;图8.1至8.4是本申请实施例所述搜索结果页面的示意图;图9是本申请实施例所述一种搜索装置的结构图;图10是本申请另一实施例所述一种搜索装置的结构图。具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。为了提供更加准确的针对特定搜索意图的搜索触发服务,提高用户的搜索体验,本申请从大规模的历史搜索数据和特定领域的关系数据出发,事先计算出特定搜索意图包含的意图词及其模式,并结合相关领域的关系数据,实时地判断给定的搜索字符串是否具有其特定的搜索意图。例如,用户若输入搜索“萤火虫MP3下载”,本申请会基于搜索触发服务自动识别出用户的搜索意图是得到歌曲“萤火虫”的直接相关信息服本文档来自技高网...

【技术保护点】
一种搜索方法,其特征在于,包括:接收实时搜索字符串;将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:郎皓唐超张小洵薛贵荣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1