一种搜索方法和系统技术方案

技术编号:8959416 阅读:141 留言:0更新日期:2013-07-25 18:58
本发明专利技术提供了一种搜索方法和系统,涉及网络技术领域。本发明专利技术首先利用第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段,然后基于目标对象的新字段构建索引;在构建完成索引后,对于用户的搜索词可基于该索引和第一分隔符计算根据所述新字段的各查询词所在所属字段区计算搜索词与该新字段的总相关度,然后基于各新字段与搜索词的总相关度,返回至少一个新字段对应的目标对象。本发明专利技术将商品的标题和品牌信息,利用分隔符拼装成新字段,然后对此新字段进行搜索引擎索引构建,通过本发明专利技术可快速返回符合用户的期望的商品结果,并且只需要增量更新一遍索引,在计算文本相关性时,可以一次运算完成,这大大减少计算成本和硬件资源。

【技术实现步骤摘要】

本申请涉及网络
,特别是涉及一种搜索方法和系统
技术介绍
一种产品或者商品通常都会有一个品牌。比如运动鞋这种商品,有阿迪达斯品牌的运动鞋,有耐克品牌的运动鞋,有李宁品牌的运动鞋。对于商品的品质来说,品牌无疑是最有力的证据,是服务的保证。随着网络技术的发展,越来越多的用户在网上购买商品,由于缺乏现场体验的环节,所以商品的品牌信息对商品的品质更是尤为重要,因此在电子商务中,系统根据用户的搜索词返回准确的品牌信息显得尤为重要。现有技术中,一种方法是只对商品的标题进行关键词匹配,这样可能产出非用户期望的品牌商品,如搜索阿迪达斯,搜索结果只会给出商品标题中含有阿迪达斯、阿迪、adidas等不同形式关键字的商品,但有可能这个商品的品牌属性却不是阿迪达斯品牌。此夕卜,对于本身是阿迪达斯品牌的商品,但因标题中没有出现阿迪达斯相关的品牌关键词,而容易在搜索排序时漏掉。另一种方法是建立两个单独的引擎,一个是商品的标题引擎,一个是品牌信息引擎,在对用户的搜索词进行分词后,将分词后的查询词分别在标题引擎和品牌信息引擎中进行匹配运算,然后再将两个引擎的计算结果结合起来计算整体的相关度。但假如商品的标题和品牌均被重新编辑了,需要同时增量更新2个引擎的索引,即使只修改了标题或者品牌信息的一个,也需要同时更新2个引擎,这不但需要增加较多的额外计算成本,并且对于在每个引擎中以无定位方式存储商品,那么更新引擎索引时计算成本更加庞大,因此,这种方法处理缓慢,维护成本比较高,硬件成本也比较高,并且不利于快速更新。
技术实现思路
本申请所要解决的技术问题是提供一种搜索方法和系统,能快速处理返回结果,方便维护,维护成本低。为了解决上述问题,本申请公开了一种搜索方法,包括:对于用户输入的搜索词,获取所述搜索词对应的各查询词;针对得到的各查询词,在索引中搜索与各查询词相应的各索引词,所述索引根据目标对象的字段构建,所述目标对象的字段包括通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段;依据各索引词在所属新字段中的位置和所述新字段中第一分隔符的位置,确认索引词对应的查询词在所属新字段中是属于标题信息字段区还是属于属性信息字段区;根据所述新字段的各查询词所在所属字段区计算搜索词与该新字段的总相关度;所述总相关度包括依据所述新字段的各查询词所在所属字段区的权重计算的第一相关度;基于各新字段与搜索词的总相关度,返回至少一个新字段对应的目标对象。优选的,所述通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段,包括以下步骤:读取目标对象的标题信息字段区和属性信息字段区;用空白字符替换所述新字段中与第一分隔符相同的字符;将替换后的标题信息字段区和属性信息字段区通过第一分隔符拼接为一个新字段。优选的,根据所述字段中的各分词构建索引通过以下步骤进行:将各目标对象的标识通过第二分隔符与相应的新字段进行对应;对各新字段进行分词操作;以分词操作得到的分词作为索引词,将索引词与相关各目标对象的标识和该索引词在各新字段中位置进行对应。优选的,通过以下步骤确认所述查询词是属于标题信息字段区或者是属于属性信息字段区:根据所述索引词与相关各目标对象的标识的对应关系,查询与标识相应的新字段;将所述索引词在所述新字段中的位置与第一分隔符在所述新字段中的位置进行比较,确认所述索引词对应的查询词是属于标题信息字段区或者是属于属性信息字段区。优选的,通过以下步骤获得所述第一相关度:将各查询词字符串长度除以所在字段区字符串长度,获得各查询词与所在字段区的区间相关度;将各相关度乘以所在字段区的权重并相加,得到搜索词与新字段的第一相关度。优选的,所述的搜索词包括:将用户的输入的关键词作为搜索词;或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为搜索词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。优选的,对于用户输入的搜索词,获取所述搜索词的查询词时包括:通过智能纠错引擎对于用户错误输入的搜索词进行纠错。优选的,所述的目标对象包括商品;所述的属性信息包括商品的品牌信息。优选的,基于各新字段与搜索词的总相关度,至少输出一个新字段至用户端时:至少输出一个排序靠前的目标对象;所述目标对象基于相应新字段与搜索词的总相关度进行排序。相应的,本申请公开了一种搜索装置,包括:查询词获取模块,对于用户输入的搜索词,获取所述搜索词对应的各查询词;索引词搜索模块,用于针对得到的各查询词,在索引中搜索与各查询词相应的各索引词,所述索引根据目标对象的字段构建,所述目标对象的字段包括通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段;位置确认模块,用于依据各索引词在所属新字段中的位置和所述新字段中第一分隔符的位置,确认索引词对应的查询词在所属新字段中是属于标题信息字段区还是属于属性信息字段区;相关度计算模块,用于根据所述新字段的各查询词所在所属字段区计算搜索词与该新字段的总相关度;所述总相关度包括依据所述新字段的各查询词所在所属字段区的权重计算的第一相关度;输出模块,用于基于各新字段与搜索词的总相关度,返回至少一个新字段对应的目标对象。与现有技术相比,本申请包括以下优点:本申请将商品的标题和商品的品牌信息,利用分隔符拼装成新字段,然后再对此新字段进行搜索引擎索引构建,通过本申请可快速返回符合用户的期望的商品结果,并且只需要增量更新一遍索引,在计算文本相关性时,可以一次运算完成,这大大减少计算成本和硬件资源。附图说明图1是本申请一种搜索方法的流程不意图;图2是本申请一种搜索装置的结构示意图。具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。参照图1,其示出了本申请一种搜索方法的流程示意图,包括:步骤110,对于用户输入的搜索词,获取所述搜索词对应的各查询词。在实际中对于用户输入的搜索词,比如“阿迪达斯三叶草”,获取其查询词,比如“阿迪达斯”、“三叶草”。一般可以对用户输入的搜索词进行分词操作,比如用户输入的搜索词为“阿迪达斯三叶草”,则根据商品的信息和最长匹配原则,则可将上述搜索词分为两个查询词“阿迪达斯”、“三叶草”。在实际中,对于用户错误输入的搜索词,可通过智能纠错引擎进行纠错。比如,用户输入“阿迪大四”那么根据实际的统计分析结果,“阿迪大四”基本上是为了输入“阿迪达斯”,那么智能纠错引擎可将用户输入的“阿迪大四”更正为“阿迪达斯”在进行后续处理。另外,对于用户输入的搜索词,可将用户的输入的关键词作为搜索词。用户直接将自己输入的关键词作为搜索词,比如用户输入“阿迪”,那么用户直接点确认搜索,将该关键词作为输入到搜索引擎的搜索词。或者,可将用户选择的根据该用户的输入词返回的建议词中的一个作为搜索词;其中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。比如,用户输入“阿迪”,那么系统可根据实际的统计分析结果返回建议词“阿迪达斯”、“阿迪王”、“阿迪达斯三叶草”等,用户可根据自己的需求选择其中一个建议词做为搜索词最终输入到搜索引擎。步骤120,针对得到的各查询词,在索引中搜索与各查询词相应的各索引词,所述索引根据本文档来自技高网...

【技术保护点】
一种搜索方法,其特征在于,包括:对于用户输入的搜索词,获取所述搜索词对应的各查询词;针对得到的各查询词,在索引中搜索与各查询词相应的各索引词,所述索引根据目标对象的字段构建,所述目标对象的字段包括通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段;依据各索引词在所属新字段中的位置和所述新字段中第一分隔符的位置,确认索引词对应的查询词在所属新字段中是属于标题信息字段区还是属于属性信息字段区;根据所述新字段的各查询词所在所属字段区计算搜索词与该新字段的总相关度;所述总相关度包括依据所述新字段的各查询词所在所属字段区的权重计算的第一相关度;基于各新字段与搜索词的总相关度,返回至少一个新字段对应的目标对象。

【技术特征摘要】
1.一种搜索方法,其特征在于,包括: 对于用户输入的搜索词,获取所述搜索词对应的各查询词; 针对得到的各查询词,在索引中搜索与各查询词相应的各索引词,所述索引根据目标对象的字段构建,所述目标对象的字段包括通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段; 依据各索引词在所属新字段中的位置和所述新字段中第一分隔符的位置,确认索引词对应的查询词在所属新字段中是属于标题信息字段区还是属于属性信息字段区; 根据所述新字段的各查询词所在所属字段区计算搜索词与该新字段的总相关度;所述总相关度包括依据所述新字段的各查询词所在所属字段区的权重计算的第一相关度;基于各新字段与搜索词的总相关度,返回至少一个新字段对应的目标对象。2.根据权利要求1所述的方法,其特征在于,所述通过第一分隔符将目标对象的标题信息字段区和属性信息字段区拼接成的新字段,包括以下步骤: 读取目标对象的标题信息字段区和属性信息字段区; 用空白字符替换所述新字段中与第一分隔符相同的字符; 将替换后的标题信息字段区和属性信息字段区通过第一分隔符拼接为一个新字段。3.根据权利要求1所述的方法,其特征在于,根据所述字段中的各分词构建索引通过以下步骤进行: 将各目标对象的标识通过第二分隔符与相应的新字段进行对应; 对各新字段进行分词操作; 以分词操作得到的分词作为索引词,将索引词与相关各目标对象的标识和该索引词在各新字段中位置进行对应。4.根据权利要求3所述的方法,其特征在于,通过以下步骤确认所述查询词是属于标题信息字段区或者是属于属性信息字段区: 根据所述索引词与相关各目标对象的标识的对应关系,查询与标识相应的新字段; 将所述索引词在所述新字段中的位置与第一分隔符在所述新字段中的位置进行比较,确认所述索引词对应的查询词是属于标题信息字段区或者是属于属性信息字段区。5.根据权利要求1其中之一所述的方法,其特征在...

【专利技术属性】
技术研发人员:李嘉森
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1