垂直搜索方法技术

技术编号:10468052 阅读:98 留言:0更新日期:2014-09-24 19:29
本申请提供了一种能垂直搜索方法和系统,涉及网络技术领域。所述的方法包括:根据用户端的查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述该行业已分类的各条目通过以下步骤获得:获取所述行业所有网页的所有条目及相关信息;将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。通过本申请可更精确、更全面、更快捷的展现与用户关注点相关的信息。

【技术实现步骤摘要】
本专利技术专利申请是申请日为2011年09月29日、申请号为201110300772. 3、名称 为一种智能和系统的中国专利技术专利申请的分案申请。
本申请涉及网络
,特别是涉及一种智能和系统。
技术介绍
随着互联网技术的发展,互联网上的信息呈现爆炸性的发展,这导致用户如果想 要在网络中寻找到自己需要的信息,必须通过搜索去获取自己需要的信息,搜索是广大网 民获取信息,到达指定网站的主要渠道。 现有技术中,一种是通用搜索,通过搜索引擎主动派出蜘蛛程序,对整个互联网 的网站信息进行检索,蜘蛛爬虫在抓取一个页面后,对该页面进行分析入库,并读取页面的 所有连接,然后对这些连接再进行抓取分析。通过上千蜘蛛的周期性不停抓取,实现了对 整个互联网的所有网页信息的索引,并直接根据关键词匹配将所有与该关键词相关的信息 以相关度排序返回给用户,其优点是搜索范围广,但缺点是用户通过关键词搜索返回的是 大而全的结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是 用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信 肩、。 另外一种是垂直搜索,其站内资源的深度搜索,用户在其网站上添加相应数据,系 统对该数据进行检查与过滤,搜索引擎将这些数据进行中文分词建立索引,供其他用户查 询,是某个网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种 信息添加入该网站的各个分类中,其优点是分类清晰,但缺点是搜索范围较窄,提供的结果 不够全面,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。
技术实现思路
本申请所要解决的技术问题是提供一种垂直智能和系统,解决用户 在搜索信息时无法全面、准确、快速的获取相关信息的缺点。 为了解决上述问题,本申请公开了一种智能,包括: 获取用户端选择的一行业中输入的查询词; 根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类 别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户;其中,所述 的条目为电子商务网页中的一项或多项业务内容; 其中,所述该行业已分类的各条目通过以下步骤获得: 获取所述行业所有网页的所有条目及相关信息; 将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分 析确定各条目所属类别; 和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分 类条目的各关键词的出现概率的相似度确定各条目所属类别。 优选的,所述的查询词包括: 将用户的输入的关键词作为查询词; 或者,将用户选择的根据该用户的输入词返回的建议词中的一个作为查询词;其 中,所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。 优选的,还包括以下安全检测步骤: 步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和 木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类; 和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安 全检查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据 库中删除; 和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查 该链接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数 据删除。 优选的,通过安全检查引擎和木马查杀引擎检查所述链接地址是否安全的过程通 过以下步骤进行: 步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交 给安全检查引擎检查其是否在安全等级库中存在; 步骤P2,如果存在并安全,则对所述条目进行分类; 步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据; 步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安 全,如果安全,将该链接地址存入安全等级库,并转入步骤P1。 优选的,还包括以下安全检测步骤: 通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目 进行安全检测。 优选的,在获取所述行业所有网页的所有条目及相关信息时包括: 自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息; 补充录入步骤,用于补充录入一网页的条目及相关信息。 优选的,在按类别将各所述类别的条目及相关信息展现给用户端时包括: 将条目相关的用户行为入口直接提供给用户端。 优选的,还包括: 智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。 优选的,所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概 率的差值,通过对数加权,计算出条目对应的分类c偏差值G(c),偏差值越小则相似度越 高,取最低的偏差值所在分类来确定条目所属分类。 相应的本申请还公开了一种智能垂直搜索系统,包括: 搜索引擎,用于获取用户端选择的一行业中输入的查询词;根据所述查询词与分 类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按 类别将各所述类别的条目及相关信息展现给用户;其中,所述的条目为电子商务网页中的 一项或多项业务内容; 分类数据库,用于存储各行业已分类数据; 数据获取模块,用于获取所述行业所有网页的所有条目及相关信息; 分类器,用于将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果 进行加权分析确定各条目所属类别;和/或,根据未分类条目的各关键词的出现次数比率 与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类别。 优选的,还包括: 安全检查模块,用于对于所述获取的待分类的每个条目所在的链接地址,通过安 全检查引擎和木马查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分 类; 和/或,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检查 引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中删 除; 和/或,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链接 地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删除。 优选的,还包括: 关键词建议引擎,用于根据用户的输入词返回建议词;所述的建议词通过预先统 计的用户输入的输入词与对应结果的点击关系提取获得。 优选的,还包括: 智能纠错引擎,用于对于用户错误输入的查询词进行纠错。 优选的,所述的数据获取模块包括: 数据抓取器,用于自动抓取所述行业所有网页的所有条目及相关信息; 补充录入模块,用于补充录入一网页的条目及相关信息。 优选的,还包括: 接口提供模块,用于在按类别将各所述类别的条目及相关信息展现给用户端时将 条目相关的用户行为入口直接提供给用户端。 与现有技术相比,本申请包括以下优点: 本申请通过以行业分类为搜索起点,获取网络中各行业的所有网站的条目,并通 过将各条目中的关键词与该行业各类别对应的关键词的词法匹本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410328560.html" title="垂直搜索方法原文来自X技术">垂直搜索方法</a>

【技术保护点】
一种垂直搜索方法,其包括:获取用户端选择的一行业中输入的查询词;根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户,其中,所述的条目为电子商务网页中的一项或多项业务内容。

【技术特征摘要】
1. 一种垂直搜索方法,其包括: 获取用户端选择的一行业中输入的查询词; 根据所述查询词与分类数据库中的该行业已分类的各条目匹配的结果,获取各类别与 查询词相关的条目,并按类别将各所述类别的条目及相关信息展现给用户,其中,所述的条 目为电子商务网页中的一项或多项业务内容。2. 根据权利要求1所述的方法,其中,该行业已分类的各条目通过下面步骤获得: 获取所述行业所有网页的所有条目及相关信息; 将各条目中的关键词与该行业各类别对应的关键词的词法匹配结果进行加权分析确 定各条目所属类别; 和/或,根据未分类条目的各关键词的出现次数比率与根据预先统计获得的已分类条 目的各关键词的出现概率的相似度确定各条目所属类别。3. 根据权利要求2所述的方法,其中,所述根据未分类条目的各关键词的出现次数比 率与根据预先统计获得的已分类条目的各关键词的出现概率的相似度确定各条目所属类 别包括: 获取所有影响条目分类的相关关键词,针对已分类的条目,统计所述相关关键词中在 该已分类的条目中存在的关键词和不存在的关键词,从而获得已分类的条目的各关键词的 出现概率;针对未分类的条目,统计所述相关关键词中在该已分类的条目中存在的关键词 和不存在的关键词,获得未分类条目的各关键词的出现次数比率;再对比已分类条目的各 关键词的出现概率和未分类条目的各关键词的出现次数比率获得相似度,以所述相似度确 认未分类条目所属的分类。4. 根据权利要求1至3中任一项所述的方法,其中,所述查询词包括:用户的输入的关 键词或者用户选择的根据该用户的输入词返回的建议词中的一个;其中, 所述的建议词通过预先统计的用户输入的输入词与对应结果的点击关系提取获得。5. 根据权利要求1至4中任一项所述的方法,还包括安全检测步骤,其包括: 步骤A、对于所述获取的待分类的每个条目所在的链接地址,通过安全检查引擎和木马 查杀引擎检查所述链接地址是否安全,如果安全,则对所述条目进行分类; 和/或,步骤B,对于所述分类数据库中的已分类的条目所在的链接地址,通过安全检 查引擎不断遍历每个链接地址,如果不安全,则将该链接地址的相关数据从分类数据库中 删除; 和/或,步骤C,对于用户点击的一条目所在的链接地址,通过安全检查引擎检查该链 接地址是否安全,如果不安全,则提示用户并在分类数据库中将该链接地址的相关数据删 除。6. 根据权利要求5所述的方法,其中,通过安全检查引擎和木马查杀引擎检查所述链 接地址是否安全的过程进一步包括: 步骤P1,对于所述获取的待分类的每个条目所在的链接地址,将该链接地址提交给安 全检查引擎检查其是否在安全等级库中存在; 步骤P2,如果存在并安全,则对所述条目进行分类; 步骤P3,如果存在但不安全,则发送警告信息,并过滤掉该链接地址的相关数据; 步骤P4,如果不存在,则通过木马查杀引擎检查该链接地址,判断该链接是否安全,如 果安全,将该链接地址存入安全等级库,并转入步骤Pi。7. 根据权利要求1至4中任一项所述的方法,还包括安全检测步骤: 通过包括所述条目的链接地址icp备案信息和/或网站实名认证系统对所述条目进行 安全检测。8. 根据权利要求2所述的方法,其中,获取所述行业所有网页的所有条目及相关信息 进一步包括: 自动抓取步骤,用于自动抓取所述行业所有网页的所有条目及相关信息; 补充录入步骤,用于补充录入一网页的条目及相关信息。9. 根据权利要求1至3中任一项所述的方法,其中,按类别将各所述类别的条目及相关 信息展现给用户包括: 将条目相关的用户行为入口直接提供给用户端。10. 根据权利要求1至3中任一项所述的方法,还包括: 智能纠错步骤,通过智能纠错引擎对于用户错误输入的查询词进行纠错。11. 根据权利要求2所述的方法,还包括: 所述条目各关键词i的出现次数比率与已分类条目各关键词i的出现概率的差值,通 过对数加权,计算出条目对应的分类c偏差值G (c),偏差值越小则相似度越高...

【专利技术属性】
技术研发人员:赵轶许小东
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1