一种用于搜索的智能提示的方法、模块和系统技术方案

技术编号:9765940 阅读:215 留言:0更新日期:2014-03-15 11:52
本发明专利技术公开了一种用于搜索的智能提示的方法、模块和系统。根据本发明专利技术的方法,服务器执行以下步骤:用分词器分出前缀词和后缀词;同义扩展成前缀同义词和后缀同义词列表;然后遍历热词后缀树查找前缀匹配和或后缀匹配的热词获得候选词;再通过用户历史搜索行为的分析计算各候选词的概率。客户端执行以下步骤:计算候选词的本地相关度;计算候选词的点击预估值,然后根据点击预估值从选择候选词显示。本发明专利技术中,提示词通过前缀词和后缀词匹配获得,并结合了同义词,并综合了众多用户搜索的意图,再结合了本地相关度,从而使得提示词更接近用户搜索意图。

【技术实现步骤摘要】
一种用于搜索的智能提示的方法、模块和系统
本专利技术涉及数据搜索、数据挖掘中的关键词搜索,尤其涉及关键词输入中的人工智能。
技术介绍
智能提示是一种帮助用户明确输入意图,方便用户快捷输入,提高用户体验的方法。智能提示主要应用于搜索引擎和开发平台中,可以根据用户的输入,通过下拉框或者标签等不同的展现形式,向用户进行自动提示。目前主流搜索引擎主要是先统计服务器端保存的用户搜索历史数据,根据搜索词的搜索频率,建立热门词词典,当用户输入关键词后,根据字符串前缀匹配的方法,从热门词词典中查找候选提示词,再根据搜索频率筛选出提示词,依次展现在搜索框下方。这种智能提示,利用字符串前缀匹配查找候选提示词,可能会遗漏一些与搜索关键词相关的候选提示词。利用热门词词典中搜索频率筛选候选提示词,没有结合当前用户本地的搜索历史数据,可能会导致给出的提示词与用户搜索意图偏差。出现上述问题的根源在于习惯性语言表达方式。在中文中,修饰名词的词总是在被修饰词之前。比如“休闲裤”,其中“休闲”只是修饰词,而“裤”才是主要的名词。用户在客户端输入“休闲裤”后,按前缀匹配的方式筛选出的都是与“休闲”相关的内容。但实本文档来自技高网...

【技术保护点】
一种用于搜索的智能提示方法,包括客户端和服务器,客户端与服务器通过网络相连,该方法包括以下步骤:S21:客户端获取初始字符串;S22:客户端发送初始字符串至服务器;S29:服务器接收初始字符串;S3:服务器根据初始字符串搜索热词获得候选词信息列表;S41:服务器将候选词信息列表发送至终端;S49:客户端接收候选词信息列表;S5:客户端根据候选词信息列表获取候选词列表;S91:客户端展示候选词列表;其特征在于,所述步骤S3包括:S31:服务器根据分词器拆分初始字符串获得前缀词和后缀词;S32:服务器根据前缀词和后缀词在同义词库中查找获得前缀同义词和后缀同义词;S33:服务器遍历热词后缀树查找前缀...

【技术特征摘要】
1.一种用于搜索的智能提示方法,包括客户端和服务器,客户端与服务器通过网络相连,该方法包括以下步骤: S21:客户端获取初始字符串; S22:客户端发送初始字符串至服务器; S29:服务器接收初始字符串; S3:服务器根据初始字符串搜索热词获得候选词信息列表; S41:服务器将候选词信息列表发送至终端; S49:客户端接收候选词信息列表; S5:客户端根据候选词信息列表获取候选词列表; S91:客户端展示候选词列表; 其特征在于,所述步骤S3包括: S31:服务器根据分词器拆分初始字符串获得前缀词和后缀词; S32:服务器根据前缀词和后缀词在同义词库中查找获得前缀同义词和后缀同义词; S33:服务器遍历热词后缀树查找前缀匹配和或后缀匹配的热词,获得候选词信息列表; 其中,所述同义词库为服务器用于保存关键词之间同义关联关系的数据库;所述的热词后缀树为服务器根据热词库中的高频搜索热词依据广义后缀树的数据结构而建立;所述的热词库为服务器用于保存热词信息的数据库;所述热词信息包括热词、热词序号和热词搜索频次;所述的前缀匹配为热词的前缀与所述前缀词或前缀同义词相匹配;所述的后缀匹配为热词的后缀与所述后缀词或后缀同义词匹配。2.如权利要求1所述的用于搜索的智能提示方法,其特征在于,该方法还包括: S34:服务器根据用户历史搜索行为数据库的分析计算每个候选词的概率; 其中,所述的用户历史搜索行为数据库用于保存历史行为信息。3.如权利要求2所述的用于搜索的智能提示方法,其特征在于,所述步骤S34包括: S34al:服务器在用户历史搜索行为数据库中查找原始字符串与初始字符串相同且点击热词与候选词相同的历史行为信息,获得候选词的点击频次; S34a2:服务器根据对候选词的点击频次做归一化处理获得候选词的概率; 其中,所述的历史行为信息包括原始字符串、点击热词和点击频次。4.如权利要求2所述的用于搜索的智能提示方法,其特征在于,所述步骤S34包括: S34bl:根据候选词在用户历史搜索行为数据库查找历史行为信息; S34b2:统计该历史行为信息下不同前缀匹配方式和不同后缀匹配方式下的点击频次; S34b3:对不同前缀匹配方式和不同后缀匹配方式下的点击频次进行自然对数运算获得不同前缀匹配方式和不同后缀匹配方式下的1git值; S34b4:根据二元线性回归参数方程计算公式lcig u = & +爲;+ & &中参数的值; S34b5:根据公式 5.如权利要求1或2或3或4所述的用于搜索的智能提示方法,其特征在于,所述步骤S5包括: S51:客户端根据本地历史搜索数据库计算候选词信息列表中每个候选词的本地相关度; S52:客户端根据候选词的本地相关度、候选词信息计算每个候选词的点击预估值; S53:客户端根据候选词的点击预估值从候选词信息列表选取候选词列表; 其中,所述本地历史搜索数据库为客户端用于保存本地历史搜索信息;所述本地历史搜索信息包括本地历史搜索字符串、本地历史搜索时间、本地历史搜索频次;所述步骤S51包括: S511:用分词器将本地历史搜索数据库中的本地历史搜索字符串和候选词信息列表中的候选词拆分成关键词列表并计算每个关键词的统计频次; S512:根据关键词列表中的关键词的统计频次构建关键词空间向量; S513:根据候选词拆分的关 键词在关键词列表中关键词的统计频次构建候选词空间向量; S514:计算关键词空间向量与候选词空间向量的余弦值,获得候选词的...

【专利技术属性】
技术研发人员:罗晶尹岩严敏
申请(专利权)人:江苏金智教育信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1