一种信息扩展方法及装置制造方法及图纸

技术编号:13620988 阅读:58 留言:0更新日期:2016-08-31 13:58
本发明专利技术公开了一种信息扩展方法及装置,包括:接收用户输入的第一搜索词;查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。本发明专利技术可以更加全面且准确的扩展出表达用户搜索意图的搜索词。

【技术实现步骤摘要】

本专利技术涉及信息处理
,尤其涉及一种信息扩展方法及装置
技术介绍
查询扩展是查询优化的一个重要和长期的分支研究方向,其目的是为了改善信息查询中的查全率和查准率。查询扩展主要是采用一定的方法和策略,对用户输入的原搜索词进行扩展,具体是对原搜索词中的关键词进行同义词替换或者根据原搜索词的上下文内容增减相关搜索词,以构造出新的搜索词,以便搜索引擎利用新的搜索词进行再次查询,使搜索引擎可以从海量信息中找到用户想要的查询内容。上述查询扩展方式主要是基于语义相关性对原搜索词进行扩展,但却不能基于原搜索词扩展出表达用户搜索意图的新搜索词,从而不能利用更多的新搜索词再次进行信息查询,使得搜索引擎在信息搜索方面的查全率和查准率较低,进而使搜索引擎不能给用户提供更多更全的相关查询结果。比如,假设大量用户会在搜索“天津爆炸事件”的时候,短时间内还会搜索“天津爆炸危险物来源”,但由于“危险物来源”与“事件”的语义相关性不大,所以现有查询扩展方式不能以“天津爆炸事件”为原搜索词通过词替换或词增减的方式扩展出“天津爆炸危险物来源”这一表达用户搜索意图的新搜索词。
技术实现思路
有鉴于此,本专利技术实施例的主要目的在于提供一种信息扩展方法及装置,可以更加全面且准确的扩展出表达用户搜索意图的搜索词。一方面,本专利技术实施例提供了一种信息扩展方法,包括:接收用户输入的第一搜索词;查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜 索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。可选的,所述获取至少一个第二搜索词,包括:遍历所述词向量库,获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量;查询词向量库,获取所述第二词向量对应的第二搜索词。可选的,所述方法还包括:对所述词向量库中的词向量进行聚类,将在距离上靠近的各个词向量聚为一个向量集;所述获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量,包括:查询得到所述第一词向量所属的向量集;从所述第一词向量所属的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量;或者,查询得到与所述第一词向量距离最近的向量集;从所述距离最近的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。可选的,为所述词向量库中的每个向量集配置一对应的中心向量,所述中心向量接近或等于对应向量集中所有词向量的平均向量;所述查询得到与所述第一词向量距离最近的向量集,包括:计算所述第一词向量与每个向量集的中心向量之间的距离;选择与所述第一词向量距离最近的中心向量对应的向量集,作为与所述第一词向量距离最近的向量集。可选的,所述方法还包括:获取历史搜索词,构建训练词库;针对训练词库中的各历史搜索词,依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量;建立所述历史搜索词与所述词向量之间的对应关系,保存在词向量库中。可选的,所述获取历史搜索词,构建训练词库,包括:统计第一时段内接收的各历史搜索词的词频;提取高频词,构建训练词库。可选的,所述针对训练词库中的各历史搜索词,依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量,包括:将训练词库中的各历史搜索词按照对应的用户进行分类,生成每个用户完成一次搜索行为对应的搜索序列;依据每一历史搜索词所属的各个搜索序列进行模型训练,生成所述历史搜索词对应的词向量。可选的,所述针对训练词库中的各历史搜索词,依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量,包括:依据历史搜索记录,生成搜索序列集;所述搜索序列集包括各用户完成一次搜索行为对应的搜索序列;遍历所述搜索序列集,对每个搜索序列中包括的与所述训练词库匹配的历史搜索词,依据包括所述历史搜索词的各搜索序列进行模型训练,生成所述历史搜索词对应的词向量。搜索词接收单元,用于接收用户输入的第一搜索词;扩展词获取单元,用于查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。另一方面,本专利技术实施例还提供了一种信息扩展装置,包括:搜索词接收单元,用于接收用户输入的第一搜索词;词向量获取单元,用于查询词向量库,获取所述第一搜索词的第一词向量; 所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词;扩展词获取单元,用于获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词。另一方面,本专利技术实施例还提供了一种用于信息扩展的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收用户输入的第一搜索词;查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。本专利技术实施例提供的一种信息扩展方法及装置,对于用户输入的第一搜索词,当所述第一搜索词与第二搜索词同时出现在大量不同的搜索序列中时,说明大量用户的共同搜索意图是在查询所述第一搜索词的同时还想查询所述第二搜索词的相关信息,当存在同时包含第一搜索词与第二搜索词的大量搜索序列时,由于利用这些搜索序列生成的第一搜索词的第一词向量和第二搜索词的第二词向量,二者在距离上会更为相近,因此,在距离上靠近第一词向量的第二词向量对应的第二搜索词,即为基于第一搜索词扩展出的包含用户搜索意图的搜索词。可见,利用包含用户搜索意图的搜索序列,可以更加全面且准确的扩展出表达用户搜索意图的搜索词。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的信息扩展方法的流程示意图;图2为本专利技术实施例提供的词向量库的建立方法的流程示意图;图3为本专利技术实施例提供的信息扩展装置示意图;图4为本专利技术实施例提供的用于信息扩展的装置示意图;图5是本专利技术实施例中服务器的结构示意图。具体实施方式为使本专利技术本文档来自技高网...

【技术保护点】
一种信息扩展方法,其特征在于,包括:接收用户输入的第一搜索词;查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。

【技术特征摘要】
1.一种信息扩展方法,其特征在于,包括:接收用户输入的第一搜索词;查询词向量库,获取所述第一搜索词的第一词向量;获取至少一个第二搜索词,所述第二搜索词是所述词向量库中距离上靠近所述第一词向量的第二词向量对应的历史搜索词;所述词向量库中包括历史搜索词与所述历史搜索词对应的词向量;其中,所述词向量是依据至少一组包括所述历史搜索词的搜索序列生成的;所述搜索序列为已发生的一个用户搜索行为对应的一组历史搜索词。2.根据权利要求1所述的方法,其特征在于,所述获取至少一个第二搜索词,包括:遍历所述词向量库,获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量;查询词向量库,获取所述第二词向量对应的第二搜索词。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对所述词向量库中的词向量进行聚类,将在距离上靠近的各个词向量聚为一个向量集;所述获取与所述第一词向量的距离小于预设值的词向量作为所述第二词向量,包括:查询得到所述第一词向量所属的向量集;从所述第一词向量所属的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量;或者,查询得到与所述第一词向量距离最近的向量集;从所述距离最近的向量集中获取至少一个与所述第一词向量的距离小于预设值的词向量作为所述第二词向量。4.根据权利要求3所述的方法,其特征在于,为所述词向量库中的每个向量集配置一对应的中心向量,所述中心向量接近或等于对应向量集中所有词向量的平均向量;所述查询得到与所述第一词向量距离最近的向量集,包括:计算所述第一词向量与每个向量集的中心向量之间的距离;选择与所述第一词向量距离最近的中心向量对应的向量集,作为与所述第一词向量距离最近的向量集。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取历史搜索词,构建训练词库;针对训练词库中的各历史搜索词,依据至少一组包括所述历史搜索词的搜索序列生成所述历史搜索词对应的词向量;建立所述历史搜索词与所述词向量之间的对应关系,保存在词向量库中。6.根据权利要求5所述的方法,其特征在于,所述获取历史搜索词,构建训练词库,包括:统计第一时段内接收的各历史搜...

【专利技术属性】
技术研发人员:邢宁刘明荣许静芳常晓夫
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1