搜索信息获取方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:25835722 阅读:27 留言:0更新日期:2020-10-02 14:16
本发明专利技术公开了一种搜索信息获取方法、装置、计算机设备及可读存储介质,涉及互联网技术领域,按照场景特征对现存的样本词数据进行聚类以及挖掘,形成针对不同场景特征的推荐词集,从而确定与用户当前所处场景匹配的目标推荐词集,在目标推荐词集中进行信息搜索,保证将用户在空间上以及时间上的特征都考虑进来,使得搜索信息与用户所处场景契合,避免对用户的实际需求理解存在偏差,提高了搜索信息的准确度。所述方法包括:构建至少一个推荐词集;当接收到待搜索内容时,在至少一个推荐词集中确定目标推荐词集;基于待搜索内容,在目标推荐词集中获取至少一个搜索信息;将至少一个搜索信息进行展示。

【技术实现步骤摘要】
搜索信息获取方法、装置、计算机设备及可读存储介质
本专利技术涉及互联网
,特别是涉及一种搜索信息获取方法、装置、计算机设备及可读存储介质。
技术介绍
近年来,随着科技的快速发展,互联网应用广泛深入各类领域,大数据呈现爆炸式增长,海量的数据和信息分散于网络空间,当用户需要获取信息和数据时,通常会使用搜索引擎进行信息搜索,从而获取到用户想要的搜索信息。相关技术中,用户在向搜索引擎提交自然语言表述的待搜索内容之后,为了将用户的日常搜索习惯结合到对搜索信息的获取过程中,搜索引擎通常会获取用户的历史搜索日志,在历史搜索日志中获取待搜索内容对应的搜索信息,将搜索信息反馈给用户。比如,假设用户当前提交的待搜索内容为“美食”,则搜索引擎会在历史搜索日志中获取用户之前搜索“美食”时为用户提供的搜索词条作为本次需要反馈给用户的内容。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:用户在使用搜索引擎进行搜索时,在不同场景以及不同时间下,希望获取到的搜索信息可能是不同的,比如用户在早上搜索“美食”,可能希望获取到有关早餐的搜索信息,而在晚上搜索“美食”,可能希望获取到有关晚餐的搜索信息,但是搜索引擎在获取搜索信息时,会将全部有关用户输入的待搜索内容反馈给用户,很可能反馈的搜索信息与用户当前的需求并不契合,对用户的实际需求理解存在偏差,导致搜索信息的准确度较低。
技术实现思路
有鉴于此,本专利技术提供了一种搜索信息获取方法、装置、计算机设备及可读存储介质,主要目的在于解决目前反馈的搜索信息与用户当前的需求并不契合,对用户的实际需求理解存在偏差,导致搜索信息的准确度较低的问题。依据本专利技术第一方面,提供了一种搜索信息获取方法,该方法包括:构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;将所述至少一个搜索信息进行展示。在另一个实施例中,所述构建至少一个推荐词集,包括:获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。在另一个实施例中,所述确定所述样本词数据中包括的每个数据的场景特征,包括:对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。在另一个实施例中,所述当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,包括:当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。在另一个实施例中,所述分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集,包括:将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;以所述目标搜索位置为中心点,形成目标搜索区域,根据所述目标搜索区域,在所述候选词集中提取所述目标推荐词集,所述目标推荐词集的场景特征包括的地理位置位于所述目标搜索区域内。在另一个实施例中,所述基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息,包括:获取所述目标推荐词集包括的全部推荐词的推荐词属性,在所述全部推荐词中提取推荐词属性包括所述待搜索内容的推荐词作为所述至少一个搜索信息;和/或,采用所述待搜索内容进行文本查询,将文本中包括所述待搜索内容的推荐词作为所述至少一个搜索信息。在另一个实施例中,所述将所述至少一个搜索信息进行展示,包括:基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,所述至少一个信息评分中每个信息评分至少包括文本相关性评分和场景匹配分;按照所述至少一个信息评分从大到小的顺序,对所述至少一个搜索信息进行排序;将排序后的所述至少一个搜索信息进行展示。在另一个实施例中,所述基于所述待搜索内容和所述搜索场景特征,对所述至少一个搜索信息进行评分,得到至少一个信息评分,包括:对于所述至少一个搜索信息中每个搜索信息,分别对所述待搜索内容和所述搜索信息进行分词处理,计算所述待搜索内容与所述搜索信息的文本相关性评分;获取预设场景匹配模型,将所述搜索场景特征和所述搜索信息的目标场景特征输入至所述预设场景匹配模型,基于所述预设场景匹配模型,输出所述搜索场景特征和所述目标场景特征的场景匹配分;确定所述搜索信息的信息来源,查询所述信息来源对应的来源预设分,所述信息来源至少为所述历史搜索数据或所述平台接入数据中的任一种;采用所述文本相关性评分、所述场景匹配分以及所述来源预设分对应的权重,对所述文本相关性评分、所述场景匹配分以及所述来源预设分进行计算,得到所述搜索信息的信息评分;分别为所述至少一个搜索信息中每个搜索信息计算信息评分,得到所述至少一个信息评分。依据本专利技术第二方面,提供了一种搜索信息获取装置,该装置包括:构建模块,用于构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;确定模块,用于当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特本文档来自技高网...

【技术保护点】
1.一种搜索信息获取方法,其特征在于,包括:/n构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;/n当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;/n基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;/n将所述至少一个搜索信息进行展示。/n

【技术特征摘要】
1.一种搜索信息获取方法,其特征在于,包括:
构建至少一个推荐词集,所述至少一个推荐词集通过对样本词数据进行场景特征识别并聚类得到,所述样本词数据至少包括用户的历史搜索数据以及平台接入数据;
当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,所述目标推荐词集对应的目标场景特征与搜索场景特征匹配,所述搜索场景特征根据接收到所述待搜索内容的目标搜索时间以及目标搜索位置生成;
基于所述待搜索内容,在所述目标推荐词集中获取至少一个搜索信息;
将所述至少一个搜索信息进行展示。


2.根据权利要求1所述的方法,其特征在于,所述构建至少一个推荐词集,包括:
获取用户在指定历史时间段内的所述历史搜索数据,统计平台的所述平台接入数据,将所述历史搜索数据和所述平台接入数据整理为所述样本词数据;
对所述样本词数据进行场景特征识别,确定所述样本词数据中包括的每个数据的场景特征,所述每个数据至少对应一个或者多个所述场景特征;
将所述场景特征一致的所述样本词数据进行聚类,生成存储所述场景特征与所述样本词数据之间映射关系的至少一个词语映射表,将所述至少一个词语映射表作为所述至少一个推荐词集,所述至少一个推荐词集中每个推荐词集包括的样本词数据的场景特征一致。


3.根据权利要求2所述的方法,其特征在于,所述确定所述样本词数据中包括的每个数据的场景特征,包括:
对于所述样本词数据中的所述历史搜索数据,查询所述历史搜索数据的产生时间和产生地理位置;
确定所述产生时间所处的第一时间区间,将所述产生地理位置和所述第一时间区间作为所述历史搜索数据的场景特征;
对于所述样本词数据中的所述平台接入数据,确定提供所述平台接入数据的目标门店,提取所述目标门店的门店地理位置;
获取所述平台接入数据的时间属性,确定所述时间属性对应的第二时间区间;
将所述门店地理位置和所述第二时间区间作为所述平台接入数据的场景特征。


4.根据权利要求1所述的方法,其特征在于,所述当接收到待搜索内容时,在所述至少一个推荐词集中确定目标推荐词集,包括:
当接收到所述待搜索内容时,对所述用户当前所处位置进行定位,获取所述目标搜索位置;
确定接收到所述待搜索内容的所述目标搜索时间,查询所述目标搜索时间所属的第三时间区间;
将所述目标搜索位置和所述第三时间区间进行组合,生成所述搜索场景特征;
分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集。


5.根据权利要求4所述的方法,其特征在于,所述分别将所述至少一个推荐词集对应的场景特征与所述搜索场景特征进行比对,提取所述目标推荐词集,包括:
将所述第三时间区间与所述至少一个推荐词集的场景特征进行比对,在所述至少一个推荐词中确定候选词集,所述候选词集的场景特征包括的时间区间与所述第三时间区间一致;
以所述目标搜索位置为中心点,形成目...

【专利技术属性】
技术研发人员:桑梓森
申请(专利权)人:口口相传北京网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1