本发明专利技术提供了一种基于需求的数据检索方法和装置,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;选择用户搜索请求(query)与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;在选择的数据资源中进行针对该用户query的检索。相对于现有技术而言,本发明专利技术能够召回较准确反映用户需求的搜索结果,避免了多次检索,节约检索资源。
【技术实现步骤摘要】
一种基于需求的数据检索方法和装置
本专利技术涉及计算机
,特别涉及一种基于需求的数据检索方法和装置。
技术介绍
用户在利用搜索引擎获取信息时,在很多情况下需求是比较明确的,搜索引擎应该针对用户输入的搜索词(query)到需求对应的数据资源中搜索与该query匹配的信息并返回给用户。其中,在确定需求对应的数据资源时,将query与数据资源对应的需求描述关键词(key)进行匹配,但数 据资源对应的需求描述key往往是单一的,这就需要用户query与需求描述key的表述方式一致才能找到对应的数据资源,但用户表达同一需求时使用的用户query是多样化的,这就可能造成搜索时采用的数据资源不准确,进而返回的搜索结果不准确。例如,对于邮箱登入资源来说,存在“ 163邮箱”需求描述key,用户只能输入与需求描述key完全一致的用户query才能召回准确的搜索结果,如果输入的用户query为“免费网易邮箱”、“163邮箱登陆”等query可能就无法召回准确的搜索结果。上述问题在结构化数据搜索中尤为突出,结构化数据资源通常为暗网资源,需要外部资源提供。外部资源在提供结构化数据资源时提供单一的需求描述key。例如,提供天气信息的结构化数据资源的需求描述key为“天气预报”,如果输入的用户query为“最近天气怎么样”时,可能就无法映射到提供天气信息的结构化数据资源上,从而无法召回准确反映用户需求的搜索结果,用户只能多次尝试输入query,从而造成了资源浪费。
技术实现思路
有鉴于此,本专利技术提供了一种基于需求的数据检索方法和装置,以便于召回较准确反映用户需求的搜索结果,节约资源。具体技术方案如下—种基于需求的数据检索方法,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;所述方法包括A、选择用户搜索请求query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;B、在所述步骤A选择的数据资源中进行针对所述用户query的检索。具体地,建立所述各数据资源对应的需求描述关键词的语义向量包括以下方式中的至少一种从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量;利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量;以及,利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量。其中,利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量具体包括SI、利用所述数据资源对应的需求描述关键词进行搜索;S2、获取排在前NI个搜索结果的标题,所述NI为预设的正整数;S3、将步骤S2获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将步骤S2获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量。所述步骤A具体包括 All、接收到用户query后,分别计算所述用户query与各需求描述关键词的语义向量的相似度;A12、选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。或者,所述步骤A具体包括A21、接收到用户query后,查找预先建立的用户query与需求描述关键词的映射关系,其中所述映射关系是在计算搜索日志中各用户query与各需求描述关键词的语义向量的相似度后,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立的;A22、选择所述用户query映射到的需求描述关键词所对应的数据资源。其中,计算用户query与需求描述关键词的语义向量的相似度具体包括Cl、确定用户query在语义向量中命中的各项内容,分别计算所述命中的各项内容中用户query的命中长度与用户query的长度的比值;和/或,计算用户query的语义向量与各需求描述关键词的语义向量之间的相似度;C2、将所述步骤Cl的计算结果进行合并处理,得到用户query与需求描述关键词的语义向量的相似度。具体地,所述用户query的语义向量的建立包括以下方式中的至少一种利用用户query的搜索结果标题构成该用户query的语义向量;以及,利用用户query的同义词构成该用户query的语义向量。优选地,在建立各数据资源对应的需求描述关键词的语义向量之前还包括对各数据资源对应的需求描述关键词进行预处理;在所述步骤A之前还包括对所述用户query进行预处理;所述预处理至少包括以下处理之一转换成预设的大写或小写形式,以及,转换成预设的编码形式。一种基于需求的数据检索装置,该装置包括语义向量维护单元,用于分别建立并存储各数据资源对应的需求描述关键词的语义向量;请求接收单元,用于接收用户搜索请求query ;需求识别单元,用于选择所述用户query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;检索处理单元,用于在所述需求识别单元选择的数据资源中进行针对所述用户query的检索。具体地,所述语义向量维护单元包括第一向量维护子单元、第二向量维护子单元和第三向量维护子单元中的至少一个,以及向量存储子单元;第一向量维护子单元,用于从所述数据资源的描述信息中提取指定标签对应的内容构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;第二向量维护子单元,用于利用所述数据资源对应的需求描述关键词对应的搜索结果标题构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元;第三向量维护子单元,用于利用所述数据资源对应的需求描述关键词的同义词构成所述数据资源的需求描述关键词的语义向量,并提供给所述向量存储子单元; 所述向量存储子单元,用于存储接收到的需求描述关键词的语义向量。其中,所述第二向量维护子单元获取所述数据资源对应的需求描述关键词对应的搜索结果中排在前NI个搜索结果的标题,将获取的标题构成所述数据资源的需求描述关键词的语义向量,或者,将获取的标题进行分词处理后,提取分词处理后得到的词语中词频TF-倒文档率IDF满足预设要求的词语构成所述数据资源的需求描述关键词的语义向量,所述NI为预设的正整数。所述需求识别单元具体包括相似度计算子单元和第一资源选择子单元;所述请求接收单元将接收到的用户query提供给所述相似度计算子单元;所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;所述第一资源选择子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第一相似度要求的需求描述关键词所对应的数据资源。或者,所述需求识别单元具体包括日志选取子单元、相似度计算子单元、映射关系维护子单元和第二资源选择子单元;所述日志选取子单元,用于获取搜索日志中的用户query,并提供给所述相似度计算子单元;所述相似度计算子单元,用于计算接收到的用户query与所述语义向量维护单元维护的各需求描述关键词的语义向量的相似度;所述映射关系维护子单元,用于根据所述相似度计算子单元的计算结果,选择相似度满足预设第二相似度要求的需求描述关键词和用户query建立映射关系;所本文档来自技高网...
【技术保护点】
一种基于需求的数据检索方法,其特征在于,预先分别建立并存储各数据资源对应的需求描述关键词的语义向量;所述方法包括:A、选择用户搜索请求query与各需求描述关键词的语义向量的相似度满足预设相似度要求的需求描述关键词所对应的数据资源;B、在所述步骤A选择的数据资源中进行针对所述用户query的检索。
【技术特征摘要】
【专利技术属性】
技术研发人员:施少杰,刘建柱,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。