查询目标匹配方法及装置制造方法及图纸

技术编号:14637038 阅读:46 留言:0更新日期:2017-02-15 11:12
本发明专利技术涉及一种查询目标匹配方法及装置,包括:获取针对相同查询目标的关联查询词;对关联查询词进行分词操作,以获得词;计算各词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与文本的语义相似度;根据所确定的语义相似度,从待匹配的查询目标中确定与当前查询词相匹配的查询目标。本发明专利技术能够更为准确地将与用户输入的查询词相匹配的查询目标推荐给用户,以提高用户的查询效率。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种查询目标匹配方法及装置
技术介绍
一般情况下,对海量数据的搜索查询,借助于计算机显得尤为重要。在自然语言处理技术中,由于中文自身的语言特点,中文处理要比其他西文处理复杂得多。现有技术中,针对用户输入的查询词,通常是计算查询词与待推荐内容的相关短文本(例如文件的名称等)二者之间的语义相似度,按照语义相似度由高到低的顺序将与短文本相关的内容推荐给用户,但是由于计算语义相似度的准确性有限,常常导致推荐给用户的内容并不是用户想得到的内容举例来说,当用户输入“英雄”这个查询词的时候,通常是想获得李连杰主演的电影《英雄》,假设有两个短文本:1、英雄联盟2、李连杰电影英雄国语完整版,一般来说,从现有技术的机械的文本匹配来看,第一个短文本相比于第二个短文本与查询词更相似,但是从语义理解来看,第二个短文本相比于第一个短文本与用户的查询意图匹配度可能更高一些。再举例来说,用户通常会通过输入“是否”这个词来获得一首名字为《是否》的歌曲的相关视频,假设有两个短文本:1、你是否爱我?2、电影《搭错车》插曲-是否,机械的文本匹配很难分辨出哪一个与短文本相关的内容更适合推荐给用户。
技术实现思路
技术问题有鉴于此,本专利技术提出一种查询目标匹配方法及装置,能够更为准确地将与用户输入的查询词相匹配的查询目标推荐给用户,以提高用户的查询效率。解决方案一方面,提出了一种查询目标匹配方法,包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。又一方面,提出了一种查询目标匹配装置,包括:获取单元,获取针对相同查询目标的关联查询词;分词单元,对所述关联查询词进行分词操作,以获得词;计算单元,计算各所述词的词向量;第一确定单元,根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;第二确定单元,根据当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;第三确定单元,根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。有益效果根据本专利技术的各个方面,通过对获取的针对相同查询目标的关联查询词进行分词操作以获得词,并计算各所述词的词向量,再根据所确定的词向量来确定当前查询词中各词的词向量以及待匹配的查询目标相应的文本中包含的词的词向量,并确定当前查询词与所述文本的语义相似度,进而从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。根据该方法和装置,使得词向量的确定考虑到了针对相同查询目标的查询词之间的关联性,能够使得到的当前查询词和与待匹配的查询目标相对应的文本的语义相似度的准确性更高,便于更准确地将与所述当前查询词相匹配的查询目标推荐给用户,提高匹配度,从而提高用户的查询效率。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本专利技术的示例性实施例、特征和方面,并且用于解释本专利技术的原理。图1示出根据本专利技术一实施例的查询目标匹配方法的流程图。图2示出根据本专利技术一实施例选择查询词中的各词以及位于查询词中各词附近的词的方法示意图。图3示出根据本专利技术一实施例的查询目标匹配装置的结构图。图4示出根据本专利技术一实施例的查询目标匹配设备的结构图。具体实施方式以下将参考附图详细说明本专利技术的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本专利技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本专利技术同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本专利技术的主旨。实施例1图1示出根据本专利技术一实施例的查询目标匹配方法的流程图。如图1所示,该方法主要包括:步骤S101,获取针对相同查询目标的关联查询词;步骤S102,对所述关联查询词进行分词操作,以获得词;步骤S103,计算各所述词的词向量;步骤S104,根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;步骤S105,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;步骤S106,根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。根据该实施例的方法,通过对获取的针对相同查询目标的关联查询词进行分词操作以获得词,并计算各所述词的词向量,再根据所确定的词向量来确定当前查询词中各词的词向量以及待匹配的查询目标相应的文本中包含的词的词向量,并确定当前查询词与所述文本的语义相似度,进而从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。根据本实施例,使得词向量的确定考虑到了针对相同查询目标的查询词之间的关联性,能够使得到的当前查询词和与待匹配的查询目标相对应的文本的语义相似度的准确性更高,便于更准确地将与所述当前查询词相匹配的查询目标推荐给用户,提高匹配度,从而提高用户的查询效率。以下结合一些具体示例,来对本实施例的各种可能的具体实现方式进行说明,这些示例是示例性和说明性的,并非意在限制本专利技术。在一个示例中,获取针对相同查询目标的关联查询词可以包括:获取相同用户连续输入的查询词,作为所述关联查询词。具体来说,相同用户在针对某一查询目标使用搜索引擎进行搜索的情况下,通常可能会包括不止一次的搜索行为,尤其是在用户对搜索结果不满意的情况下,用户可能会通过改变查询词来查找想要得到的内容,而这种相同用户连续输入不同查询词的搜索行为实际上是人为建立了不同查询词之间的关联关系。例如,某一用户希望得到歌曲《是否》的相关视频,第一次通过输入“是否”来进行搜索,但是对于搜索引擎的推荐,用户并没有得到满意的结果,该用户第二次通过输入“电影插曲是否”来进行再次搜索,且得到了满意的结果。基于该用户的上述行为,可以建立“是否”与“电影插曲是否”之间的关联关系,“是否电影插曲是否”可以作为关联查询词。在一个示例中,可统计用户输入第一个查询词之后的预定时间(例如5到10分钟)内输入的查询词,作为用户连续输入的查询词,并由此形成关联查询词。在一个示例中,获取针对相同查询目标的关联查询词还可以包括:获取不同用户针对相同的查询目标输入的查询词,作为所述关联查询词。具体来说,通常,不同用户可能会针对相同的查询目标采用相同或者不同的查询词进行搜索,进本文档来自技高网...
查询目标匹配方法及装置

【技术保护点】
一种查询目标匹配方法,所述方法包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。

【技术特征摘要】
1.一种查询目标匹配方法,所述方法包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。2.根据权利要求1所述的方法,其中,获取针对相同查询目标的关联查询词,包括:获取相同用户连续输入的查询词,作为所述关联查询词。3.根据权利要求1或2所述的方法,其中,获取针对相同查询目标的关联查询词,包括:获取不同用户针对相同的查询目标输入的查询词,作为所述关联查询词。4.根据权利要求1所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:在所述文本中,选择所述当前查询词中的各词以及位于所述当前查询词中各词附近的词;根据当前查询词中各词的词向量,以及所述文本中所选择的词的词向量,确定当前查询词与所述文本的语义相似度。5.根据权利要求4所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:计算所述当前查询词中包含的全部词的词向量的加权和,作为第一加权向量;计算所述文本中所选择的词的词向量的加权和,作为第二加权向量;计算所述第一加权向量和所述第二加权向量的夹角的余弦值,作为当前查询词与所述文本的语义相似度。6.根据权利要求5所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:根据以下公式(1),确定针对当前查询词Q中的词qi的加权系数:idf(qi)=lgDOC_NUM-freqqifreqqi+0.5---(1)]]>其中,idf(qi)为当前查询词Q中的词qi的加权系数;DOC_NUM为所述文本的总数量,为词qi在所述关联查询词中出现的次数;根据以下公式(2),确定所述第一加权向量vec(Q):vec(Q)=Σi=1midf(qi)*qi---(2)]]>m为当前查询词Q中词的总个数;根据以下公式(3),确定针对所述文本S中所选择的词sj的加权系数:idf(sj)=lgDOC_NUM-freqsjfreqsj+0.5---(3)]]>其中,idf(sj)为所述文本S中所选择的词sj的加权系数;DOC_NUM为所述文本的总数量,为词sj在所述关联查询词中出现的次数;根据以下公式(4)确定所述第二加权向量vec(S):vec(S)=Σj=1kidf(sj)*sj---(4)]]>k为...

【专利技术属性】
技术研发人员:邹敏魏强齐志兵尹玉宗姚键潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1