【技术实现步骤摘要】
本专利技术涉及数据处理
,尤其涉及一种查询目标匹配方法及装置。
技术介绍
一般情况下,对海量数据的搜索查询,借助于计算机显得尤为重要。在自然语言处理技术中,由于中文自身的语言特点,中文处理要比其他西文处理复杂得多。现有技术中,针对用户输入的查询词,通常是计算查询词与待推荐内容的相关短文本(例如文件的名称等)二者之间的语义相似度,按照语义相似度由高到低的顺序将与短文本相关的内容推荐给用户,但是由于计算语义相似度的准确性有限,常常导致推荐给用户的内容并不是用户想得到的内容举例来说,当用户输入“英雄”这个查询词的时候,通常是想获得李连杰主演的电影《英雄》,假设有两个短文本:1、英雄联盟2、李连杰电影英雄国语完整版,一般来说,从现有技术的机械的文本匹配来看,第一个短文本相比于第二个短文本与查询词更相似,但是从语义理解来看,第二个短文本相比于第一个短文本与用户的查询意图匹配度可能更高一些。再举例来说,用户通常会通过输入“是否”这个词来获得一首名字为《是否》的歌曲的相关视频,假设有两个短文本:1、你是否爱我?2、电影《搭错车》插曲-是否,机械的文本匹配很难分辨出哪一个与短文本相关的内容更适合推荐给用户。
技术实现思路
技术问题有鉴于此,本专利技术提出一种查询目标匹配方法及装置,能够更为准确地将与用户输入的查询词相匹配的查询目标推荐给用户,以提高用户的查询效率。解决方案一方面,提出了一种查询目标匹配方法,包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查 ...
【技术保护点】
一种查询目标匹配方法,所述方法包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。
【技术特征摘要】
1.一种查询目标匹配方法,所述方法包括:获取针对相同查询目标的关联查询词;对所述关联查询词进行分词操作,以获得词;计算各所述词的词向量;根据所述词向量,确定当前查询词中各词的词向量,以及与待匹配的查询目标相对应的文本中包含的词的词向量;根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度;根据所确定的语义相似度,从所述待匹配的查询目标中确定与所述当前查询词相匹配的查询目标。2.根据权利要求1所述的方法,其中,获取针对相同查询目标的关联查询词,包括:获取相同用户连续输入的查询词,作为所述关联查询词。3.根据权利要求1或2所述的方法,其中,获取针对相同查询目标的关联查询词,包括:获取不同用户针对相同的查询目标输入的查询词,作为所述关联查询词。4.根据权利要求1所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:在所述文本中,选择所述当前查询词中的各词以及位于所述当前查询词中各词附近的词;根据当前查询词中各词的词向量,以及所述文本中所选择的词的词向量,确定当前查询词与所述文本的语义相似度。5.根据权利要求4所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:计算所述当前查询词中包含的全部词的词向量的加权和,作为第一加权向量;计算所述文本中所选择的词的词向量的加权和,作为第二加权向量;计算所述第一加权向量和所述第二加权向量的夹角的余弦值,作为当前查询词与所述文本的语义相似度。6.根据权利要求5所述的方法,其中,根据当前查询词中各词的词向量以及与待匹配的查询目标相对应的文本中包含的词的词向量,确定当前查询词与所述文本的语义相似度,包括:根据以下公式(1),确定针对当前查询词Q中的词qi的加权系数:idf(qi)=lgDOC_NUM-freqqifreqqi+0.5---(1)]]>其中,idf(qi)为当前查询词Q中的词qi的加权系数;DOC_NUM为所述文本的总数量,为词qi在所述关联查询词中出现的次数;根据以下公式(2),确定所述第一加权向量vec(Q):vec(Q)=Σi=1midf(qi)*qi---(2)]]>m为当前查询词Q中词的总个数;根据以下公式(3),确定针对所述文本S中所选择的词sj的加权系数:idf(sj)=lgDOC_NUM-freqsjfreqsj+0.5---(3)]]>其中,idf(sj)为所述文本S中所选择的词sj的加权系数;DOC_NUM为所述文本的总数量,为词sj在所述关联查询词中出现的次数;根据以下公式(4)确定所述第二加权向量vec(S):vec(S)=Σj=1kidf(sj)*sj---(4)]]>k为...
【专利技术属性】
技术研发人员:邹敏,魏强,齐志兵,尹玉宗,姚键,潘柏宇,王冀,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。