转义识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19057378 阅读:24 留言:0更新日期:2018-09-29 12:16
本申请提出一种转义识别方法、装置、计算机设备及存储介质,其中,方法包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。通过本方法,能够提高转义识别的准确性和可靠性,进而提高搜索结果的准确性。

【技术实现步骤摘要】
转义识别方法、装置、计算机设备及存储介质
本申请涉及搜索引擎
,尤其涉及一种转义识别方法、装置计算机设备及存储介质。
技术介绍
检索是搜索引擎根据用户输入的表示查询意图的搜索语句,返回一定数量的搜索结果的过程。搜索引擎返回的搜索结果可能仅与搜索语句匹配,但不符合用户的真实查询意图,例如,用户输入的搜索语句为“钻石”,搜索引擎返回的搜索结果是“钻石贴膜”的信息,这种情况称之为转义。转义会严重影响用户的搜索体验。为了能够返回符合用户查询意图的搜索结果,需要对候选搜索结果进行转义识别。相关技术中,转义识别是利用学习获得的转义识别模型实现的。通常,展现的搜索结果的点击量越高,搜索语句和搜索结果之间未发生转义的概率较高,而对于多次展现而无点击量或点击量很少的搜索结果,发生转义的概率较高。基于此,相关技术中,采用用户的点击数据作为训练样本学习得到转义识别模型,以用于转义识别。然而,依赖于用户点击行为训练得到转义识别模型的方式较片面,对于用户的点击数据中未出现的关键词,难以学习到转义信息,用户无意的误点击或有意的点击作弊均会影响转义识别模型的识别精度,导致转义识别准确率低。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种转义识别方法,以通过获取第一目标词语与第二目标词语相关的第一特征向量以及与第二目标词语无关的第二特征向量,以及获取第二目标词语与第一目标词语相关的第三特征向量和与第一目标词语无关的第四特征向量,进而根据第一特征向量与第二特征向量之间的距离以及第三特征向量与第四特征向量之间的距离,确定第一目标词语与第二目标词语组合时的转义概率,提高转义识别的准确性和可靠性,进而提高搜索结果的准确性。本申请的第二个目的在于提出一种转义识别装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种非临时性计算机可读存储介质。本申请的第五个目的在于提出一种计算机程序产品。为达上述目的,本申请第一方面实施例提出了一种转义识别方法,包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。本申请实施例的转义识别方法,通过获取待识别的第一目标词语及第二目标词语,并确定第一目标词语与第二目标词语相关的第一特征向量以及与第二目标词语无关的第二特征向量,以及确定第二目标词语与第一目标词语相关的第三特征向量和与第一目标词语无关的第四特征向量,进而根据第一特征向量与第二特征向量之间的距离以及第三特征向量与第四特征向量之间的距离,确定第一目标词语与第二目标词语组合时的转义概率。由此,通过根据两个词语对彼此特征向量的影响,来确定两个词语组合时是否发生转义,从而提高了转义识别的准确性和可靠性,进而提高了搜索结果的准确性。为达上述目的,本申请第二方面实施例提出了一种转义识别装置,包括:获取模块,用于获取待识别的第一目标词语及第二目标词语;确定模块,用于确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;转义概率确定模块,用于根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。本申请实施例的转义识别装置,通过获取待识别的第一目标词语及第二目标词语,并确定第一目标词语与第二目标词语相关的第一特征向量以及与第二目标词语无关的第二特征向量,以及确定第二目标词语与第一目标词语相关的第三特征向量和与第一目标词语无关的第四特征向量,进而根据第一特征向量与第二特征向量之间的距离以及第三特征向量与第四特征向量之间的距离,确定第一目标词语与第二目标词语组合时的转义概率。由此,通过根据两个词语对彼此特征向量的影响,来确定两个词语组合时是否发生转义,从而提高了转义识别的准确性和可靠性,进而提高了搜索结果的准确性。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的转义识别方法。为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的转义识别方法。为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时实现如第一方面实施例所述的转义识别方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种转义识别方法的流程示意图;图2为根据共现词确定第一特征向量和第二特征向量的方法流程示意图;图3为根据网页信息确定第一特征向量和第二特征向量的方法流程示意图;图4为根据图片内容确定第一特征向量和第二特征向量的方法流程示意图;图5为本申请实施例所提供的另一种转义识别方法的流程示意图;图6为本申请实施例所提供的一种转义识别装置的结构示意图;图7为本申请实施例所提供的另一种转义识别装置的结构示意图;图8为本申请实施例所提供的又一种转义识别装置的结构示意图;图9为本申请实施例所提供的再一种转义识别装置的结构示意图;图10为本申请实施例所提供的还一种转义识别装置的结构示意图;以及图11为本申请一实施例提出的计算机设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的转义识别方法、装置、计算机设备及存储介质。根据语言学家的观点,词语的语义由该词语的上下文分布决定。申请人通过对词语发生转义的例子进行统计分析后发现,多数转义发生在相邻的上下文,距离较远的上下文基本不会造成词语转义。然而,词语的语义由其上下文分布决定,并不意味着词语的语义由孤立的上下文环境临时决定,因此可以通过大数据学习词语的语义来获取可能发生转义的词语。此外,搜索语句和标题文本之间是否出现转义,还可以通过文本之外的信息进行判断,例如,根据搜索语句检索的图片结果来区分搜索语句是否发生转义。基于此,本申请实施例提出一种转义识别方法,以提高转义识别的准确率,进而提高搜索结果的准确性。图本文档来自技高网...

【技术保护点】
1.一种转义识别方法,其特征在于,包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。

【技术特征摘要】
1.一种转义识别方法,其特征在于,包括:获取待识别的第一目标词语及第二目标词语;确定所述第一目标词语对应的第一特征向量及第二特征向量,及所述第二目标词语对应的第三特征向量及第四特征向量;其中,所述第一特征向量与所述第二目标词语相关,第二特征向量与所述第二目标词语无关,第三特征向量与所述第一目标词语相关,第四特征向量与所述第一目标词语无关;根据所述第一特征向量与所述第二特征向量间的距离,及所述第三特征与所述第四特征向量间的距离,确定所述第一目标词语与所述第二目标词语组合时的转义概率。2.如权利要求1所述的方法,其特征在于,所述确定所述第一目标词对应的第一特征向量及第二特征向量,包括:对网络进行数据爬取,获取所述第一目标词语对应的第一共现词集及第二共现词集,其中所述第一共现词集中包括所述第二目标词语;根据所述第一共现词集中包括的各共现词,确定所述第一目标词语对应的第一特征向量;根据所述第二共现词集中包括的各共现词,确定所述第一目标词语对应的第二特征向量。3.如权利要求1所述的方法,其特征在于,所述确定所述第一目标词对应的第一特征向量及第二特征向量,包括:对网络进行数据爬取,获取包含所述第一目标词语的第一页面集及第二页面集,其中,所述第一页面集中至少一个页面中包括所述第二目标词语;根据所述第一页面集中各页面的属性信息,确定所述第一目标词语对应的第一特征向量;根据所述第二页面集中各页面的属性信息,确定所述第一目标词语对应的第二特征向量。4.如权利要求3所述的方法,其特征在于,所述各页面的属性信息,包括:各页面的类型或各页面所属站点的类型。5.如权利要求1所述的方法,其特征在于,所述确定所述第一目标词对应的第一特征向量及第二特征向量,包括:获取与所述第一目标词语对应是第一图片集及第二图片集,其中第一图片集中至少一个图片与所述第二目标词语对应的图片集中的图片相同;根据所述第一图片集中各图片的内容,确定所述第一目标词语对应的第一特征向量;根据所述第二图片集中各图片的内容,确定所述第一目标词语对应的第二特征向量。6.如权利要求1-5任...

【专利技术属性】
技术研发人员:邹红建方高林陈剑峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1