确定用户查询语句句法结构的方法及装置制造方法及图纸

技术编号:11103704 阅读:90 留言:0更新日期:2015-03-04 15:56
本发明专利技术实施例公开了一种确定用户查询语句句法结构的方法及装置。其中,所述方法包括:识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;根据所述对齐关系和网页主题句的句法结构,构建用户查询语句的句法结构。本发明专利技术实施例提供的技术方案,能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构,特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。

【技术实现步骤摘要】
确定用户查询语句句法结构的方法及装置
本专利技术实施例涉及计算机
,尤其涉及一种确定用户查询语句句法结构的方法及装置。
技术介绍
用户查询语句(用户向搜索引擎输入的字符串)和网页主题句(网页标题,或者对网页进行解析得到的用于描述网页主要内容的语句)的相关性计算是搜索产品的核心问题点。正是网页的基于相关性计算的排名决定了搜索引擎的优劣和用户的搜索体验质量。其中,对于在搜索引擎输入的用户查询语句而言,其表现形式具有多样性,不仅同样的语义可以用不同的用户查询语句表达,而且同样的分词在不同的用户查询语句中也具有多义性。 例如,查询“日本收购的中国企业”的时候,可以采用如下多种用户查询语句:“被日本收购的中国企业”、“日本收购了哪些中国企业”、“中国企业日本收购”、“哪些中国企业被日本控股”等。而同一个查询关键词,例如“苹果多少钱”,可以指的是:苹果公司的市值,苹果公司新推出产品的价格,也可以指用户所在地的苹果这一水果的价格等。 因此,在计算用户查询语句和网页主题句的相关性的时候,不得不尽力解决这些问题。然而,传统的基于词袋(bag-of-words)的方法,只是简单地考虑单个词或者多个词的直接匹配,并没有考虑这些词组合起来后得到的真正语义是怎样的。例如一个用户查询语句“日本收购的中国企业”和一个网页主题句“中国收购日本企业”,虽然采用单个词直接匹配的方法,相似度非常高(除了助词“的”,其他的词都被匹配上了),然而这二者的含义却大为不同。即单单考虑词级别的匹配,无法区分开上述两句话的语义不匹配的问题。图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果。参见图1A,只有排名第四的网页与用户查询语句所表达的含义是较为吻合的,而排名第一的网页、排名第二的网页、排名第三的网页、排名第五的网页、以及排名第六的网页,所表达的含义都趋向于“中国收购日本企业”,与用户查询语句“日本收购的中国企业”所表达的含义完全相反,严重影响用户体验。 为此,可尝试从句法结构的层面,来计算用户查询语句和网页主题句的相关性。也即,分别构建用户查询语句和网页主题句的句法结构,然后根据二者的句法结构之间的相似度,来衡量其相关性。但是,由于在搜索引擎中输入的用户查询语句往往是多种多样的,在语序上也是自由的,用户查询语句较为随意,所以要想捕捉到用户查询语句的句法结构,存在较大难度。即使能够捕捉成功,基于该捕捉结果与网页主题句的句法结构进行匹配,其匹配结果的准确率也十分低下。
技术实现思路
本专利技术实施例提供一种确定用户查询语句句法结构的方法及装置,以能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构,特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。 第一方面,本专利技术实施例提供了一种确定用户查询语句句法结构的方法,该方法包括: 识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系; 根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。 第二方面,本专利技术实施例还提供了一种确定用户查询语句句法结构的装置,该装置包括: 对齐关系识别单元,用于识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系; 句法结构构建单元,用于根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。 本专利技术实施例通过用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,以及所述网页主题句的句法结构,来捕捉用户查询语句的句法结构,十分便于后续处理。特别是,在预设的网页主题句为与用户查询语句具有很高置信度关系的网页主题句的情况下,能够更好的以一种符合人类自然语言的方式来描述用户查询语句所表达的含义;在预设的网页主题句为与用户查询语句待匹配的网页主题句的情况下,可以提高后续搜索引擎对用户查询语句与网页主题句之间相似度的计算精度,有效保证搜索结果返回的准确率,提升用户的搜索体验。 【附图说明】 图1A是现有技术提供的一种搜索引擎在用户查询语句为“日本收购的中国企业”下的排名前六的搜索结果示意图; 图1B是本专利技术实施例一提供的一种确定用户查询语句句法结构的方法的流程示意图; 图2是本专利技术实施例二提供的一种确定用户查询语句句法结构的方法的流程示意图; 图3是本专利技术实施例三提供的一种确定用户查询语句句法结构的方法的流程示意图; 图4A是本专利技术实施例四提供的一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图; 图4B是本专利技术实施例四提供的在建立某候选网页标题的各个依存弧的过程中所涉及的第一个动作状态选择示意图; 图4C是本专利技术实施例四提供的在建立上述候选网页标题的各个依存弧的过程中所涉及的第二个动作状态选择示意图; 图4D是本专利技术实施例四提供的在建立上述候选网页标题的各个依存弧的过程中所涉及的第三个动作状态选择示意图; 图4E是本专利技术实施例四提供的最终建立的上述候选网页标题的包含有多条依存弧的语法依存树的结构示意图; 图4F是本专利技术实施例四提供的候选网页标题为“我吃红苹果”的语法依存树的结构示意图; 图4G是本专利技术实施例四提供的一种用户查询语句为“理想的薪水”的语法依存树构建示意图; 图5A是本专利技术实施例五提供的另一种基于句法结构模型计算用户查询句和候选网页标题相似度的方法的流程示意图; 图5B是本专利技术实施例五提供的一个候选网页标题的语义角色标注树的结构示意图; 图5C是本专利技术实施例五提供的一个候选网页标题的语法依存树和语义角色标注树的生成示意图; 图是本专利技术实施例五提供的一种用户查询语句为“小官打贪的调查”的语法依存树构建示意图; 图6是本专利技术实施例六提供的确定用户查询语句句法结构的装置的结构示意图; 图7是本专利技术实施例七提供的一种基于句法结构模型计算用户查询句和网页标题的相似度方法在搜索引擎中的信息检索系统上的应用流程图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。 实施例一 图1B是本专利技术实施例一提供的一种确定用户查询语句句法结构的方法的流程示意图。该方法可以由确定用户查询语句句法结构的装置来执行;所述装置由软件实现,可作为搜索引擎的一部分,被置备于安装在终端上的搜索引擎中,当然也可为能够与搜索引擎进行数据通信的独立产品。。参见图1B,本实施例提供的确定用户查询语句句法结构的方法具体包括如下操作: 操作110、识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。 操作120、根据所述对齐关系和网页主题句的句法结构,构建用户查询语句的句法结构。 由于用户查询语句形式的多样性和任意性,故在对其语句句法结构的确定上会存在较大难度。构造高精度高覆盖率(指覆盖广阔的形式自由的用户查询语句)的面向用户查询语句的句法结构分析器并不是一件简单的事情。但是,网页主题句通常则较为规则,其句法结构的随意性更小一些,从而使得构建网页主题句句法结构本文档来自技高网
...
确定用户查询语句句法结构的方法及装置

【技术保护点】
一种确定用户查询语句句法结构的方法,其特征在于,包括:识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系;根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。

【技术特征摘要】
1.一种确定用户查询语句句法结构的方法,其特征在于,包括: 识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系; 根据所述对齐关系和所述网页主题句的句法结构,构建所述用户查询语句的句法结构。2.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,根据所述对齐关系和所述网页主题句的句法结构,确定所述用户查询语句的句法结构,包括: 如果所述网页主题句中的两个分词之间具备句法结构关系,且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系,则在所述用户查询语句中的两个分词之间,建立所述网页主题句中的两个分词之间所具备的句法结构关系,以构成所述用户查询语句的句法结构。3.根据权利要求1所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系之前,还包括: 获取样本集,其中所述样本集包括:由多个查询语句样本组成的源语言样本子集,以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集; 基于词对齐算法,对所述样本集进行训练,以学习得到词对齐列表,其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系; 识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括: 根据所述词对齐列表,识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。4.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,所述源语言样本子集包括:查询日志中所包含的用户输入的历史查询语句; 所述翻译语言样本子集包括:与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。5.根据权利要求3所述的确定用户查询语句句法结构的方法,其特征在于,在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前,还包括: 识别所述用户查询语句中的各分词的词性,以得到词性标注结果;获取所述网页主题句的词性标注结果; 识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系,包括: 根据所述词对齐列表、所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果,确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。6.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述网页主题句为与所述用户查询语句待匹配的网页主题句; 在构建所述用户查询语句的句法结构之后,还包括: 计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。7.根据权利要求6所述的确定用户查询语句句法结构的方法,其特征在于,计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度,包括: 按照如下公式,计算所述相似度:L = S/[{Sl+S2}/2] 其中,L为所述相似度;S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量;S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量;S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。8.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法,其特征在于,所述句法结构为语法依存树,句法结构关系为依存关系;或者 所述句法...

【专利技术属性】
技术研发人员:吴先超刘占一
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1