确定用户查询语句句法结构的方法及装置制造方法及图纸

技术编号：11103704 阅读：90 留言：0更新日期：2015-03-04 15:56

本发明专利技术实施例公开了一种确定用户查询语句句法结构的方法及装置。其中，所述方法包括：识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；根据所述对齐关系和网页主题句的句法结构，构建用户查询语句的句法结构。本发明专利技术实施例提供的技术方案，能够采用一种便于后续处理的方式来捕捉用户查询语句的句法结构，特别是便于后续衡量用户查询语句和待匹配网页主题句之间的相关性处理。

全部详细技术资料下载

【技术实现步骤摘要】
确定用户查询语句句法结构的方法及装置
本专利技术实施例涉及计算机
，尤其涉及一种确定用户查询语句句法结构的方法及装置。
技术介绍
用户查询语句(用户向搜索引擎输入的字符串)和网页主题句(网页标题，或者对网页进行解析得到的用于描述网页主要内容的语句)的相关性计算是搜索产品的核心问题点。正是网页的基于相关性计算的排名决定了搜索引擎的优劣和用户的搜索体验质量。其中，对于在搜索引擎输入的用户查询语句而言，其表现形式具有多样性，不仅同样的语义可以用不同的用户查询语句表达，而且同样的分词在不同的用户查询语句中也具有多义性。例如，查询“日本收购的中国企业”的时候，可以采用如下多种用户查询语句:“被日本收购的中国企业”、“日本收购了哪些中国企业”、“中国企业日本收购”、“哪些中国企业被日本控股”等。而同一个查询关键词，例如“苹果多少钱”，可以指的是:苹果公司的市值，苹果公司新推出产品的价格，也可以指用户所在地的苹果这一水果的价格等。因此，在计算用户查询语句和网页主题句的相关性的时候，不得不尽力解决这些问题。然而，传统的基于词袋(bag-of-words)的方法，只是简单地考虑单个词或者多个词的直接匹配，并没有考虑这些词组合起来后得到的真正语义是怎样的。例如一个用户查询语句“日本收购的中国企业”和一个网页主题句“中国收购日本企业”，虽然采用单个词直接匹配的方法，相似度非常高(除了助词“的”，其他的词都被匹配上了)，然而这二者的含义却大为不同。即单单考虑词级别的匹配，无法区分开上述两句话的语义不匹配的问题。图1A是现有技术提供的一种搜...
确定用户查询语句句法结构的方法及装置

【技术保护点】
一种确定用户查询语句句法结构的方法，其特征在于，包括：识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；根据所述对齐关系和所述网页主题句的句法结构，构建所述用户查询语句的句法结构。

【技术特征摘要】
1.一种确定用户查询语句句法结构的方法，其特征在于，包括: 识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系；根据所述对齐关系和所述网页主题句的句法结构，构建所述用户查询语句的句法结构。2.根据权利要求1所述的确定用户查询语句句法结构的方法，其特征在于，根据所述对齐关系和所述网页主题句的句法结构，确定所述用户查询语句的句法结构，包括: 如果所述网页主题句中的两个分词之间具备句法结构关系，且所述两个分词分别与所述用户查询语句中的两个分词具备对齐关系，则在所述用户查询语句中的两个分词之间，建立所述网页主题句中的两个分词之间所具备的句法结构关系，以构成所述用户查询语句的句法结构。3.根据权利要求1所述的确定用户查询语句句法结构的方法，其特征在于，在识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系之前，还包括: 获取样本集，其中所述样本集包括:由多个查询语句样本组成的源语言样本子集，以及由与所述查询语句样本具有置信关系的网页主题句样本组成的翻译语言样本子集；基于词对齐算法，对所述样本集进行训练，以学习得到词对齐列表，其中所述词对齐列表中包含源语言样本子集中的分词与翻译语言样本子集中的分词之间的对齐关系；识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，包括: 根据所述词对齐列表，识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系。4.根据权利要求3所述的确定用户查询语句句法结构的方法，其特征在于，所述源语言样本子集包括:查询日志中所包含的用户输入的历史查询语句；所述翻译语言样本子集包括:与所述历史查询语句对应的用户点击网页链接中点击率超过设定点击阈值的网页链接的网页主题句。5.根据权利要求3所述的确定用户查询语句句法结构的方法，其特征在于，在识别用户查询语句的各分词与预设的网页主题句中的分词之间的对齐关系之前，还包括: 识别所述用户查询语句中的各分词的词性，以得到词性标注结果；获取所述网页主题句的词性标注结果；识别用户查询语句中的分词与预设的网页主题句中的分词之间的对齐关系，包括: 根据所述词对齐列表、所述用户查询语句的词性标注结果和所述网页主题句的词性标注结果，确定所述用户查询语句中的分词与所述网页主题句中的分词之间的对齐关系。6.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法，其特征在于，所述网页主题句为与所述用户查询语句待匹配的网页主题句；在构建所述用户查询语句的句法结构之后，还包括: 计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，将计算结果作为所述用户查询语句与所述网页主题句之间的匹配结果。7.根据权利要求6所述的确定用户查询语句句法结构的方法，其特征在于，计算所述用户查询语句的句法结构与所述网页主题句的句法结构之间的相似度，包括: 按照如下公式，计算所述相似度:L = S/[{Sl+S2}/2] 其中，L为所述相似度；S1为所述用户查询语句的句法结构中所包含的分词之间的句法结构关系的总数量；S2为所述网页主题句的句法结构中所包含的分词之间的句法结构关系的总数量；S为所述用户查询语句的句法结构中与所述网页主题句的句法结构中具有的相同句法结构关系的总数量。8.根据权利要求1-5中任一项所述的确定用户查询语句句法结构的方法，其特征在于，所述句法结构为语法依存树，句法结构关系为依存关系；或者所述句法...

【专利技术属性】
技术研发人员：吴先超，刘占一，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人