【技术实现步骤摘要】
一种生成领域需求模版的方法及其装置
本专利技术涉及自然语言处理技术,特别涉及一种生成领域需求模版的方法及其装置。
技术介绍
搜索引擎为人们找到所需信息提供了极大的便利。在传统的搜索引擎为用户提供信息的方式中,是通过查找包含用户搜索关键字的索引,为用户返回与关键字匹配的相关页面来实现的。例如,用户的搜索请求(query)为“北京汽车4S店招聘销售主管”,这时会得到招聘网站的搜索结果页面,用户可以通过点击该页面进入招聘网站,然后在该招聘网站内填写相关信息并在站内进行检索,得到自己真正需要的信息。如果搜索引擎能够更好地理解用户在检索时的真正目的,那么搜索引擎就能够更准确地向用户返回真正符合其需求的信息。因此,自然语言处理对搜索引擎而言非常重要。在自然语言处理中,可以采用基于领域的需求模版对用户的搜索目的进行识别。例如,用户的query为“大钟寺到西单怎么走”,如果该query与交通领域的需求模版相匹配,就可以得知该用户有交通领域的需求,因此可以直接向该用户返回与交通领域相关的应用。可见,是否能够产生高质量的领域需求模版,对搜索引擎正确理解用户的搜索意图而言,非常 ...
【技术保护点】
1.一种生成领域需求模版的方法,其特征在于,所述方法包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模板与所述特定领域之间紧密度的相似度特征、表征候选需求模板覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模板中未泛化的词语对候选需求模板正确性所产生影响的边界词特征中的至少一种;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版。
【技术特征摘要】
1.一种生成领域需求模版的方法,其特征在于,所述方法包括:A.获取特定领域的候选需求模版;B.提取候选需求模版的特征,所述特征至少包括:表征候选需求模版与所述特定领域之间紧密度的相似度特征、表征候选需求模版覆盖用户搜索请求query能力的泛化能力特征以及表征候选需求模版中未泛化的词语对候选需求模版正确性所产生影响的边界词特征中的至少一种;C.利用提取的特征对候选需求模版进行排序;D.根据排序的结果从候选需求模版中选择最终需求模版作为特定领域的需求模版;其中,所述步骤A包括:A1.从搜索日志中选取用户query中与预设的所述特定领域的限定词匹配的query;A2.将选取的query中与预设的所述特定领域的槽关键词匹配的部分替换为通配符,得到候选需求模版。2.根据权利要求1所述的方法,其特征在于,在所述步骤A2之后还包括:根据预设的对所述特定领域的槽位数量要求,从所述步骤A2得到的候选需求模版中过滤掉不满足槽位数量要求的候选需求模版。3.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的相似度特征的步骤包括:获取所述W的核心词向量及所述特定领域的核心词向量;计算所述W的核心词向量与所述特定领域的核心词向量之间的相似度,并将该相似度作为所述W的相似度特征。4.根据权利要求3所述的方法,其特征在于,获取所述W的核心词向量的步骤包括:从所述W在搜索日志中覆盖的query里选取查询次数最多的N1个query,并在所述N1个query从搜索引擎返回的搜索结果中确定核心词及核心词的权重,以形成所述W的核心词向量,其中N1为正整数。5.根据权利要求3所述的方法,其特征在于,获取所述特定领域的核心词向量的步骤包括:利用所述特定领域的种子query获取搜索引擎返回的搜索结果,并在该搜索结果中确定核心词及核心词的权重,以形成所述特定领域的核心词向量。6.根据权利要求5所述的方法,其特征在于,所述特定领域的种子query的获取方式包括:方式一、从所述特定领域包含的所有候选需求模版中选取在搜索日志中覆盖query数最多的N2个候选需求模版,并针对所述N2个候选需求模版,从每个候选需求模版覆盖的query中选择查询次数最多的M1个query作为种子query,其中N2及M1为正整数;或者,方式二、将预设的所述特定领域的槽关键词与预设的所述特定领域的限定词进行组合生成所述特定领域的种子query;或者,方式三、利用所述方式一选择出部分种子query后,利用预设的所述特定领域的槽关键词词典将所述方式一选择出的种子query中的槽关键词替换为所述槽关键词词典中的其他槽关键词得到扩展的种子query;所述部分种子query和所述扩展的种子query构成所述特定领域的种子query。7.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的泛化能力特征的步骤包括:确定所述W对应的槽关键词序列,统计所述W对应的槽关键词序列中互异的槽关键词序列的数量并依据该数量计算所述W的泛化能力特征,其中所述W对应的一个槽关键词序列是由所述W在搜索日志中覆盖的一个query中的槽关键词组成的序列。8.根据权利要求1所述的方法,其特征在于,提取候选需求模版W的边界词特征的步骤包括:将所述特定领域包含的所有候选需求模版切分为片段,从得到的各切分片段中选取正片段并确定各正片段的权重以生成所述特定领域的正向量,从得到的各切分片段中选取负片段并确定各负片段的权重以生成所述特定领域的负向量;确定所述W的切分片段的权重并使用所述W的切分片段及切分片段的权重构成所述W的向量;计算所述W的向量与所述正向量的相似度S1,以及,所述W与所述负向量的相似度S2,并根据所述S1与所述S2的差值得到所述W的边界词特征。9.根据权利要求8所述的方法,其特征在于,所述特定领域的正向量和负向量的生成过程具体包括:确定各切分片段对应的槽关键词序列,其中一个切分片段对应的一个槽关键词序列是包含该切分片段的一个候选需求模版所覆盖的一个query中的槽关键词组成的序列;T1.如果一个切分片段对应的所有槽关键词序列相同,则将该切分片段作为负片段,且该负片段的权重为1;T2.如果一个切分片段对应的所有槽关键词序列不完全相同,但存在一个槽关键词序列在该切分片段的所有槽关键词序列中占的比例P大于预设的第一阈值,则将该切分片段作为负片段,且该负片段的权重为所述比例P;T3.确定特定领域包含的每个候选需求模版对应的互异的槽关键词序列的数量,得到该数量中的最大值Z1,如果一个切分片段不满足所述T1及所述T2中的条件,且该切分片段对应的互异的槽关键词序列的数量Z2与所述Z1的比值大于预设的第二阈值,则将该切分片段作为正片段,且该正片段的权重为Z2与Z1的比值。10.根据权利要求8所述的方法,其特征在于,确定所述W的切分片段的权重的步骤包括:统计所述W的切分片段在所述W中出现的次数并将该次数作为对应切分片段的权重。11.根据权利要求1所述的方法,其特征在于,所述步骤C包括:从候选需求模版中选取标准模版集;利用所述标准模版集训练提取的各特征对应的参数,将训练中使得所述标准模版集中的模版在所有候选需求模版中的排名无法更靠前时的参数值作为对应特征的权重;使用提取的各特征及特征的权重计算候选需求模版的得分,并根据该得分对各候选需求模版进行排序。12.根据权利要求11所述的方法,其特征在于,从候选需求模版中选取标准模版集的步骤包括:针对提取的每个特征分别基于特征值对候选需求模版进行排序,分别针对每个特征取排列在前N3位的候选需求模版作为对应特征的模版集合,其中N3为正整数;取各特征的模版集合之间的交集作为标准模版集。13.根据权利要求1所述的方法,其特征在于,所述步骤D包括:将排序位于前N4位的候选需求模版选取为最终需求模版,其中N4为正整数;利用排序位于前M2位的候选需求模版的边界词获取关键词集合,并将排序位于前N4位之后的候选需求模版中的边界词均属于所述关键词集合的候选需求模版选取为最终需求模版,其中所述边界词为候选需求模版中未被泛化的词,所述关键词是与所述边界词同义的词或与所述边界词之间的互信息满足要求的词,M2为正整数且M2小于或等于N4。14.一种生成领域需求模版的装置,其特征在于,所述装置包括:候选模版获取单元,用于获取特定领域的候选需求模版;特征提取单元,用于提取候选需求模版的特征,其中所述特征提取单元至少包括相似度特征提取单元、泛化能力特征提取单元或边界词特征提取单元中的一个,所述相似度特征提取单元用于提取表征候选需求模版与所述特定领域之间紧密度的相似度特征,所述泛化能力特征提取单元用于提取表征候选需求模版覆盖用户搜索请求que...
【专利技术属性】
技术研发人员:柴春光,黄际洲,时迎超,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。