模板生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27812351 阅读:32 留言:0更新日期:2021-03-30 09:52
本公开提供了一种模板生成方法、装置、电子设备、存储介质及计算机程序产品,涉及智能搜索、智能推荐等领域。具体实现方案为:获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集;N为大于等于1的整数;基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语。标模板的词槽中包含的同类词语。标模板的词槽中包含的同类词语。

【技术实现步骤摘要】
模板生成方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
本公开尤其涉及智能搜索、智能推荐领域。

技术介绍

[0002]在搜索领域中,通过对用户搜索文本的统计分析,当用户对于某种信息或资源有特定意图时,使用的搜索文本会符合某种特定的模式。将这些具有相同模式的文本归纳起来形成一种模板的形式,使用模板可以比较方便地识别用户的意图。然而,如何高效并且准确的生成模板就成为需要解决的问题。

技术实现思路

[0003]本公开提供了一种模板生成方法、装置、电子设备、存储介质及计算机程序产品。
[0004]根据本申请的第一方面,提供了一种模板生成方法,包括:
[0005]获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;
[0006]基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集;N为大于等于1的整数;
[0007]基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语。
[0008]根据本申请的第二方面,提供了一种模板生成装置,包括:
[0009]信息获取模块,用于获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;
[0010]聚类模块,用于基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集;N为大于等于1的整数;
[0011]生成模块,用于基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语。
[0012]根据本申请的第三方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
[0016]根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述方法。
[0017]根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述方法。
[0018]采用本申请的技术方案,就可以基于具备点击资源的历史搜索文本进行样本集的生成,进而根据样本集中包含的历史搜索文本确定对应的目标模板以及目标模板中的词槽
所包含的同类词语。如此,通过自动的对历史搜索样本及其对应的点击资源进行分析,最终得到目标模板以及其词槽中的同类词语,提升了生成模板的准确性以及生成效率,为后续使用模板进行模板树以及词槽树的更新或构建以及进行预测等处理也更加准确以及高效。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1是根据本公开实施例的模板生成方法流程示意图;
[0022]图2是根据本公开实施例的分词词典中添加新词的处理流程示意图;
[0023]图3是根据本公开实施例的词槽树的组成示意图;
[0024]图4是根据本公开实施例的模板树的组成示意图;
[0025]图5是根据本公开实施例的基于词槽树以及模板树进行交替处理的示意图;
[0026]图6是根据本公开实施例的模板生成装置组成结构示意图一;
[0027]图7是根据本公开实施例的模板生成装置组成结构示意图二;
[0028]图8是是用来实现本公开实施例的模板生成方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]本公开实施例提供了一种模板生成方法,如图1所示,包括:
[0031]S101:获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;
[0032]S102:基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集;N为大于等于1的整数;
[0033]S103:基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语。
[0034]本实施例可以应用于电子设备,可以是具备图像处理功能的设备,比如,终端设备、服务器等等。
[0035]本实施例中,所述M个历史搜索文本的获取方式可以包括:获取预设时长内的全部历史搜索文本,从所述全部历史搜索文本中提取具备相应的点击资源的M个历史搜索文本。
[0036]其中,所述M个历史搜索文本中的任意一个历史搜索文本所对应的点击资源可以指的是,用户输入历史搜索文本后,基于该历史搜索文本召回了一个或多个候选的数据资源;用户从所述一个或多个候选的数据资源中选取并点击了一个数据资源,将用户点击的数据资源作为所述历史搜索文本所对应的点击资源。
[0037]具体来说,所述数据资源可以是搜索引擎中已索引可被检索的数据。所述数据资源可以为满足用户对信息检索和网站寻址的需求的数据资源;示例性的所述数据资源可以
包括:文档数据、网站资源中任意之一。举例来说,所述文档数据的主要文本内容可以包括题目以及内容;所述网站资源的主要文本内容可以包括题目、概述、统一资源定位符(Uniform Resource Locator,URL)等等。
[0038]所述点击资源的相关信息,可以包括有以下至少一种:所述点击资源的标签、点击资源的类别、点击资源的来源。
[0039]所述点击资源的标签的数量可以为一个或多个;所述点击资源的类别通常为一个,根据实际情况可能具备多个;所述点击资源的来源可以包括有来源于官网或非官网等等。
[0040]所述点击资源的相关信息为预先配置好的,比如,可以是预先通过二分类模型预测得到每一个点击资源的类别;还可以基于关键词提取方法确定所述点击资源的标签等等。
[0041]所述N个样本集中的每一个样本集中包含多个历史搜索文本。
[0042]也就是说,基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,将所述点击资源的类别、标签、来源中至少之一相同的历史搜索文本添加至同一个样本集中。...

【技术保护点】

【技术特征摘要】
1.一种模板生成方法,包括:获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集;N为大于等于1的整数;基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语。2.根据权利要求1所述的方法,其中,所述基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到N个样本集,包括:基于所述M个历史搜索文本分别对应的所述点击资源的相关信息对所述M个历史搜索文本进行聚类,得到K个候选样本集;K为大于等于N的整数;从所述K个候选样本集中,选取所述N个样本集。3.根据权利要求2所述的方法,其中,所述从所述K个候选样本集中,选取所述N个样本集,包括以下至少之一:对所述K个候选样本集中的第i个候选样本集中包含的历史搜索文本的数量进行统计,在所述历史搜索文本的数量达到第一预设数量的情况下,将所述第i个候选样本集作为所述N个样本集中之一;i为大于等于1且小于等于K的整数;对所述K个候选样本集中的第i个候选样本集中包含的目标类型的历史搜索文本的数量进行统计,在所述目标类型的历史搜索文本的数量达到第二预设数量的情况下,将所述第i个候选样本集作为所述N个样本集中之一:获取所述K个候选样本集中的第i个候选样本集中包含的历史搜索文本所关联的用户标识,对所述历史搜索文本所关联的用户标识去重后得到用户标识的数量,在所述用户标识的数量达到第三预设数量的情况下,将所述第i个候选样本集作为所述N个样本集中之一。4.根据权利要求1所述的方法,其中,所述基于所述N个样本集中分别包含的多个历史搜索文本,确定所述N个样本集分别相关的目标模板以及所述目标模板的词槽中包含的同类词语,包括:基于所述N个样本集中的第j个样本集包含的L个历史搜索文本,确定所述第j个样本集相关的候选模板以及所述候选模板的词槽中包含的候选同类词语;j为大于等于1且小于等于N的整数;L为大于等于1的整数;从所述候选模板中选取模板置信度大于模板置信度阈值的候选模板作为所述第j个样本集相关的目标模板;以及从所述第j个样本集相关的所述目标模板的所述词槽中包含的所述候选同类词语中选取词语置信度大于词语置信度阈值的候选同类词语,作为所述目标模板的所述词槽中包含的所述同类词语。5.根据权利要求4所述的方法,其中,所述基于所述N个样本集中的第j个样本集包含的L个历史搜索文本,确定所述第j个样本集相关的候选模板以及所述候选模板的词槽中包含的候选同类词语,包括:基于所述第j个样本集包含的所述L个历史搜索文本分别对应的分词结果,确定第k组共现词;k为大于等于1的整数;
将所述第j个样本集中包含所述第k组共现词的P个历史搜索文本作为第k个子样本集;P为大于等于1且小于等于L的整数;基于所述第k个子样本集的所述P个历史搜索文本分别对应的分词结果确定除所述第k组共现词之外的第一类词语,基于所述第k组共现词以及所述第一类词语,确定第k组候选模板以及所述第k组候选模板中各个候选模板的词槽中的初始词语;基于所述第j个样本集中的所述L个历史搜索文本分别对应的分词结果、以及所述第k组候选模板中所述各个候选模板的词槽中的初始词语,确定所述第k组候选模板中所述各个候选模板的所述词槽中分别包含的所述候选同类词语。6.根据权利要求1

5任一项所述的方法,其中,所述方法还包括:基于所述N个样本集分别相关的所述目标模板更新模板树;基于所述N个样本集分别相关的所述目标模板的所述词槽中包含的所述同类词语更新词槽树。7.根据权利要求6所述的方法,其中,所述方法还包括:在接收到当前搜索文本的情况下,基于所述词槽树以及所述模板树确定所述当前搜索文本所对应的意图识别结果。8.一种模板生成装置,包括:信息获取模块,用于获取M个历史搜索文本以及所述M个历史搜索文本分别对应的点击资源;M为大于等于1的整数;聚类模块,用于...

【专利技术属性】
技术研发人员:潘秋桐李瑞高李雅楠何伯磊刘准
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1