泛化词典生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36958829 阅读:13 留言:0更新日期:2023-03-22 19:19
本公开提供了一种泛化词典生成方法、装置、电子设备、存储介质和程序产品,涉及计算机技术领域,尤其涉及自然语言处理NLP、大数据和智能搜索技术领域。具体实现方案为:从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由所述检索词和投放词组成的文本对集合;在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典。本公开可以提高泛化词典中泛化词和检索词的相关性,提高泛化词的准确性。提高泛化词的准确性。提高泛化词的准确性。

【技术实现步骤摘要】
泛化词典生成方法、装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及自然语言处理NLP、大数据和智能搜索
,具体涉及一种泛化词典生成方法、装置、电子设备、存储介质和程序产品。

技术介绍

[0002]在根据用户的检索词召回广告的过程中,需要利用检索词的泛化词典来获取到更精准、更丰富的广告召回结果。
[0003]现有技术中通常是利用核心词聚类的方式来获取泛化词典。然而,用户的诉求通常比较宽泛,并没有一个明确的核心语义。因此,会导致泛化出来的词和原有检索词的语义相关性差异较大,影响泛化词的准确性。

技术实现思路

[0004]本公开提供了一种泛化词典生成方法、装置、电子设备、存储介质和程序产品。
[0005]根据本公开的一方面,提供了一种泛化词典生成方法,包括:
[0006]从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由所述检索词和投放词组成的文本对集合;
[0007]在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典。
[0008]根据本公开的另一方面,提供了一种泛化词典生成装置,包括:
[0009]文本对集合获取模块,用于从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由所述检索词和投放词组成的文本对集合;
[0010]泛化词典获取模块,用于在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典。
[0011]根据本公开的另一方面,提供了一种电子设备,包括:
[0012]至少一个处理器;以及
[0013]与所述至少一个处理器通信连接的存储器;其中,
[0014]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所述的泛化词典生成方法。
[0015]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开任意实施例所述的泛化词典生成方法。
[0016]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任意实施例所述的泛化词典生成方法。
[0017]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0019]图1是根据本公开实施例的一种泛化词典生成方法的示意图;
[0020]图2是根据本公开实施例的一种泛化词典生成方法的示意图;
[0021]图3是根据本公开实施例的一种泛化词典生成方法的示意图;
[0022]图4是根据本公开实施例的一种泛化词典生成方法的示意图;
[0023]图5是根据本公开实施例的一种泛化词典生成装置的结构示意图;
[0024]图6是用来实现本公开实施例的泛化词典生成方法的电子设备的框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]图1是根据本公开实施例的泛化词典生成方法的流程示意图,本实施例可适用于对用户输入的检索词进行泛化的情况,涉及计算机
,尤其涉及自然语言处理NLP、大数据和智能搜索
该方法可由一种泛化词典生成装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如计算机设备或服务器等。如图1所示,该方法具体包括如下:
[0027]S101、从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由检索词和投放词组成的文本对集合。
[0028]S102、在文本对集合中,根据检索词与投放词的文本匹配关系,提取与检索词相匹配的投放词作为检索词的泛化词典。
[0029]其中,历史数据是指用户搜索的历史数据,包括用户输入的检索词以及与检索词对应的检索结果中用户触发的广告的投放词。例如,广告主会在广告系统中购买广告对应的投放词,当用户输入的检索词命中该投放词,则由广告系统召回该广告并进行投放,若用户在检索结果中看到该广告并进行点击,则表示用户触发了该广告。
[0030]需要说明的是,为了提高广告召回的精准度,在召回广告的过程中通常会利用预先构建的泛化词典对用户输入的检索词进行泛化,且需要确保泛化词与检索词具有语义相关性,然后再利用相关算法针对泛化后的检索词来召回广告。现有技术中通常是利用核心词聚类的方式来获取检索词的泛化词典。然而,用户输入的检索词通常没有明确的核心语义,无法生成准确的泛化词,从而导致泛化出来的词和原有检索词的语义相关性差异较大,影响泛化词的准确性。
[0031]在本公开实施例的技术方案中,先从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由检索词和投放词组成的文本对集合。在文本对集合中,同一个检索词可以对应多个不同的投放词,同一个投放词也可以对应多个不同的检索词,且分别组成不同的文本对。然后,在文本对集合中,根据检索词与投放词的文本匹配关系,提取与检索词相匹配的投放词作为检索词的泛化词典。
[0032]其中,由于文本对集合中的投放词是用户点击广告所对应的投放词,也就是说,检
索词与投放词组成的每组文本对,都是历史中真实情况下用户检索与点击的原始数据。并且,在文本对集合中,每个文本对中检索词与投放词都具有一定的语义相关性。考虑召回广告所基于的是泛化词典,那么如果泛化词本身就是来源于广告的投放词,即可提高最终广告召回的质量。因此,本公开实施例在文本对集合中,根据检索词与投放词的文本匹配关系,提取与检索词相匹配的投放词作为检索词的泛化词典。由此,既可以确保取得的泛化词与检索词具有一定的语义相关性,又可以提高泛化词典的准确性,继而提升后续广告召回的效果,提升广告点击率。其中,文本匹配可以利用现有技术中的自然语言处理技术来实现,并且对于如何确定与检索词相匹配,可以是文本完全相同,也可以是部分相同,还可以是语义相同或相似,本公开实施例对此不作任何限定,可以根据实际需要配置相应的标准和规则。
[0033]在一种实施方式中,在文本对集合中,根据检索词与投放词的文本匹配关系,提取与检索词相匹配的投放词作为检索词的泛化词典,可以包括:将文本对集合中的检索词与投放词进行匹配,根据匹配结果提取包含检索词的第一投放词集合;将第一投放词集合作为检索词的泛化词典。具体的,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种泛化词典生成方法,包括:从历史数据中获取检索词和与之对应的检索结果中用户触发广告的投放词,得到由所述检索词和投放词组成的文本对集合;在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典。2.根据权利要求1所述的方法,在所述提取与所述检索词相匹配的投放词作为所述检索词的泛化词典之前,所述方法还包括:去除所述检索词和投放词中的地域词和特殊字符。3.根据权利要求1所述的方法,其中,所述在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典,包括:在所述文本对集合中,将所述检索词与投放词进行文本匹配,根据匹配结果提取包含所述检索词的第一投放词集合;将所述第一投放词集合作为所述检索词的泛化词典。4.根据权利要求1所述的方法,其中,所述在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典,包括:提取所述文本对集合中的检索词的核心词;将所述核心词与所述投放词进行文本匹配,并根据匹配结果提取包含所述核心词的第二投放词集合;将所述第二投放词集合作为所述检索词的泛化词典。5.根据权利要求1所述的方法,其中,所述在所述文本对集合中,根据所述检索词与投放词的文本匹配关系,提取与所述检索词相匹配的投放词作为所述检索词的泛化词典,包括:在所述文本对集合中,将所述检索词与投放词进行文本匹配,根据匹配结果提取包含所述检索词的第三投放词集合;将所述第三投放词集合中的投放词与所述文本对集合中的检索词进行文本匹...

【专利技术属性】
技术研发人员:谭云飞刘晓庆
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1