一种关键词扩展方法及装置制造方法及图纸

技术编号:31740557 阅读:36 留言:0更新日期:2022-01-05 16:18
本说明书公开了一种关键词扩展方法及装置,通过获取用户输入的关键词,将该关键词进行切分,确定该关键词对应的原子词序列,根据预先构建好的包括各原子词及其对应的扩展词的原子词扩展词库,确定该原子词序列中的各原子词的扩展词,进而按照该原子词序列,将各原子词及其扩展词分别进行组合,确定该关键词的扩展结果。本方法通过各原子词对应扩展词分别组合确定该关键词的扩展结果,在原子词扩展词库与近义词库存储的数据量一致的情况下,可确定出更多的扩展结果,提高了关键词扩展的效率。率。率。

【技术实现步骤摘要】
一种关键词扩展方法及装置


[0001]本说明书涉及计算机
,尤其涉及一种关键词扩展方法及装置。

技术介绍

[0002]目前,随着计算机技术的发展,如何基于用户搜索的关键词向用户进行推荐,已经成为服务提供方需要解决的问题之一。但在基于关键词进行精准匹配时,匹配结果可能较少,导致出现推荐内容不足的情况。
[0003]在现有技术中,一种常用的为用户提供更丰富的推荐内容的方法是基于关键词扩展方法实现的。具体的,可首先获取用户输入的关键词。其次,可从预先构造好的近义词库中,确定该关键词的近义词。然后,可将该近义词作为该关键词的扩展结果。最后,确定与该关键词匹配的搜索结果,以及与该扩展结果匹配的搜索结果,作为推荐内容向用户进行推荐。
[0004]但是,现有技术在构造近义词库时,需要人工对关键词的近义词进行标注。而人工标注成本高、时间长的特点,使得构建出的近义词库的规模通常较小,其含有的关键词对也较少,使得确定出的扩展内容也较少,降低了关键词扩展的效率。

技术实现思路

[0005]本说明书提供一种关键词扩展方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供关键词扩展方法,包括:
[0008]获取用户输入的关键词;
[0009]将所述关键词进行切分,确定所述关键词对应的原子词序列;
[0010]通过预先构建出的原子词扩展词库,确定所述原子词序列中的各原子词的扩展词,所述原子词扩展词库包括各原子词及其对应的扩展词;
[0011]根据所述原子词序列,将所述各原子词和所述各原子词的扩展结果分别进行组合,确定所述关键词对应的至少一个扩展内容,作为所述关键词的扩展结果。
[0012]可选地,所述原子词扩展词库通过下述方法构建:
[0013]获取若干关键词对,所述关键词对包含语义相近的两个关键词;
[0014]针对每个关键词对,将该关键词对包含的两个关键词分别进行切分,确定各关键词分别对应的原子词序列;
[0015]确定各原子词序列中的不同原子词,并根据各原子词在各原子词序列中的位置,确定位于原子词序列中相同位置的不同原子词,分别作为各关键词的特定原子词;
[0016]根据各特定原子词,确定该关键词对的同义原子词对;
[0017]根据各关键词对分别对应的同义原子词对,构建原子词扩展词库。
[0018]可选地,获取若干关键词对,具体包括:
[0019]根据各用户历史上执行搜索任务时的点击操作,获取若干历史搜索数据;
[0020]针对每个关键词,从该关键词对应的各历史搜索数据中,确定各用户执行点击操作的各搜索结果;
[0021]确定各搜索结果分别对应的其他关键词,并统计各其他关键词对应的频次;
[0022]根据所述频次,从各其他关键词中确定该与该关键词语义相近的关键词,与该关键词进行组合确定关键词对。
[0023]可选地,确定所述关键词的扩展结果之后,所述方法还包括:
[0024]接收搜索请求;
[0025]根据所述搜索请求携带的关键词,确定所述关键词及其扩展结果;
[0026]从各搜索结果中,确定包含所述关键词的搜索结果,以及包含所述扩展结果的搜索结果,作为各召回结果;
[0027]根据所述各召回结果,向用户进行展示。
[0028]可选地,所述方法还包括:
[0029]获取若干关键词及其扩展结果;
[0030]将各关键词及其扩展结果作为输入,输入训练完成的语义模型中,确定各关键词分别对应的各关键词向量,以及各扩展结果分别对应的各扩展向量;
[0031]根据各关键词向量和各扩展向量之间的相似度和预设的第一相似度阈值,对各关键词及其扩展结果进行更新。
[0032]可选地,所述语义模型经下述步骤训练得到:
[0033]根据各关键词及其扩展结果,确定各训练样本对及其标注;
[0034]将各训练样本对作为输入,输入到待训练的语义模型中,确定各训练样本分别对应的相似度;
[0035]根据各训练样本的相似度及其标注,对所述语义模型进行训练,所述语义模型用于确定各关键词及其扩展内容的语义向量。
[0036]可选地,所述方法还包括:
[0037]将所述预先训练好的语义模型的模型参数,作为所述语义模型的初始模型参数;
[0038]根据更新后的各关键词及其扩展结果,构建关键词扩展词库;
[0039]根据所述关键词扩展词库,确定各训练样本对及其标注;
[0040]根据各训练样本对及其标注,调整所述语义模型的模型参数。
[0041]本说明书提供一种关键词扩展装置,包括:
[0042]获取模块,用于获取用户输入的关键词;
[0043]确定模块,用于将所述关键词进行切分,确定所述关键词对应的原子词序列;
[0044]扩展模块,用于通过预先构建出的原子词扩展词库,确定所述原子词序列中的各原子词的扩展词,所述原子词扩展词库包括各原子词及其对应的扩展词;
[0045]组合模块,用于根据所述原子词序列,将所述各原子词和所述各原子词的扩展结果分别进行组合,确定所述关键词对应的至少一个扩展内容,作为所述关键词的扩展结果。
[0046]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述关键词扩展方法。
[0047]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处
理器上运行的计算机程序,所述处理器执行所述程序时实现上述关键词扩展方法。
[0048]本说明书采用的上述至少一个技术方案能够达到以下有益效果:
[0049]在本说明书提供的关键词扩展方法中,通过获取用户输入的关键词,将该关键词进行切分,确定该关键词对应的原子词序列,根据预先构建好的包括各原子词及其对应的扩展词的原子词扩展词库,确定该原子词序列中的各原子词的扩展词,进而按照该原子词序列,将各原子词及其扩展词分别进行组合,确定该关键词的扩展结果。
[0050]从上述方法中可以看出,本方法通过各原子词对应扩展词分别组合确定该关键词的扩展结果,在原子词扩展词库与近义词库存储的数据量一致的情况下,可确定出更多的扩展结果,提高了关键词扩展的效率。
附图说明
[0051]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
[0052]图1为本说明书提供的关键词扩展方法的流程示意图;
[0053]图2为本说明书提供的确定特定原子词的示意图;
[0054]图3为确定各关键词对的示意图;
[0055]图4为确定关键词的扩展结果的示意图;
[0056]图5为本说明书提供的关键词扩展装置;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词扩展方法,其特征在于,所述方法包括:获取用户输入的关键词;将所述关键词进行切分,确定所述关键词对应的原子词序列;通过预先构建出的原子词扩展词库,确定所述原子词序列中的各原子词的扩展词,所述原子词扩展词库包括各原子词及其对应的扩展词;根据所述原子词序列,将所述各原子词和所述各原子词的扩展结果分别进行组合,确定所述关键词对应的至少一个扩展内容,作为所述关键词的扩展结果。2.如权利要求1所述的方法,其特征在于,所述原子词扩展词库通过下述方法构建:获取若干关键词对,所述关键词对包含语义相近的两个关键词;针对每个关键词对,将该关键词对包含的两个关键词分别进行切分,确定各关键词分别对应的原子词序列;确定各原子词序列中的不同原子词,并根据各原子词在各原子词序列中的位置,确定位于原子词序列中相同位置的不同原子词,分别作为各关键词的特定原子词;根据各特定原子词,确定该关键词对的同义原子词对;根据各关键词对分别对应的同义原子词对,构建原子词扩展词库。3.如权利要求2所述的方法,其特征在于,获取若干关键词对,具体包括:根据各用户历史上执行搜索任务时的点击操作,获取若干历史搜索数据;针对每个关键词,从该关键词对应的各历史搜索数据中,确定各用户执行点击操作的各搜索结果;确定各搜索结果分别对应的其他关键词,并统计各其他关键词对应的频次;根据所述频次,从各其他关键词中确定该与该关键词语义相近的关键词,与该关键词进行组合确定关键词对。4.如权利要求1所述的方法,其特征在于,确定所述关键词的扩展结果之后,所述方法还包括:接收搜索请求;根据所述搜索请求携带的关键词,确定所述关键词及其扩展结果;从各搜索结果中,确定包含所述关键词的搜索结果,以及包含所述扩展结果的搜索结果,作为各召回结果;根据所述各召回结果,向用户进行展示。5.如权利要求1所述的方法,其特征在于,所述方法还包括:获取若干关键词及其...

【专利技术属性】
技术研发人员:沈元童咏之校娅奚骏泉张敏汤彪
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1