索引构建及资源召回方法、装置、电子设备和存储介质制造方法及图纸

技术编号:34454031 阅读:36 留言:0更新日期:2022-08-06 16:58
本公开关于索引构建及资源召回方法、装置、电子设备和存储介质。所述索引构建方法包括:获取待发布的资源的属性文本,所述属性文本对应于所述资源的资源属性;从所述属性文本中提取所述资源的属性关键词;根据所述属性关键词与所述资源的对应关系构建所述资源属性对应的资源索引,所述对应关系被用于检索该资源索引中记录的资源。所述资源召回方法包括:响应于包含资源属性所对应检索文本的资源搜索请求,根据所述检索文本确定检索关键词;从所述资源属性对应的资源索引记录的资源中确定检索关键词对应的目标资源,并将该目标资源返回至资源搜索请求的发起方。该方法能够实现较高的召回准确度,并提升资源召回效率。并提升资源召回效率。并提升资源召回效率。

【技术实现步骤摘要】
索引构建及资源召回方法、装置、电子设备和存储介质


[0001]本公开涉及计算机领域,尤其涉及一种索引构建及资源召回方法、装置、电子设备和存储介质。

技术介绍

[0002]资源的发布方可以在资源消费平台上发布资源,例如,视频制作者可以在视频管理平台发布自己制作的视频、广告主可以在具有广告投放功能的平台中发布广告等。发布后的资源可以被资源消费平台召回,并提供给用户消费。
[0003]在相关技术中,发布方在发布资源时可以为待发布资源设置关键词,从而资源消费平台可以根据关键词召回相应的已发布资源。例如,发布方可以为采用激进策略设置关键词,如尽可能多的设置与待发布资源相关的关键词,并使用宽泛匹配的方式,通过数据积累删除效果不佳的关键词,最终挑选出合适的关键词;或者,发布方也可以采用保守策略设置关键词,如只设置资源标题等与资源紧密相关的关键词,并根据数据积累逐步添加新的关键词,最终选择出合适的关键词。
[0004]在资源消费平台召回已发布资源的过程中,通常需要发布方付出相应的流量、资金等成本。对于上述激进策略,由于没有对关键词进行有效筛选,会导致资源召回的准确率偏低。而对于上述保守策略,由于关键词数量极少,虽然准确度有所提升,但却存在资源的初始召回率偏低和召回率提升速度过慢的问题,不利于资源的高效召回。

技术实现思路

[0005]本公开提供了索引构建及资源召回方法、装置、电子设备和存储介质,以至少解决相关技术中存在的技术问题。本公开的技术方案如下:
[0006]根据本公开实施例的第一方面,提出一种索引构建方法,包括:
[0007]获取待发布的资源的属性文本,所述属性文本对应于所述资源的资源属性;
[0008]从所述属性文本中提取所述资源的属性关键词;
[0009]根据所述属性关键词与所述资源的对应关系构建所述资源属性对应的资源索引,所述对应关系被用于检索该资源索引中记录的资源。
[0010]可选地,
[0011]所述获取待发布的资源的属性文本,包括:获取待发布的资源的多种资源属性分别对应的属性文本;
[0012]所述从所述属性文本中提取所述资源的属性关键词,包括:从各种资源属性分别对应的属性文本中,提取所述各种资源属性分别对应的属性关键词。
[0013]可选地,从任一资源属性对应的属性文本中提取该资源属性对应的属性关键词,包括:
[0014]对所述任一资源属性对应的属性文本进行分词处理,并根据处理得到的基础词确定所述任一资源属性对应的属性关键词。
[0015]可选地,所述根据处理得到的基础词确定所述任一资源属性对应的属性关键词,包括:
[0016]将处理得到的各个基础词分别确定为所述任一资源属性对应的属性关键词;或者,
[0017]将处理得到的多个基础词组合得到的组合词确定为所述任一资源属性对应的属性关键词。
[0018]可选地,任一组合词中的多个基础词满足下述至少之一:
[0019]所述多个基础词在所述组合词中的相对位置,与所述多个基础词在所述任一资源属性对应的全部基础词中的相对位置保持一致;
[0020]所述多个基础词中的任意两个相邻基础词,在所述任一资源属性对应的全部基础词中的位置间隔不大于第一间隔阈值;
[0021]所述多个基础词中的任意两个相邻基础词的相邻字符,在所述任一资源属性对应的属性文本中的字符间隔不大于第二间隔阈值。
[0022]可选地,所述根据处理得到的基础词确定所述任一资源属性对应的属性关键词,包括:
[0023]将所述基础词中的实词确定为所述任一资源属性对应的属性关键词,并避免将所述基础词中的虚词确定为所述任一资源属性对应的属性关键词。
[0024]可选地,所述根据所述属性关键词与所述资源的对应关系构建所述资源属性对应的资源索引,包括:
[0025]在不存在所述资源属性对应的资源索引的情况下,构建所述资源属性对应的资源索引,在构建的所述资源索引中新增所述属性关键词,并在该属性关键词对应的资源集合中添加所述资源;
[0026]在存在所述资源属性对应的资源索引的情况下,若所述资源索引中记录有所述资源属性对应的任一属性关键词以及该属性关键词对应的资源集合,则在该资源集合中添加所述资源;或者,
[0027]在存在所述资源属性对应的资源索引的情况下,若所述资源索引中未记录所述资源属性对应的任一属性关键词,则在所述资源索引中新增该属性关键词,并在该属性关键词对应的资源集合中添加所述资源。
[0028]可选地,所述获取待发布的资源的属性文本,包括:
[0029]获取所述资源的发布方提交的资源物料,并从所述资源物料中获取所述资源的属性文本。
[0030]可选地,所述从所述资源物料中获取所述资源的属性文本,包括下述至少之一:
[0031]在所述资源物料包括文本的情况下,将该文本作为所述资源的属性文本;
[0032]在所述资源物料包括图像或视频的情况下,将从所述图像或所述视频的视频画面中识别到的文本作为所述资源的属性文本;
[0033]在所述资源物料包括音频的情况下,将由所述音频包含的语音转换成的文本作为所述资源的属性文本。
[0034]根据本公开实施例的第二方面,提出一种资源召回方法,包括:
[0035]响应于包含资源属性所对应检索文本的资源搜索请求,根据所述检索文本确定检
索关键词;
[0036]从所述资源属性对应的资源索引记录的资源中确定所述检索关键词对应的目标资源,其中,所述资源索引被根据待发布的资源与该资源的属性关键词之间的对应关系构建,所述属性关键词被从该资源的资源属性所对应的属性文本中提取得到;
[0037]将所述目标资源返回至所述资源搜索请求的发起方。
[0038]可选地,所述根据所述检索文本确定检索关键词,包括:
[0039]若所述检索文本包含正则表达式,则根据所述正则表达式确定所述检索关键词;
[0040]若所述检索文本不包含正则表达式,则对所述检索文本进行分词处理,并根据处理得到的基础检索词确定所述检索关键词。
[0041]可选地,所述根据处理得到的基础检索词确定所述检索关键词,包括:
[0042]将处理得到的各个基础检索词分别确定为所述检索关键词;或者,
[0043]将处理得到的多个基础检索词组合得到的组合检索词确定为所述检索关键词。
[0044]可选地,所述属性文本对应于所述资源的多种资源属性,所述从所述资源属性对应的资源索引记录的资源中确定所述检索关键词对应的目标资源,包括:
[0045]从所述多种资源属性对应的各个资源索引记录的资源中,分别确定所述检索关键词对应的目标资源。
[0046]可选地,所述多种资源属性被分别设置有相应的属性权重,从所述多种资源属性对应的各个资源索引记录的资源中确定任一检索关键词对应的目标资源,包括:
[0047]确定所述任一检索关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种索引构建方法,其特征在于,包括:获取待发布的资源的属性文本,所述属性文本对应于所述资源的资源属性;从所述属性文本中提取所述资源的属性关键词;根据所述属性关键词与所述资源的对应关系构建所述资源属性对应的资源索引,所述对应关系被用于检索该资源索引中记录的资源。2.根据权利要求1所述的方法,其特征在于,所述获取待发布的资源的属性文本,包括:获取待发布的资源的多种资源属性分别对应的属性文本;所述从所述属性文本中提取所述资源的属性关键词,包括:从各种资源属性分别对应的属性文本中,提取所述各种资源属性分别对应的属性关键词。3.根据权利要求2所述的方法,其特征在于,从任一资源属性对应的属性文本中提取该资源属性对应的属性关键词,包括:对所述任一资源属性对应的属性文本进行分词处理,并根据处理得到的基础词确定所述任一资源属性对应的属性关键词。4.根据权利要求3所述的方法,其特征在于,所述根据处理得到的基础词确定所述任一资源属性对应的属性关键词,包括:将处理得到的各个基础词分别确定为所述任一资源属性对应的属性关键词;将处理得到的多个基础词组合得到的组合词确定为所述任一资源属性对应的属性关键词。5.一种资源召回方法,其特征在于,包括:响应于包含资源属性所对应检索文本的资源搜索请求,根据所述检索文本确定检索关键词;从所述资源属性对应的资源索引记录的资源中确定所述检索关键词对应的目标资源,其中,所述资源索引被根据待发布的资源与该资源的属性关键词之间的对应关系构建,所述属性关键词被从该资源的资源属性所对应的属性文本中提取得到;将所述目标资源返回至所述资源搜索请求的发起方。6.一种索引...

【专利技术属性】
技术研发人员:王佳宾高凯明
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1