【技术实现步骤摘要】
一种搜索召回方法及装置
本申请涉及但不限于计算机技术,尤指一种搜索召回方法及装置。
技术介绍
品类词实体包括电商标题或询问(query)中描述的对应商品实体的名称,比如:mp3player、cateye、sportshoe、围巾等。相关技术中挖掘品类词实体的方法主要是借助于卖家主动填写的属性信息。一方面,这些属性值都是卖家主动填写的,质量参差不齐,这种通过从属性中抽取描述产品类型的属性值来获取品类词实体的方法,对卖家填写信息依赖较大,卖家未填写的部分是覆盖不到的,造成了品类词实体挖掘不全面、不准确;另一方面,抽取的词需要大量的人工审核后才能得到真正需要的品类词实体,无形中增大了成本。而且,对于如服务于东南亚买卖家的电商平台,包含英、泰、印、越、菲等5种主要语言,每种语言在平台都会有对应的搜索入口,在东南亚的买家在平台上购物时,买家通常会优先使用自己熟悉的语言,如泰语、印尼语等输入检索关键词,搜索展示时,需要根据每种语言返回相关的商品,也就是说在多语言环境下搜索召回是有一定问题的。
技术实现思路
< ...
【技术保护点】
1.一种搜索召回方法,包括:/n获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;/n将候选品类词实体输入短语切分模型,获取第一品类词实体;/n按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。/n
【技术特征摘要】
1.一种搜索召回方法,包括:
获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;
将候选品类词实体输入短语切分模型,获取第一品类词实体;
按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。
2.根据权利要求1所述的搜索召回方法,所述方法还包括获取命名实体识别NER模型,包括:
从多语言商品库中获取第一数量的商品标题样本,通过标注获取每个商品标题样本的正样例样本和负样例样本;
将正样例样本和负样例样本输入预先设置的条件随机场CRF模型进行训练,确定模型的参数以得到所述NER模型。
3.根据权利要求2所述的搜索召回方法,其中,所述获取品类词实体正样例包括:
将所述待识别商品标题输入所述NER模型,经过所述NER模型的处理得到的品类词实体作为所述品类词实体正样例。
4.根据权利要求1所述的搜索召回方法,其中,所述获取品类词实体正样例包括:
通过对所述待识别商品标题进行标注来获取所述品类词实体正样例。
5.根据权利要求1所述的搜索召回方法,其中,所述获取品类词实体负样例包括:
利用N元N-Gram模型对所述待识别商品标题进行分析,获取所述品类词实体负样例。
6.根据权利要求1所述的搜索召回方法,所述方法还包括:利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成所述短语切分模型;其中,训练生成短语切分模型包括:
根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分,根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分;
将所有得分输入预先设置的最大化整体得分目标函数,使用动态规划算法计算得到目标函数的参数,以学...
【专利技术属性】
技术研发人员:王涛,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。