生成数据对象标签、数据对象搜索方法、装置及电子设备制造方法及图纸

技术编号:29790218 阅读:15 留言:0更新日期:2021-08-24 18:09
本申请实施例公开了生成数据对象标签、数据对象搜索方法、装置及电子设备,所述方法包括:获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的;确定待预测的数据对象及其对应的图像信息;将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。通过本申请实施例,能够获取到更有效的训练样本,进而更有效地为数据对象自动生成标签。

【技术实现步骤摘要】
生成数据对象标签、数据对象搜索方法、装置及电子设备
本申请涉及数据处理
,特别是涉及生成数据对象标签、数据对象搜索方法、装置及电子设备。
技术介绍
在数据对象(商品对象或服务等)信息服务系统的搜索/推荐场景下,通常会为数据对象打上各类标签,如风格、样式、颜色等商品对象属性信息,促销、打折等商品销售信息,用户在通过词汇搜索数据对象的时候,若搜索词命中了这些标签信息,则带有这些标签信息的数据对象由于关联度较高,则会优先返回,便于用户获得最接近原始意图的数据对象的信息。换言之,数据对象的标签,是对数据对象更为细粒度的特征描述,它对提高数据对象曝光、点击、购买率具有关键影响。数据对象标签的生成技术通常可分为人工填充与算法自动填充两大类,基于人工填充的方法中,商家用户在发布数据对象的时候,选择其对应的类目信息以及添加相应的文本标签描述信息。但是,人工填充的方式准确度不高,还存在由于不确定如何添加等原因而放弃添加的情形。而算法自动填充的方法较多,例如基于商品文本特征来进行,通过构建文本特征数据底库,并通过计算当前数据对象的文本特征(通常可以从详情页中提取)与底库的文本数据特征的相似度,来自动生成标签,以便在具体的数据对象搜索、推荐等场景中使用。但是,在跨境的场景中,同一数据对象可能需要通过多种不同的语言进行发布,以便提供给多个不同语言的国家或地区的用户浏览。此时,如果仍然基于文本特征比对的方式自动生成标签,则需要分别针对不同语言的文本特征分别进行标签生成,工作量会非常大。因此,如何更有效地为数据对象自动生成标签,成为需要本领域技术人员解决的技术问题。
技术实现思路
本申请提供了生成数据对象标签、数据对象搜索方法、装置及电子设备,能够获取到更有效的训练样本,进而更有效地为数据对象自动生成标签。本申请提供了如下方案:一种生成数据对象标签的方法,包括:获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;确定待预测的数据对象及其对应的图像信息;将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。一种提供数据对象搜索信息的方法,包括:建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;接收搜索请求,并确定搜索关键词;根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。一种获取训练样本数据的方法,包括:根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。一种分类模型的处理方法,包括:获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;利用所述训练样本对所述分类模型进行训练。一种生成数据对象标签的装置,包括:分类模型获得单元,用于获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;图像确定单元,用于确定待预测的数据对象及其对应的图像信息;预测单元,用于将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。一种提供数据对象搜索信息的装置,包括:数据对象信息库建立单元,用于建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;搜索请求接收单元,用于接收搜索请求,并确定搜索关键词;搜索结果提供单元,用于根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。一种获取训练样本数据的装置,包括:目标词汇确定单元,用于根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;目标数据对象确定单元,用于对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;标注单元,用于利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。一种分类模型的处理装置,包括:样本获取单元,用于获取训练样本,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行本文档来自技高网
...

【技术保护点】
1.一种生成数据对象标签的方法,其特征在于,包括:/n获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;/n确定待预测的数据对象及其对应的图像信息;/n将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。/n

【技术特征摘要】
1.一种生成数据对象标签的方法,其特征在于,包括:
获得分类模型,所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;
确定待预测的数据对象及其对应的图像信息;
将所述待预测的数据对象的图像信息输入到所述分类模型中,以获得对应的文本标签。


2.根据权利要求1所述的方法,其特征在于,
如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。


3.根据权利要求2所述的方法,其特征在于,
所述目标操作包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。


4.一种提供数据对象搜索信息的方法,其特征在于,包括:
建立数据对象信息库,所述信息库中保存有数据对象关联的文本标签信息,所述文本标签信息包括带有搜索热点属性的目标词汇;所述文本标签信息是利用分类模型对数据对象的图像进行预测确定的;所述分类模型是通过训练样本进行训练获得的,所述训练样本包括带有标注信息的目标数据对象的图像,所述标注信息为具有搜索热点属性的目标词汇,所述目标词汇是根据对目标时间段内的用户搜索记录进行统计确定的,所述目标数据对象的图像的标注结果是通过对目标用户行为记录进行分析确定的,所述目标用户行为记录包括:以所述目标词汇为关键词发起搜索后的用户行为记录;
接收搜索请求,并确定搜索关键词;
根据所述数据对象的所述文本标签与所述搜索关键词的匹配程度,提供搜索结果。


5.根据权利要求4所述的方法,其特征在于,
如果用户对搜索结果中的一个或多个数据对象执行了目标操作,则所述一个或多个数据对象为所述目标数据对象。


6.根据权利要求5所述的方法,其特征在于,
所述目标操作包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。


7.根据权利要求4所述的方法,其特征在于,还包括:
获取所述搜索结果关联的数据对象图像的视觉语义信息;
根据所述视觉语义信息将所述搜索结果进行分组。


8.一种获取训练样本数据的方法,其特征在于,包括:
根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,所述具有搜索热点属性的目标词汇包括:搜索频次满足目标条件的词汇;
对以所述目标词汇为关键词发起搜索后的用户行为记录进行分析,从搜索结果中确定与所述目标词汇具有目标关系的目标数据对象;
利用所述目标词汇对所述目标数据对象对应的图像进行标注,并将带有标注信息的所述图像确定为训练样本,所述训练样本用于对目标模型进行训练,所述目标模型用于以待预测数据对象的图像为输入,输出匹配的目标词汇,以用于确定为所述待预测数据对象的文本标签。


9.根据权利要求8所述的方法,其特征在于,
所述从搜索结果中确定与所述热点词汇具有目标关系的目标数据对象,包括:
如果用户对所述搜索结果中的一个或多个数据对象执行了目标操作,则将所述一个或多个数据对象确定为所述目标数据对象。


10.根据权利要求9所述的方法,其特征在于,
所述目标操作包括:浏览详情页面、收藏、加入待购买集合、创建订单、成交,或者,获取客户服务资源。


11.根据权利要求8所述的方法,其特征在于,
所述目标时间段内的用户搜索记录中,包括对应多种不同语言的搜索关键词;
所述根据目标时间段内的用户搜索记录,确定具有搜索热点属性的目标词汇,包括:
将所述多种不同语言的搜索关键词翻译为目标语言;
在所述目标语言下对所述搜索关键词进行分词处理,得到多个词汇;
将与数据对象描述信息无关的词汇过滤掉之后,统计所述词汇的搜索频次信息;
根据各词汇的搜索频次信息,确定具有搜索热点属性的目标词汇。


12.根据权利要求11所述的方法,其特征在于,
如果所述目标语言为英文,则所述方法还包括:
在通过分词处理得到多个词汇后进行词...

【专利技术属性】
技术研发人员:郭宗义王彬潘攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1