物品属性信息的处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:26172826 阅读:39 留言:0更新日期:2020-10-31 13:52
本申请公开了一种物品属性信息的处理方法及装置,涉及智能搜索领域,可通过深度学习算法实现。具体实现方案为:获取目标物品的属性信息,其中属性信息包括属性名称及其属性值;从属性信息中获取不满足预设筛选条件的目标属性信息,并提取目标属性信息的属性特征;根据分类算法对属性特征进行处理,预测目标属性信息中各属性值的分类标签,并将目标属性信息以及各属性值的分类标签存储到当前属性表中;从当前属性表中获取与目标物品匹配的候选物品,根据预设聚类算法对目标属性信息和候选物品的属性信息进行聚类处理,生成多个属性值类簇;根据多个属性值类簇中各属性值的分类标签筛选目标物品和候选物品的属性信息中的正常属性值和异常属性值。

【技术实现步骤摘要】
物品属性信息的处理方法、装置、电子设备和存储介质
本申请涉及数据处理领域,尤其涉及智能搜索领域相关的物品属性信息的处理方法、装置、电子设备和存储介质。
技术介绍
在电商类物品垂直搜索引擎中,筛选区通常展示不同物品的属性名和属性值供用户检索后进行筛选。搜索引擎收录的物品物料来自不同的站点的不同店家,物品属性字段填写标准不一因而质量差异较大,为方便搜索引擎进行检索与展示,需对物品属性进行审核。审核的内容包括对已入库物品,判断属性填写内容是否正确、是否完整或冗余、是否满足平台规定、是否格式规范、是否填写在正确的属性名下面以及是否与库内同类物品的属性同义不同字,判断后将有效的属性建入索引库,同时对错误属性进行修改或丢弃。
技术实现思路
提供了一种物品属性信息的处理方法、装置、电子设备以及存储介质。根据第一方面,提供了一种物品属性信息的处理方法,包括:获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;...

【技术保护点】
1.一种物品属性信息的处理方法,包括:/n获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;/n从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;/n根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签,并将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;/n从所述当前属性表中获取与所述目标物品匹配的候选物品,根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;/n根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常...

【技术特征摘要】
1.一种物品属性信息的处理方法,包括:
获取目标物品的属性信息,其中,所述属性信息包括属性名称和对应的属性值;
从所述属性信息中获取不满足预设筛选条件的目标属性信息,并提取所述目标属性信息的属性特征;
根据预设的分类算法对所述属性特征进行处理,预测所述目标属性信息中各属性值的分类标签,并将所述目标属性信息以及所述各属性值的分类标签存储到当前属性表中;
从所述当前属性表中获取与所述目标物品匹配的候选物品,根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇;
根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值。


2.如权利要求1所述的物品属性信息的处理方法,所述从所述属性信息中获取不满足预设筛选条件的目标属性信息,包括:
识别所述属性信息中各属性名称和对应的属性值是否存在于预设的黑名单词典中;
若属性名称和/或所述属性名称对应的属性值不存在于所述黑名单词典中,则将所述不存在于所述黑名单词典中的属性信息确定为所述不满足预设筛选条件的目标属性信息。


3.如权利要求2所述的物品属性信息的处理方法,所述从所述属性信息中获取不满足预设筛选条件的目标属性信息,还包括:
针对所述属性信息中带单位的属性值,采用正则表达式识别是否能从所述带单位的属性值中提取到单位;
若不能提取到单位,则将所述不能提取到单位的属性值所对应的属性信息确定为所述不满足预设筛选条件的目标属性信息。


4.如权利要求1所述的物品属性信息的处理方法,其中,所述将所述目标属性信息以及各属性值的分类标签存储到当前属性表中,包括:
判断所述目标属性信息中的属性名称是否已存在于所述当前属性表中;
如果未存在于所述当前属性表中,则将所述目标属性信息中的属性名称新增至所述当前属性表,并基于新增的属性名称在所述当前属性表中的位置,将所述新增的属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置;
如果存在于所述当前属性表中,则基于所述目标属性信息中的属性名称在所述当前属性表中的位置,将所述目标属性信息之中所述属性名称对应的属性值及其分类标签添加至所述当前属性表中的对应位置。


5.如权利要求4所述的物品属性信息的处理方法,所述判断所述目标属性信息中的属性名称是否已存在于所述当前属性表中,包括:
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的第一编辑距离;
计算所述目标属性信息中的属性名称与所述当前属性表中各属性名称的语义相似度;
根据计算得到的所述第一编辑距离和所述语义相似度,判断是否能够从所述当前属性表中找出第一编辑距离最小且语义相似度大于目标值的属性名称;
若否,则判定所述目标属性信息中的属性名称未存在于所述当前属性表中;
若是,则判定所述目标属性信息中的属性名称存在于所述当前属性表中。


6.如权利要求1所述的物品属性信息的处理方法,其中,从所述当前属性表中获取与所述目标物品匹配的候选物品,包括:
提取所述当前属性表中各物品的属性信息之中标题属性值的关键词;
根据所述关键词,计算所述各物品的属性信息之间的相似度;
根据所述相似度对所述当前属性表中的物品进行聚类,以从所述当前属性表中获取与所述目标物品匹配的候选物品。


7.如权利要求1所述的物品属性信息的处理方法,其中,当所述属性信息之中的属性值为数值型属性值时,所述根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇,包括:
采用预设的字符串聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。


8.如权利要求1所述的物品属性信息的处理方法,其中,当所述属性信息之中的属性值为非数值型属性值时,所述根据预设聚类算法对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇,包括:
提取所述目标属性信息之中属性值的第一语义特征,以及所述候选物品的属性信息之中属性值的第二语义特征;
根据所述预设聚类算法、所述第一语义特征和所述第二语义特征,对所述目标属性信息和所述候选物品的属性信息进行聚类处理,生成多个属性值类簇。


9.如权利要求1所述的物品属性信息的处理方法,其中,所述根据所述多个属性值类簇中各属性值的分类标签筛选所述目标物品和所述候选物品的属性信息中的正常属性值和异常属性值,包括:
遍历每个所述属性值类簇,判断所述属性值类簇中属性值的总数占所述多个属性值类簇中属性值的总数的第一比例是否超过第一阈值;
判断所述属性值类簇中分类标签为正样本的属性值的总数占所述属性值类簇中属性值的总数的第二比例是否超过第二阈值;
若所述第一比例超过所述第一阈值,且所述第二比例超过所述第二阈值,则将所述属性值类簇中的属性值,确定为标准属性值;
若所述第一比例未超过所述第一阈值,和/或,所述第二比例未超过所述第二阈值,则将所述属性值类簇中的属性值,确定为异常属性值。


10.如权利要求1所述的物品属性信息的处理方法,还包括:
将所述目标物品和所述候选物品的属性信息中的正常属性值添加至所述标准属性值;
将所述目标物品和所述候选物品的属性信息中的异常属性值添加至脏属性表。


11.如权利要求10所述的物品属性信息的处理方法,还包括:
当所述目标物品的个数大于预设阈值时,将所述脏属性表中的至少部分物品的属性信息添加至所述当前属性表中。


12.如权利要求10或11所述的物品属性信息的处理方法,还包括:
将所述标准属性值中的属性信息作为训练数据;
基于所述训练数据对所述分类算法进行继续训练。


13.一种物品属性信息的处理装置,包括:
第一获取模块,用于获取目标物品的属性信息,其中,所述属性信息包括...

【专利技术属性】
技术研发人员:黄志标裴一飞
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1