【技术实现步骤摘要】
一种基于名称信息的对象分类方法与设备
本申请涉及计算机领域,尤其涉及一种基于名称信息的对象分类技术。
技术介绍
目前在电商、线下商品的商品交易业务中,甚至是一些非直接商品交易的业务中,如税务系统的商品发票管理业务中,都有商品分类的需求,即需要将不同的商品归属到相应的行业类别中,以方便需求用户基于商品分类进行商品查找或进行进一步的商品信息管理或分析活动。例如,在电商环境下,需要建立一个类目体系来区分不同商品的类别,以便提高用户查询体验,并方便商品信息管理等;又如,在税务系统中,需要利用企业发票数据,特别是发票中的商品对应的分类信息来分析企业运营是否异常。现有技术中,传统的商品分类方法是人工分类,即借助人工经验,基于商品的商品名称将待分类的商品分配到相应的商品类别中,此方法需要大量的工作量,同时,由于个人经验的主观性,使得分类标准不统一,分类结果存在极大的不准确性。进一步,当待分类的商品数量巨大时,传统人工分类方法的可操作性极低。此外,现有技术中,还存在一种将待分类商品与商品分类库中已知商品逐一等值匹配、来确定未分类商品的分类信息的方法,但此方法完全依赖商品分类库中的商品信息,因为只有当商品分类库中存在与待分类商品名称完全一致的商品时,才能够匹配相应的商品分类,但是在实际应用中,商品分类库无法枚举全量商品,因此使用此方法进行商品分类的匹配度较低;此外,如果进行模糊匹配,那么需要将待分类商品与商品分类库中每一个商品逐一进行相似度计算,所以整体上计算相似度的时间复杂度过高;并且所述时间复杂度随着商品分类库的商品数量的增多将进一步大大增加,因此基于此方法进行商品分类 ...
【技术保护点】
1.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。
【技术特征摘要】
1.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。2.根据权利要求1所述的方法,其中,所述方法还包括:获取一个或多个已知类别信息的已知对象;基于所述一个或多个已知对象的名称信息及类别信息,建立或更新对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象。3.根据权利要求2所述的方法,其中,若建立对象编辑距离树包括建立多个对象编辑距离树,则所述方法还包括:在所述多个对象编辑距离树中确定目的对象编辑距离树;其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的目的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息。4.根据权利要求2或3所述的方法,其中,所述基于所述一个或多个已知对象的名称信息及类别信息,建立或更新对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象包括:基于所述多个已知对象的名称信息,确定已知对象之间的编辑距离;基于所述编辑距离,并结合所述多个已知对象的类别信息,建立对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象。5.根据权利要求1所述的方法,其中,所述方法还包括:获取初始名称信息;对所述初始名称信息进行预处理;其中,所述确定目标对象的名称信息包括:基于所述预处理的结果确定目标对象的名称信息。6.根据权利要求5所述的方法,其中,所述确定目标对象的名称信息包括:基于所述预处理的结果确定目标对象的待重组名称信息;从所述待重组名称信息中提取多个名称核心词;将所述多个名称核心词进行重组以确定目标对象的名称信息。7.根据权利要求1至6中任一项所述的方法,其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的对象编辑距离树中确定与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息。8.根据权利要求7所述的方法,其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的对象编辑距离树中查找并存储与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为候选参照对象,其中,基于候选参照对象与目标对象的编辑距离的大小,采用大顶堆存储查找到的候选参照对象;或基于候选参照对象与目标对象的名称相似度的大小,采用小顶堆存储查找到的候选参照对象;将遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象后、得到的大顶堆或小顶堆中的一个或多个候选参照对象确定为参照对象。9.根据权利要求7或8所述的方法,其中,所述基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息包括以下至少任一项:若只存在一个参照对象与目标对象的名称信息相同,则确定所述参照对象的类别信息为所述目标对象的类别信息;若存在多个参照对象与目标对象的名称信息相同,则选择所述多个参照对象之一的类别信息为所述目标对象的类别信息,其中,被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小;或被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大;若不存在参照对象与目标对象的名称信息相同,则选择一个或多个参照对象的类别信息之一为所述目标对象的类别信息,其中,被选中的类别信息对应的参照对象数量最多;被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小;或被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大。10.根据权利要求9所的方法,其中,所述参照对象与目标对象的名称信息相同包括以下任一项:所述参照对象与目标对象的编辑距离为0;所述参照对象与目标对象的名称相似度为1。11.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述模型树中的节点对象对应有名称信息和类别信息,所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的,所述节点距离满足距离的三角性;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。12.一种基于名称信息的对象分类设备,其中,所述设备包括:名称信息确定装置,用于确定目标对象的名称信息;参照信息确定装置,用于基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;类别信息确定装置,用...
【专利技术属性】
技术研发人员:贺勇,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。