一种基于名称信息的对象分类方法与设备技术

技术编号:18525946 阅读:23 留言:0更新日期:2018-07-25 12:45
本申请的目的是提供一种基于名称信息的对象分类方法与设备;确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。与现有技术相比,本申请可以有效降低了查找的时间复杂度,提高了整体上对目标对象进行分类的效率。此外,本申请降低了人工分类经验的干预,将分类标准客观统一化,有效提高了目标对象分类的准确性和稳定性。

【技术实现步骤摘要】
一种基于名称信息的对象分类方法与设备
本申请涉及计算机领域,尤其涉及一种基于名称信息的对象分类技术。
技术介绍
目前在电商、线下商品的商品交易业务中,甚至是一些非直接商品交易的业务中,如税务系统的商品发票管理业务中,都有商品分类的需求,即需要将不同的商品归属到相应的行业类别中,以方便需求用户基于商品分类进行商品查找或进行进一步的商品信息管理或分析活动。例如,在电商环境下,需要建立一个类目体系来区分不同商品的类别,以便提高用户查询体验,并方便商品信息管理等;又如,在税务系统中,需要利用企业发票数据,特别是发票中的商品对应的分类信息来分析企业运营是否异常。现有技术中,传统的商品分类方法是人工分类,即借助人工经验,基于商品的商品名称将待分类的商品分配到相应的商品类别中,此方法需要大量的工作量,同时,由于个人经验的主观性,使得分类标准不统一,分类结果存在极大的不准确性。进一步,当待分类的商品数量巨大时,传统人工分类方法的可操作性极低。此外,现有技术中,还存在一种将待分类商品与商品分类库中已知商品逐一等值匹配、来确定未分类商品的分类信息的方法,但此方法完全依赖商品分类库中的商品信息,因为只有当商品分类库中存在与待分类商品名称完全一致的商品时,才能够匹配相应的商品分类,但是在实际应用中,商品分类库无法枚举全量商品,因此使用此方法进行商品分类的匹配度较低;此外,如果进行模糊匹配,那么需要将待分类商品与商品分类库中每一个商品逐一进行相似度计算,所以整体上计算相似度的时间复杂度过高;并且所述时间复杂度随着商品分类库的商品数量的增多将进一步大大增加,因此基于此方法进行商品分类也十分不理想。
技术实现思路
本申请的目的是提供一种基于名称信息的对象分类方法与设备,以解决现有技术中基于名称信息对目标对象无法进行快速、准确地分类的问题。根据本申请的一个方面,提供了一种基于名称信息的对象分类方法,包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。根据本申请的一个方面,还提供了一种基于名称信息的对象分类方法,包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述模型树中的节点对象对应有名称信息和类别信息,所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的,所述节点距离满足距离的三角性;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。根据本申请的另一方面,还提供了一种基于名称信息的对象分类设备,包括:名称信息确定装置,用于确定目标对象的名称信息;参照信息确定装置,用于基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;类别信息确定装置,用于基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。根据本申请的另一方面,还提供了一种基于名称信息的对象分类设备,包括:确定名称信息装置,用于确定目标对象的名称信息;确定参照信息装置,用于基于所述目标对象的名称信息,在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述模型树中的节点对象对应有名称信息和类别信息,所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的,所述节点距离满足距离的三角性;确定类别信息装置,用于基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。根据本申请的另一方面,还提供了一种基于名称信息的对象分类设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。根据本申请的另一方面,还提供了一种基于名称信息的对象分类设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述模型树中的节点对象对应有名称信息和类别信息,所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的,所述节点距离满足距离的三角性;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。与现有技术相比,本申请基于目标对象的名称信息,通过查找对象编辑距离树中的节点对象,为目标对象确定一个或多个相匹配的参照对象,进而基于参照对象的类别信息,确定所述目标对象的类别信息。在本申请中,基于编辑距离树具有的三角形不等式性质,只需要在对象编辑距离树中一定范围内的节点对象中进行参照对象的查找,从而有效降低了查找的时间复杂度,提高了整体上对目标对象进行分类的效率。同时,与现有的基于等值匹配方法进行类别匹配的方法相比,本申请可以利用一个或多个相同、或相似的参照对象的类别信息确定目标对象,从技术上降低了对已有商品分类库的依赖,即并不需要依托大量的已分类商品信息,便可以实现目标对象的智能分类。此外,本申请降低了人工分类经验的干预,将分类标准客观统一化,有效提高了目标对象分类的准确性和稳定性。因此,在任意需要基于对象的名称信息进行对象分类的场景中,基于本申请可以快速、准确地实现对象分类,从而方便需求用户基于对象分类的结果进行对象查找或进行进一步的对象信息管理或分析活动。进一步,当实际应用中待分类的目标对象数量越多,本申请所体现出的对象分类的高效性和准确性的效果将越显著。进一步,在本申请的一种实现方式中,可以对获取的初始名称信息进行预处理,并基于预处理的结果确定目标对象的名称信息。在本申请的另一种实现方式中,还可以进一步,对预处理的结果进行核心词重组以确定目标对象的名称信息。基于上述两种实现方式,可以在不同程度上降低无效信息干扰,有效地减少在编辑距离树中查找所述目标对象的参照对象的工作量,同时还可以提高参照对象与目标对象的匹配的准确度。进一步,在本申请的一种实现方式中,基于一个或多个所述参照对象的类别信息,结合不同的确定策略以确定所述目标对象的类别信息。例如,基于参照对象与目标对象是否名称信息相同;或进一步结合匹配程度信息,如每个类别信息对应的全部参照对象与目标对象的平均编辑距离、或每个类别信息对应的全部参照对象与目标对象的平均名称相似度等信息来确定所述目标对象的类别信息。使得本申请进行对象分类的方法更加灵活,从而可以有效地提高分类的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种基于名称信息的对象分类的方法流程图;图2示出根据本申请一个方面的一种基本文档来自技高网
...

【技术保护点】
1.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。

【技术特征摘要】
1.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。2.根据权利要求1所述的方法,其中,所述方法还包括:获取一个或多个已知类别信息的已知对象;基于所述一个或多个已知对象的名称信息及类别信息,建立或更新对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象。3.根据权利要求2所述的方法,其中,若建立对象编辑距离树包括建立多个对象编辑距离树,则所述方法还包括:在所述多个对象编辑距离树中确定目的对象编辑距离树;其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的目的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息。4.根据权利要求2或3所述的方法,其中,所述基于所述一个或多个已知对象的名称信息及类别信息,建立或更新对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象包括:基于所述多个已知对象的名称信息,确定已知对象之间的编辑距离;基于所述编辑距离,并结合所述多个已知对象的类别信息,建立对象编辑距离树,其中,所述对象编辑距离树中的每个节点对象对应于一个已知对象。5.根据权利要求1所述的方法,其中,所述方法还包括:获取初始名称信息;对所述初始名称信息进行预处理;其中,所述确定目标对象的名称信息包括:基于所述预处理的结果确定目标对象的名称信息。6.根据权利要求5所述的方法,其中,所述确定目标对象的名称信息包括:基于所述预处理的结果确定目标对象的待重组名称信息;从所述待重组名称信息中提取多个名称核心词;将所述多个名称核心词进行重组以确定目标对象的名称信息。7.根据权利要求1至6中任一项所述的方法,其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的对象编辑距离树中确定与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息。8.根据权利要求7所述的方法,其中,所述基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息包括:基于所述名称信息,在预置的对象编辑距离树中查找并存储与所述目标对象的编辑距离小于或等于预设的距离阈值的一个或多个节点对象为候选参照对象,其中,基于候选参照对象与目标对象的编辑距离的大小,采用大顶堆存储查找到的候选参照对象;或基于候选参照对象与目标对象的名称相似度的大小,采用小顶堆存储查找到的候选参照对象;将遍历与所述目标对象的编辑距离小于或等于预设的距离阈值的节点对象后、得到的大顶堆或小顶堆中的一个或多个候选参照对象确定为参照对象。9.根据权利要求7或8所述的方法,其中,所述基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息包括以下至少任一项:若只存在一个参照对象与目标对象的名称信息相同,则确定所述参照对象的类别信息为所述目标对象的类别信息;若存在多个参照对象与目标对象的名称信息相同,则选择所述多个参照对象之一的类别信息为所述目标对象的类别信息,其中,被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小;或被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大;若不存在参照对象与目标对象的名称信息相同,则选择一个或多个参照对象的类别信息之一为所述目标对象的类别信息,其中,被选中的类别信息对应的参照对象数量最多;被选中的类别信息对应的全部参照对象与目标对象的平均编辑距离最小;或被选中的类别信息对应的全部参照对象与目标对象的平均名称相似度最大。10.根据权利要求9所的方法,其中,所述参照对象与目标对象的名称信息相同包括以下任一项:所述参照对象与目标对象的编辑距离为0;所述参照对象与目标对象的名称相似度为1。11.一种基于名称信息的对象分类方法,其中,所述方法包括:确定目标对象的名称信息;基于所述目标对象的名称信息,在预置的模型树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述模型树中的节点对象对应有名称信息和类别信息,所述模型树中节点对象之间的节点距离是基于各个节点对象的名称信息的相似度确定的,所述节点距离满足距离的三角性;基于一个或多个所述参照对象的类别信息,确定所述目标对象的类别信息。12.一种基于名称信息的对象分类设备,其中,所述设备包括:名称信息确定装置,用于确定目标对象的名称信息;参照信息确定装置,用于基于所述目标对象的名称信息,在预置的对象编辑距离树中确定与所述目标对象相匹配的一个或多个节点对象为参照对象,其中,所述节点对象对应有名称信息和类别信息;类别信息确定装置,用...

【专利技术属性】
技术研发人员:贺勇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1