The invention relates to a method for determining the business category includes: the business data has been marked category clustering to determine a plurality of main businesses; data to label category of business of word segmentation; according to the segmentation results, the main class determines that the annotation belongs to the category of business; and determine the category the annotation belongs to the category of business. In determining the current to be settled in the business category, by first determine main class to which it belongs, and then determine the specific category in the main class defined, can overcome due to sparse data leads to low efficiency and even inaccurate results to determine the problem, improve the efficiency and accuracy of the judgment category, at the same time can be determined for the main class features more flexible to set a specific category.
【技术实现步骤摘要】
用于确定商家品类的方法、系统和装置
本公开涉及互联网
,尤其涉及一种用于确定商家品类的方法、系统和装置。
技术介绍
随着互联网技术的发展,O2O(OnlinetoOffline,线上到线下)已经兴起成为一种为广大消费者所接受的商业模式。O2O的基本商业逻辑是,用户在线上平台预先支付,然后到线下消费体验,商家实时追踪其营销效果,由此形成闭环的商业服务和体验过程。由于品牌效应和聚集效应的作用,越来越多的线上商家选择依附于已成规模的第三方平台来推广和提供商品和服务。对于这样的第三方平台而言,为了方便品牌运营和商户筛选,通常需要对入驻的线上商家进行主营品类的确定。目前常见的做法是,在商家入住平台时,由商家自身或平台商务拓展部门的工作人员手动进行确定,选择一个品类作为商家主营品类、若干个其他品类作为附属品类。这样一来,如果某个商家在入驻平台时既没有主动确定主营品类,也没有经过商务拓展部门的确定,则该商家的主营品类信息就无法体现在平台的品类体系当中,从而会直接影响到后续的品类运营和商家竞对分析。另一方面,虽然对线上商家主营品类进行自动判定的需求一直存在,但考虑到大规模平台的商家品类数量众多、且分布不均衡(例如“快餐”和“东南亚菜”在某网上外卖平台中的商家数量要相差几个数量级),由此造成的数据稀疏导致难以得到准确的判定结果。
技术实现思路
本公开的目的是提供一种用于确定商家品类的方法、系统和装置,以解决现有技术中存在的上述问题。根据本公开的一个方面,提供一种用于确定商家品类的方法,包括以下步骤:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数 ...
【技术保护点】
一种确定商家品类的方法,包括:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。
【技术特征摘要】
1.一种确定商家品类的方法,包括:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。2.如权利要求1所述的方法,其中,所述对已标注品类的商家数据进行层次聚类处理包括:基于所述已标注品类的商家数据构造品类集合;基于所述品类集合中的各品类两两结合构造品类对;基于所述已标注品类的商家数据统计每个所述品类对的出现次数;基于所述出现次数的统计结果构造品类矩阵,该矩阵的每一行和每一列都分别对应于所述品类集合中的一个品类,且该矩阵的每个元素为该元素所在行和所在列所对应的品类对的出现次数;基于所述品类矩阵的每一行构造该行所对应品类的特征向量;以及基于所述特征向量通过层次聚类法生成所述多个主类。3.如权利要求2所述的方法,其中,所述基于所述特征向量通过层次聚类法生成所述多个主类包括:按照以下公式计算各品类之间的相似度:其中,表示品类T1与品类T2之间的相似度,T1i表示品类T1所对应特征向量中的各分量,T2i表示T2所对应特征向量中的各分量;n表示特征向量中的分量总数;取相似度最高的多个品类生成新类,基于合并前该多个品类的特征向量构造所述新类的特征向量;重复上述步骤直至得到一个最终类;以及使用直接合并得到所述最终类的多个类作为所述多个主类。4.如权利要求1至3任一项所述的方法,其中,所述待标注品类的商家的商家数据来自以下任意一种或多种:所述商家入驻当前平台时的输入;所述当前平台以外的其他平台的数据注入或对该其他平台的数据抓取。5.如权利要求1至3任一项所述的方法,其中,所述确定所述待标注品类的商家所属的主类基于第一分类模型来进行,所述确定所述待标注品类的商家所属的品类基于第二分类模型来进行;所述第一分类模型与所述第二分类模型相同或不同,并且选自后缀词模型、地址词模型和概率统计模型中的任意一种或多种。6.如权利要求1至3任一项所述的方法,其中,在所述对待标注品类的商家的商家数据进行分词之前还包括:根据预设规则删除所述商家数据中的无关字符。7.如权利要求6所述的方法,其中,所述商家数据包括商家名称和商品名称,所述根据预设规则删除所述商家数据中的无关字符包括选自以下的任意步骤:基于预设的非法字符集合删除所述商家名称和商品名称中的非法字符;基于预设的合法字符集删除所述商家名称和商品名称中不属于...
【专利技术属性】
技术研发人员:李露,黄晓烽,曾轲,王瀚森,刘怀军,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。