用于确定商家品类的方法、系统和装置制造方法及图纸

技术编号:15705247 阅读:193 留言:0更新日期:2017-06-26 12:27
本申请涉及一种用于确定商家品类的方法,包括:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。在判定当前待入驻商家的品类时,通过先判定其所属的主类,再在确定的主类中判定其所属的具体品类,能够克服由于数据稀疏导致判定效率较低甚至结果不准的问题,提高品类判定的效率和准确率,同时能够针对主类各自的特点更加灵活地设置具体品类的判定方式。

Method, system and device for determining merchant category

The invention relates to a method for determining the business category includes: the business data has been marked category clustering to determine a plurality of main businesses; data to label category of business of word segmentation; according to the segmentation results, the main class determines that the annotation belongs to the category of business; and determine the category the annotation belongs to the category of business. In determining the current to be settled in the business category, by first determine main class to which it belongs, and then determine the specific category in the main class defined, can overcome due to sparse data leads to low efficiency and even inaccurate results to determine the problem, improve the efficiency and accuracy of the judgment category, at the same time can be determined for the main class features more flexible to set a specific category.

【技术实现步骤摘要】
用于确定商家品类的方法、系统和装置
本公开涉及互联网
,尤其涉及一种用于确定商家品类的方法、系统和装置。
技术介绍
随着互联网技术的发展,O2O(OnlinetoOffline,线上到线下)已经兴起成为一种为广大消费者所接受的商业模式。O2O的基本商业逻辑是,用户在线上平台预先支付,然后到线下消费体验,商家实时追踪其营销效果,由此形成闭环的商业服务和体验过程。由于品牌效应和聚集效应的作用,越来越多的线上商家选择依附于已成规模的第三方平台来推广和提供商品和服务。对于这样的第三方平台而言,为了方便品牌运营和商户筛选,通常需要对入驻的线上商家进行主营品类的确定。目前常见的做法是,在商家入住平台时,由商家自身或平台商务拓展部门的工作人员手动进行确定,选择一个品类作为商家主营品类、若干个其他品类作为附属品类。这样一来,如果某个商家在入驻平台时既没有主动确定主营品类,也没有经过商务拓展部门的确定,则该商家的主营品类信息就无法体现在平台的品类体系当中,从而会直接影响到后续的品类运营和商家竞对分析。另一方面,虽然对线上商家主营品类进行自动判定的需求一直存在,但考虑到大规模平台的商家品类数量众多、且分布不均衡(例如“快餐”和“东南亚菜”在某网上外卖平台中的商家数量要相差几个数量级),由此造成的数据稀疏导致难以得到准确的判定结果。
技术实现思路
本公开的目的是提供一种用于确定商家品类的方法、系统和装置,以解决现有技术中存在的上述问题。根据本公开的一个方面,提供一种用于确定商家品类的方法,包括以下步骤:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。根据本公开的另一个方面,提供一种用于确定商家品类的系统,包括:层次聚类装置,被配置为对已标注品类的商家数据进行层次聚类处理确定多个主类;预处理装置,被配置为对待标注品类的商家的商家数据进行分词;主类确定装置,被配置为根据分词结果,确定所述待标注品类的商家所属的主类;以及品类确定装置,被配置为确定所述待标注品类的商家所属的品类。根据本公开的再一个方面,提供一种用于确定商家品类的装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。根据本公开的又一个方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由一服务器的处理器执行时,使得所述服务器执行如上所述的用于确定商家品类的方法。根据本公开用于确定商家品类的方法及系统实施例,通过对已入驻的商家品类进行聚类分析,生成多个数据分布较为均衡的主类,在判定当前待入驻商家的品类时,先判定其所属的主类,再在确定的主类中判定其所属的具体品类;从而能够克服由于数据稀疏导致判定效率较低甚至结果不准的问题,提高品类判定的效率和准确率,同时能够针对主类各自的特点更加灵活地设置具体品类的判定方式。附图说明图1为根据本公开一实施例的用于确定商家品类的方法流程图;图2为本公开用于确定商家品类的方法中预处理的实施例步骤流程图;图3为本公开用于确定商家品类的方法中聚类分析的实施例步骤流程图;图4为本公开用于确定商家品类的方法中生成后缀词模型的实施例步骤流程图;图5为本公开用于确定商家品类的方法中利用后缀词模型确定品类的实施例步骤流程图;图6为本公开用于确定商家品类的方法中利用地址库确定品类的实施例步骤流程图;图7为本公开用于确定商家品类的方法中利用统计模型确定品类的实施例步骤流程图;图8为本公开用于确定商家品类的方法中存在多个确定结果时选择品类的实施例步骤流程图;图9为使用层次聚类法生成主类的结果示意图;图10为根据本公开一实施例的用于确定商家品类的系统示意图;图11为根据本公开另一实施例的用于确定商家品类的系统示意图;图12为根据本公开又一实施例的用于确定商家品类的系统示意图。具体实施方式下面将详细描述本公开的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本公开。以下实施例用于说明本公开,但不用来限制本公开的范围。图1为根据本公开一实施例的用于确定商家品类的方法流程图,如图所示,本实施例的方法包括以下步骤S101-S103。在步骤S101中,对已标注品类的商家数据进行层次聚类确定多个主类。如
技术介绍
所述,大规模平台的商家品类众多、且分布不均衡,由此存在的数据稀疏问题难免会导致判定效率较低甚至结果不准的问题。对此,本公开的解决思路在于先对已入驻(也即已经过品类标注)的商家品类进行聚类分析,生成多个数据分布较为均衡的主类,在判定当前待入驻商家的品类时,先判定其所属的主类,再在确定的主类中判定其所属的具体品类。在一个实施例中,这里根据用于生成主类的层次聚类处理可按图3所示的流程来进行,包括以下步骤S301-S306。在步骤S301中,基于已标注品类的商家数据构造品类集合{T1,T2,…,Tk},其中T1-Tk分别对应一个品类;为便于清楚说明,下面的实施例中均以k=4为例进行说明。换言之,假设现有已知的商家分为四个品类T1、T2、T3、T4,每个商家属于其中的一个或多个品类,具体数据如下表1所示。商家ID商家品类列表M01T1,T4M02T2,T3M03T1,T4,T2M04T2,T3表1在步骤S302中,基于所述品类集合的元素两两结合构造品类对<T1,T2>,<T2,Tk>…;以T1-T4为例,构造的品类对即包括<T1,T2>、<T1,T3>、<T1,T4>、<T2,T3>、<T2,T4>、<T3,T4>。在步骤S303中,基于所述已标注品类的商家数据统计每个所述品类对的出现次数;根据步骤S302构造的品类对在表1中统计可得,<T1,T2>仅在商家M03出现1次,<T1,T3>在表1中没有出现,<T1,T4>在商家M01和M03均有出现因此为2次,依此类推。在步骤S304中,基于所述出现次数的统计结果构造品类矩阵,该矩阵的每一行和每一列都分别对应于T1-Tk中的一个品类,且该矩阵的每个元素为该元素所在行和所在列所对应的品类对的出现次数;根据步骤S303的统计结果可构造品类矩阵如下表2所示。其中,矩阵对角线处的数值即为当前品类T1-T4各自在商家数据中的出现次数。T1T2T3T4T12102T21321T30220T42102表2在步骤S305中,基于所述品类矩阵的每一行构造该行所对应品类的特征向量;在一个实施例中,步骤S305的特征向量可基于以下归一化算法来构造。假设原向量为T=(v1,v2,…vn),和值S=v1+v2+…+vn,归一化后的向量为T’=(v1/s,v2/s,…vn/s)。由此基于表2得到各品类的特征向量如下表3所示。品类特征向量T1(0.4,0.2,0,0.4)T2(0.14,0.43,0.29,0.14)T3(0,0.5,0.5,0)T4(0.4,0本文档来自技高网
...
用于确定商家品类的方法、系统和装置

【技术保护点】
一种确定商家品类的方法,包括:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。

【技术特征摘要】
1.一种确定商家品类的方法,包括:对已标注品类的商家数据进行层次聚类确定多个主类;对待标注品类的商家的商家数据进行分词;根据分词结果,确定所述待标注品类的商家所属的主类;以及确定所述待标注品类的商家所属的品类。2.如权利要求1所述的方法,其中,所述对已标注品类的商家数据进行层次聚类处理包括:基于所述已标注品类的商家数据构造品类集合;基于所述品类集合中的各品类两两结合构造品类对;基于所述已标注品类的商家数据统计每个所述品类对的出现次数;基于所述出现次数的统计结果构造品类矩阵,该矩阵的每一行和每一列都分别对应于所述品类集合中的一个品类,且该矩阵的每个元素为该元素所在行和所在列所对应的品类对的出现次数;基于所述品类矩阵的每一行构造该行所对应品类的特征向量;以及基于所述特征向量通过层次聚类法生成所述多个主类。3.如权利要求2所述的方法,其中,所述基于所述特征向量通过层次聚类法生成所述多个主类包括:按照以下公式计算各品类之间的相似度:其中,表示品类T1与品类T2之间的相似度,T1i表示品类T1所对应特征向量中的各分量,T2i表示T2所对应特征向量中的各分量;n表示特征向量中的分量总数;取相似度最高的多个品类生成新类,基于合并前该多个品类的特征向量构造所述新类的特征向量;重复上述步骤直至得到一个最终类;以及使用直接合并得到所述最终类的多个类作为所述多个主类。4.如权利要求1至3任一项所述的方法,其中,所述待标注品类的商家的商家数据来自以下任意一种或多种:所述商家入驻当前平台时的输入;所述当前平台以外的其他平台的数据注入或对该其他平台的数据抓取。5.如权利要求1至3任一项所述的方法,其中,所述确定所述待标注品类的商家所属的主类基于第一分类模型来进行,所述确定所述待标注品类的商家所属的品类基于第二分类模型来进行;所述第一分类模型与所述第二分类模型相同或不同,并且选自后缀词模型、地址词模型和概率统计模型中的任意一种或多种。6.如权利要求1至3任一项所述的方法,其中,在所述对待标注品类的商家的商家数据进行分词之前还包括:根据预设规则删除所述商家数据中的无关字符。7.如权利要求6所述的方法,其中,所述商家数据包括商家名称和商品名称,所述根据预设规则删除所述商家数据中的无关字符包括选自以下的任意步骤:基于预设的非法字符集合删除所述商家名称和商品名称中的非法字符;基于预设的合法字符集删除所述商家名称和商品名称中不属于...

【专利技术属性】
技术研发人员:李露黄晓烽曾轲王瀚森刘怀军
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1