分类模型的训练方法、店铺分类的方法及装置制造方法及图纸

技术编号:19746311 阅读:15 留言:0更新日期:2018-12-12 04:55
本说明书实施例提供一种分类模型的训练方法、店铺分类的方法和装置,根据本说明书的实施例,在训练分类模型时,所选择的店铺样本对应的店铺信息包括评论信息,通过店铺信息提取店铺样本的特征包括至少基于评论信息的时间相关属性而获取的第一特征,以及基于评论信息中包含的与店铺真实性相关的语义描述而确定的第二特征。在利用训练的分类模型对店铺分类时,所提取的待分类店铺的特征同样包括上述第一特征和第二特征。如此,可以充分利用互联网数据,提高店铺分类的有效性。

【技术实现步骤摘要】
分类模型的训练方法、店铺分类的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及通过计算机分类模型的训练方法、店铺分类的方法和装置。
技术介绍
随着计算机和互联网技术的发展,人们生活中接触的网络平台或应用越来越多,例如交友应用、购物应用、订餐应用、地图应用等等。其中,用户在使用一些可以推荐店铺的应用(如订餐应用、地图应用等)时,这些应用对店铺的营业状态(如是否停业)的描述十分重要。例如,如果用户想吃麻辣烫,按照地图搜索附近有一家麻辣烫的店铺,按照地图走过去却发现店铺已停业,将会给用户造成不好的体验。因此,需要充分利用互联网数据,通过提取有效的训练特征,训练准确度较高的分类模型,确定出哪些是停业店铺,从而提高店铺分类的有效性。
技术实现思路
本说明书一个或多个实施例描述了一种方法和装置,可以充分利用互联网数据,通过提取有效的训练特征,训练准确度较高的分类模型,在店铺分类时,准确确定出哪些是停业店铺,从而提高店铺分类的有效性。根据第一方面,提供了一种分类模型的训练方法,所述分类模型用于判断店铺当前是否为真实存在的店铺,包括:选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。在一个实施例中,选择预定数量的店铺样本包括:选择预定期限内具有以下至少一项行为的店铺作为正样本:销售代金券、团购活动、促销活动、订座服务、问答互动、广告投放、接收到顾客在客户端的签到,其中,所述正样本对应有真实存在店铺标签。在一个实施例中,选择预定数量的店铺样本包括:选择满足以下条件的店铺作为负样本:在电子地图上被标注为永久停业,其中,所述负样本对应有非真实存在店铺标签。在一个可能的实施例中,所述第一特征包括以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。根据一种可能的设计,所述第二特征通过以下方法提取:获取与第一店铺样本对应的所述第一评论信息;利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签,其中,所述语义标签包括具有停业语义或不具有停业语义;按照各个语义标签确定所述第一店铺样本的第二特征。进一步地,在一种实现中,所述按照各个语义标签确定所述第一店铺样本的第二特征包括:在各个语义标签中包含具有停业语义的标签的情况下,确定所述第一店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。在一个实施例中,所述语义模型包括,通过标注的评论数据集训练的监督模型。在一个可能的实施例中,利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签包括:针对所述第一评论信息中的第一评论数据,通过无监督词向量模型将所述第一评论数据中的各个词分别表示成各个词向量;基于所述各个词向量,确定所述第一评论数据对应的第一评论向量;将所述第一评论向量输入所述语义模型,以获取所述语义模型的输出结果;按照所述输出结果为所述第一评论数据添加语义标签。在一种实施方式中,所述特征还包括以下至少一个特征:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征。根据一个可能的实施例,所述店铺样本还包括测试样本,以及,所述方法还包括:检测所述分类模型针对各个测试样本的各个输出结果的准确性,以根据各个输出结果的准确性获得对所述分类模型的检测结果;根据所述检测结果调整所述分类模型,直至所述检测结果满足预设条件。根据第二方面,提供一种店铺分类的方法,利用第一方面任一方法训练的分类模型,判断店铺当前是否为真实存在的店铺,所述方法包括:获取待分类店铺的店铺信息,其中,所述店铺信息包括评论信息;基于所述店铺信息提取所述待分类店铺的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;将所述待分类店铺的所述特征输入所述分类模型,以获取所述分类模型的输出结果;根据所述输出结果确定所述待分类店铺当前是否为真实存在的店铺。根据第三方面,提供一种分类模型的训练装置,所述分类模型用于判断店铺当前是否为真实存在的店铺,所述装置包括:选择单元,配置为选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;提取单元,配置为基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;训练单元,配置为基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。根据第四方面,提供一种店铺分类的装置,利用第三方面的训练装置训练的分类模型,判断店铺当前是否为真实存在的店铺,所述装置包括:获取单元,配置为获取待分类店铺的对应有店铺信息,其中,所述店铺信息包括评论信息;提取单元,配置为基于所述店铺信息提取所述待分类店铺的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;分类单元,配置为将所述待分类店铺的所述特征输入所述分类模型,以获取所述分类模型的输出结果;确定单元,配置为根据所述输出结果确定所述待分类店铺当前是否为真实存在的店铺。根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。通过本说明书实施例提供的方法和装置,在训练分类模型时,所选择的店铺样本对应的店铺信息包括评论信息,通过店铺信息提取店铺样本的特征包括至少基于评论信息的时间相关属性而获取的第一特征,以及基于评论信息中包含的与店铺真实性相关的语义描述而确定的第二特征,如此,可以充分利用互联网数据,提取有效的训练特征,训练准确度较高的分类模型。在利用训练的分类模型对店铺分类时,所提取的待分类店铺的特征同样包括上述第一特征和第二特征,如此,可以充分利用互联网数据,提高店铺分类的准确度,进而提高店铺分类的有效性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出本说明书披露的一个实施例的实施场景示意图;图2示出根据一个实施例的分类模型的训练方法的流程图;图3示出第二特征提取的一个具体例子;图4示出本文档来自技高网...

【技术保护点】
1.一种分类模型的训练方法,所述分类模型用于判断店铺当前是否为真实存在的店铺,所述方法包括:选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。

【技术特征摘要】
1.一种分类模型的训练方法,所述分类模型用于判断店铺当前是否为真实存在的店铺,所述方法包括:选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标签,所述店铺信息包括评论信息;基于所述店铺信息提取所述店铺样本的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;基于各个店铺样本的所述特征和所述分类标签训练所述分类模型。2.根据权利要求1所述的方法,其中,选择预定数量的店铺样本包括:选择预定期限内具有以下至少一项行为的店铺作为正样本:销售代金券、团购活动、促销活动、订座服务、问答互动、广告投放、接收到顾客在客户端的签到,其中,所述正样本对应有真实存在店铺标签。3.根据权利要求1所述的方法,其中,选择预定数量的店铺样本包括:选择满足以下条件的店铺作为负样本:在电子地图上被标注为永久停业,其中,所述负样本对应有非真实存在店铺标签。4.根据权利要求1所述的方法,其中,所述第一特征包括以下中的一项或多项:最新评论的时间、最新评论距离当前时间的时长、预定时间段内的评论数增量。5.根据权利要求1所述的方法,其中,所述第二特征通过以下方法提取:获取与第一店铺样本相对应的第一评论信息;利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签,其中,所述语义标签包括具有停业语义或不具有停业语义;按照各个语义标签确定所述第一店铺样本的第二特征。6.根据权利要求5所述的方法,其中,所述按照所述各个语义标签确定所述第一店铺样本的第二特征包括:在各个语义标签中包含具有停业语义的标签的情况下,确定所述第一店铺样本的第二特征为,包含店铺为非真实存在店铺的语义。7.根据权利要求5所述的方法,其中,所述语义模型包括,通过标注的评论数据集训练的监督模型。8.根据权利要求5所述的方法,其中,利用预先训练的语义模型确定所述第一评论信息中各条评论数据分别对应的语义标签包括:针对所述第一评论信息中的第一评论数据,通过无监督词向量模型将所述第一评论数据中的各个词分别表示成各个词向量;基于所述各个词向量,确定所述第一评论数据对应的第一评论向量;将所述第一评论向量输入所述语义模型,以获取所述语义模型的输出结果;按照所述输出结果为所述第一评论数据添加语义标签。9.根据权利要求1所述的方法,其中,所述特征还包括以下至少一个特征:评论数量特征、基本信息完备度特征、预定标识特征、店铺经营类别特征、消费者打分特征。10.根据权利要求1所述的方法,其中,所述店铺样本还包括测试样本,以及所述方法还包括:检测所述分类模型针对各个测试样本的各个输出结果的准确性,以根据各个输出结果的准确性获得对所述分类模型的检测结果;根据所述检测结果调整所述分类模型,直至所述检测结果满足预设条件。11.一种店铺分类的方法,利用权利要求1-10中任一训练的分类模型判断店铺当前是否为真实存在的店铺,所述方法包括:获取待分类店铺的店铺信息,其中,所述店铺信息包括评论信息;基于所述店铺信息提取所述待分类店铺的特征,其中,所述特征至少包括第一特征和第二特征,所述第一特征至少基于所述评论信息的时间相关属性而获取,所述第二特征基于所述评论信息中包含的与店铺真实性相关的语义描述而确定;将所述待分类店铺的所述特征输入所述分类模型,以获取所述分类模型的输出结果;根据所述输出结果确定所述待分类店铺当前是否为真实存在的店铺。12.一种分类模型的训练装置,所述分类模型用于判断店铺当前是否为真实存在的店铺,所述装置包括:选择单元,配置为选择预定数量的店铺样本,所述店铺样本对应有店铺信息和分类标签,所述分类标签包括真实存在店铺标签和非真实存在店铺标...

【专利技术属性】
技术研发人员:谢仁强马书超
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1