一种描述词的分类方法及设备技术

技术编号:16456023 阅读:36 留言:0更新日期:2017-10-25 20:34
一种描述词的分类方法及设备,可首先基于各描述词样本的特征数据及各描述词样本所对应的类别训练得到分类模型;然后基于该分类模型对各待分类描述词进行分类,并根据得到的分类结果更新描述词样本集合,以及基于更新后的描述词样本集合对分类模型进行更新,再基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。也就是说,可通过循环迭代的方式,从大量未分类描述词中选取最具有信息量的描述词进行自动标记,并更新到已有的描述词样本集合中,以扩展分类模型的训练集、提高分类模型的健壮性及分类精度,从而可在节省人力资源消耗的基础上提升描述词分类结果的准确性。

A classification method and equipment for describing words

A classification method and equipment description, the first feature data of each sample and each description description based on samples corresponding to the categories of training classification model; then the classification model of each classification description word based classification, and according to the classification results obtained more new words to describe the sample set, and based on the description the word sample updated set of classification model based on classification model is updated, the updated description of the classification description in the collection to classify the. That is to say, through the iterative way, from a large number of unclassified descriptions are automatically marked with the amount of information description of word selection in the word, and updates to the description of existing sample set, to extend the classification model of training set and improve the robustness and accuracy of classification classification model, accuracy can be save the consumption of resources on the basis of human ascension description classification results.

【技术实现步骤摘要】
一种描述词的分类方法及设备
本申请涉及数据处理
,尤其涉及一种描述词的分类方法及设备。
技术介绍
随着电子商务技术的不断发展,网络平台上的商品对象的品牌、类目等用于描述商品对象的属性特征的描述词也开始趋于多样化,变得多而繁杂,给用户寻找优质描述词带来了较大难度,降低了用户的应用体验。为了解决上述问题,业界常采用以下方式来确定相应的优质描述词并推送给用户,以帮助用户快速寻找到相应的优质描述词,提高用户的应用体验:方式一:采用人工方式进行优质描述词的识别和选取。例如,以品牌这一类描述词为例,可由品牌运营人员根据经验人工选取相应的优质品牌,并推送给用户。但是,由于采用该种方式进行优质描述词的选取时,常常需要大量的运营人员来参与,从而会消耗大量的人工成本;另外,由于该种方式主要是由运营人员根据经验手动进行的,难免会存在经验误差,因而还会存在优质描述词的选取效率较低、以及所选取的优质描述词的丰富性和精确性较低、无法满足用户的需求等的问题。方式二:利用积累的少量已标记的优质描述词样本,建立分类模型来对未标记的描述词进行判别,以确定相应的优质描述词。虽然采用该种方式进行优质描述词的选取时,可在一定程度上提高优质描述词的选取效率、节省人工成本。但是,由于在分类模型的建模过程中,已经标记的优质描述词样本的占比很小(约为全部样本的0.1%),从而使得所建立的分类模型的鲁棒性和精确性较差,使得基于所建立的分类模型所得到的优质描述词的准确性也较低,效果并不佳。也就是说,现有的优质描述词的确定方法,即描述词的分类方法均在一定程度上存在着所得到的结果并不准确的问题。
技术实现思路
本申请实施例提供了一种描述词的分类方法及设备,用以解决现有的描述词分类方法所存在的分类结果并不准确的问题。本申请实施例提供了一种描述词的分类方法,所述方法包括:确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。相应地,本申请实施例还提供了一种描述词的分类设备,包括:数据获取模块,用于确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;分类模块,用于基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;并基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;以及,将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;以及,基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。本申请有益效果如下:本申请实施例提供了一种描述词的分类方法及设备,可首先基于各描述词样本的特征数据以及各描述词样本所对应的类别训练得到分类模型;然后基于该分类模型对各待分类描述词进行分类,并根据得到的分类结果更新描述词样本集合,以及基于更新后的描述词样本集合对分类模型进行更新,再基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。也就是说,可通过循环迭代的方式,从大量的未分类描述词中选取最具有信息量的描述词进行自动标记,并更新到已有的描述词样本集合中,以扩展分类模型的训练集、提高分类模型的健壮性及分类精度,从而可在节省人力资源消耗的基础上提升描述词分类结果的准确性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1所示为本申请实施例一中的描述词分类方法的步骤流程图;图2所示为本申请实施例二中的描述词分类设备的结构示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。实施例一:本申请实施例一提供了一种描述词的分类方法,具体地,如图1所示,其为本申请实施例一中所述方法的步骤流程图,所述方法可包括以下步骤:步骤101:确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;步骤102:基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;步骤103:基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;步骤104:将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;步骤105:基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。也就是说,本实施例提供的描述词分类方法,可首先基于各描述词样本的特征数据以及各描述词样本所对应的类别训练得到分类模型;然后基于该分类模型对各待分类描述词进行分类,并根据得到的分类结果更新描述词样本集合,以及基于更新后的描述词样本集合对分类模型进行更新,再基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。即,可通过循环迭代的方式,从大量的未分类描述词中选取最具有信息量的描述词进行自动标记,并更新到已有的描述词样本集合中,以扩展分类模型的训练集、提高分类模型的健壮性及分类精度,从而可在节省人力资源消耗的基础上提升描述词分类结果的准确性。下面将对所述方法的各个步骤作详细说明:可选地,步骤101中,可将尚未确定所属类别本文档来自技高网...
一种描述词的分类方法及设备

【技术保护点】
一种描述词的分类方法,其特征在于,所述方法包括:确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。

【技术特征摘要】
1.一种描述词的分类方法,其特征在于,所述方法包括:确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。2.如权利要求1所述的方法,其特征在于,所述方法还包括:若确定更新后的分类模型满足以下条件,则不再对所述分类模型进行更新,并将基于满足以下条件的分类模型对所述待分类描述词集合中的各待分类描述词进行分类所得到的结果作为最终的分类结果:分类精度不小于设定的精度阈值,和\或,更新次数不小于设定的次数阈值。3.如权利要求1所述的方法,其特征在于,每一描述词的特征数据包括用于表征所述描述词的自身属性的第一特征数据,以及用于表征与所述描述词相关联的用户的特征的第二特征数据。4.如权利要求3所述的方法,其特征在于,每一描述词的第一特征数据包括所述描述词的流量路径来源占比、调性特征、品质特征、资质特征、知名度特征,以及价格层级特征中的任意一种或多种;每一描述词的第二特征数据包括与所述描述词相关联的用户在各年龄层级上的数量占比、在各性别层级上的数量占比、在各购买力层级上的数量占比、在各成交折扣率层级上的数量占比、在各活跃度层级上的数量占比、在各与所述描述词相关的回购率层级上的数量占比,以及在各与所述描述词相关的回访率层级上的数量占比中的任意一种或多种。5.如权利要求3所述的方法,其特征在于,每一描述词的、与所述描述词相关联的用户为与所述描述词相关的热度不小于设定的热度阈值的用户。6.如权利要求1所述的方法,其特征在于,所述描述词样本集合中的描述词样本包括描述词正样本,以及描述词负样本,其中:所述描述词正样本是指综合评价指数不低于设定的第一指数阈值的描述词样本;所述描述词负样本是指综合评价指数不高于设定的第二指数阈值的描述词样本;其中,所述第二指数阈值不高于所述第一指数阈值;且,每一描述词的综合评价指数是根据所述描述词的特征数据所确定的、用于表征所述描述词的性能高低的参数。7.如权利要求6所述的方法,其特征在于,在从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致之前,所述方法还包括:确定所述待分类描述词集合中的各待分类描述词的综合评价指数;根据各待分类描述词的综合评价指数,筛选出第一设定数量的、综合评价指数不小于设定的第三指数阈值的待分类描述词以构成第一正候选样本集合,以及第二设定数量的、综合评价指数不大于设定的第四指数阈值的待分类描述词以构成第一负候选样本集合,其中,所述第四指数阈值不高于所述第三指数阈值;基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致,具体包括:从所述第一正候选样本集合中筛选出满足如下条件的描述词以构成第二正候选样本集合:该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;从所述第一负候选样本集合中筛选出满足如下条件的描述词以构成第二负候选样本集合:该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致。8.如权利要求7所述的方法,其特征在于,在从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致之后,在将筛选出的描述词加入描述词样本集合中,得到更新后的描述词样本集合之前,所述方法还包括:根据每一描述词与各描述词样本之间的最短距离,从所述第二正候选样本集合中,筛选出第三设定数量的、所述最短距离不大于设定的第一距离阈值的描述词,以及从所述第二负候选样本集合中,筛选出第四设定数量的、所述最短距离不大于设定的第二距离阈值的描述词作为...

【专利技术属性】
技术研发人员:吴美玲
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1