一种业务对象属性的确定方法及设备技术

技术编号:14776158 阅读:52 留言:0更新日期:2017-03-09 12:59
本发明专利技术实施例提供了一种业务对象属性的确定方法及设备,包括:从针对业务对象的评价文本中确定训练样本;基于预设分类器支持的向量格式,为训练样本生成对应的第一特征向量;使用预设分类器对第一特征向量以及第一特征向量对应训练样本包含的评估值进行训练,得到表征第一特征向量的各维度的特征词所占的权重;使用预设分类器,根据特征词以及权重为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;基于得到的对业务对象真假属性的评估值,确定业务对象的真假属性。本发明专利技术涉及数据挖掘技术领域。采用本发明专利技术确定的业务对象的真假属性更加准确。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及一种业务对象属性的确定方法及设备
技术介绍
随着互联网技术和物流行业的飞速发展,越来越多的人通过电商提供的平台实现自己的创业梦,于此同时,越来越多的人足不出户即可完成购物体验。电商平台为用户提供了丰富的业务对象(可以为实物产品、服务等),但是,由于电商平台销售方式的限制,用户无法在购买业务对象之前确定业务对象的真假属性(例如,业务对象是否为假冒伪劣产品),而只能通过电商平台侧对业务对象的描述,确定业务对象的真假属性。由于假冒伪劣产品成本低、出售假冒伪劣产品能够攫取到高额利润,使得使用电商平台的有些卖家铤而走险,最后给消费者造成损失,同时也损害电商平台的口碑。因此,针对电商平台提供的产品,现有技术中提供了多种识别假冒伪劣产品的方法:方法一、人工抽检法:主要通过人工抽检的方式对假冒伪劣产品进行识别,具体实施时,可以以普通用户的身份通过电商平台购买需要抽检的产品,然后根据产品特征对产品做正品鉴定,其中,产品特征主要指产品的自然属性,例如:产品的价格、防伪标识、包装、材质、外观、气味、颜色等。方法一的优点:识别出假冒伪劣产品的准确率高。方法一的缺点:抽检的成本高(需要购买大量的产品供抽检)且抽样效率低下;不能够实时发现售假卖家;需要权威部门(厂家或政府质检机构)的鉴定。可见,方法一的识别方式受成本因素制约大,抽检的范围小,而且需要品牌方的协助,不但难以实施而且效果不好。方法二:机器自动识别法:可以通过机器自动识别的方式对假冒伪劣产品进行识别,具体实施时,可以基于产品的价格特征和/或卖家特征等通过机器自动分析识别出假冒伪劣产品。例如:可以根据产品类型确定该类型产品对应的价格范围作为该类型产品的价格特征,将出售假冒伪劣产品较多的卖家的特征(例如:卖家登录地点、产品发货地等)收集起来作为出售假冒伪劣产品的卖家的特征,将待识别产品的当前价格与预先统计的该类型产品对应的价格特征进行匹配,将该待识别产品的当前卖家特征和预先统计的卖家特征进行匹配,从而识别出该待识别产品是否为假冒伪劣产品。方法二的优点:解决了方法一中受成本因素制约很大,抽检的范围小,而且需要品牌方的协助的缺点;方法二的缺点:预先统计出来的产品的价格特征和卖家特征准确率不高,会导致识别出的假冒伪劣产品准确率低。
技术实现思路
本专利技术实施例提供了一种业务对象属性的确定方法及设备,用以解决现有技术中对业务对象真假属性确定不准确的问题。基于上述问题,本专利技术实施例提供了一种业务对象属性的确定方法,包括:从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。本专利技术实施例提供了一种业务对象属性的确定设备,包括:样本确定模块,用于从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;特征向量生成模块,用于基于预设分类器支持的向量格式,为所述样本确定模块确定的训练样本生成对应的所述预设分类器能够识别的第一特征向量;训练模块,用于使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;分类模块,用于使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;属性确定模块,用于基于所述分类模块得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。本专利技术实施例的有益效果包括:本专利技术实施例提供的一种业务对象属性的确定方法及设备,包括:从针对业务对象的评价文本中确定训练样本,其中,训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为训练样本生成对应的预设分类器能够识别的第一特征向量;使用预设分类器,对第一特征向量,以及第一特征向量对应训练样本所包含的评估值进行训练,得到表征第一特征向量的各维度的特征词在确定业务对象真假属性时所占的权重;使用预设分类器,根据特征词以及权重,为针对业务对象的待分类评价文本进行分类,得到每个待分类评价文本对业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定业务对象的真假属性。本专利技术实施例提供的业务对象属性的确定方法,以用户对业务对象的评价文本信息为依据,将包含有对业务对象真假属性评估值的评价文本作为训练样本,对训练样本进行解析处理得到预设分类器能够识别的第一特征向量,使用预设分类器对训练样本进行训练,得到表征第一特征向量的各维度的各特征词的权重值,使用预设分类器根据得到的权重值对待分类评价文本进行分类,得到待分类评价文本对业务对象真假属性的评估值,最后,基于训练样本和/或待分类评价文本对业务对象真假属性的评估值就能够确定出业务对象的真假属性。与现有技术方法一相比,不受成本因素制约,抽检范围大,不需要品牌方的协助。与现有技术方法二相比,基于用户对业务对象的评价信息确定业务对象的真假属性与基于业务对象的价格特征和/或卖家特征确定业务对象的真假属性相比,用户对业务对象的评价信息能够更加客观的反映业务对象的真假属性,并且本专利技术实施例中使用预设分类器先对训练对象进行训练再使用训练后的分类器对待分类评价文本进行分类,即使不包含真假属性评估值的待分类评价文本也能够客观地得到其表征的真假属性信息,得到的业务对象的真假属性更加准确。附图说明图1为本专利技术实施例提供的一种业务对象属性的确定方法的流程图;图2为本专利技术实施例1提供的一种业务对象属性的确定方法的流程图;图3为本专利技术实施例提供的获取的作为训练样本的评价文本的示例图;图4为本专利技术实施例提供的文本分类原理示意图;图5为本专利技术实施例提供的一种业务对象属性的确定系统的系统架构示意图;图6为本专利技术实施例提供的基于一种业务对象属性的确定系统的系统的第一阶段训练阶段的流程示意图;图7为本专利技术实施例提供的基于一种业务对象属性的确定系统的系统的第二阶段预测阶段的流程示意图;图8为本专利技术实施例提供的一种业务对象属性的确定设备的结构示意图。具体实施方式本专利技术实施例提供了一种业务对象属性的确定方法及设备,以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术实施例提供一种业务对象属性的确定方法,如图1所示,包括:S101、从针对业务对象的评价文本中确定训练样本;其中,训练样本包含对业务对象真假属本文档来自技高网
...
一种业务对象属性的确定方法及设备

【技术保护点】
一种业务对象属性的确定方法,其特征在于,包括:从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定所述业务对象的真假属性。

【技术特征摘要】
1.一种业务对象属性的确定方法,其特征在于,包括:从针对业务对象的评价文本中确定训练样本,其中,所述训练样本包含对所述业务对象真假属性的评估值;基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量;使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重;使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类,得到每个待分类评价文本对所述业务对象真假属性的评估值;基于得到的对所述业务对象真假属性的评估值,确定所述业务对象的真假属性。2.如权利要求1所述的方法,其特征在于,基于预设分类器支持的向量格式,为所述训练样本生成对应的所述预设分类器能够识别的第一特征向量,具体包括:使用预设分词工具对训练样本进行分词处理;针对每个完成分词处理的训练样本,对该训练样本进行特征提取,生成该训练样本对应的第一词组向量;根据所述预设分类器支持的向量格式,为构成各第一词组向量的不同的第一词分量生成对应的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。3.如权利要求2所述的方法,其特征在于,以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第
\t一词组向量分别生成对应的第一特征向量,具体包括:使生成的不同的特征词表征第一特征向量的不同的维度,或者使生成的特征词与预设维度相叠加表征第一特征向量的不同的维度;针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值。4.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对为每个第一词组向量生成的第一特征向量的每个维度,当表征该维度的特征词在该第一词组向量中具有对应的第一词分量时,将该维度的值确定为第一预设固定值;当表征该维度的特征词在该第一词组向量中不具有对应的第一词分量时,将该维度的值确定为第二预设固定值。5.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频,确定为该维度的值。6.如权利要求3所述的方法,其特征在于,针对每个第一词组向量,基于该第一词组向量包含的各第一词分量在该第一词组向量对应的训练样本中
\t分别出现的次数,确定为该第一词组向量生成的第一特征向量中各维度的值,具体包括:针对每个第一词组向量,确定构成该第一词组向量的各第一词分量在该第一词组向量对应的训练样本中出现的词频;以及针对构成各第一词组向量的不同第一词分量,确定包含该第一词分量的第一词组向量的个数;针对为每个第一词组向量生成的第一特征向量的每个维度,将表征该维度的特征词对应的第一词分量在该第一词组向量对应的训练样本中出现的词频与指定商的乘积,确定为该维度的值,其中,所述指定商为基于第一词组向量的个数,与包含该第一词分量的第一词组向量的个数的商确定的。7.如权利要求2所述的方法,其特征在于,在生成特征词之后,还包括:基于预设特征选择标准,对所述特征词进行特征选择和特征修剪,得到符合所述预设特征选择标准的特征词;以生成的不同的特征词表征不同的维度,或者以生成的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量,具体包括:以符合所述标准的特征词表征不同的维度,或者以符合所述标准的特征词与预设维度相叠加表征不同的维度,为各第一词组向量分别生成对应的第一特征向量。8.如权利要求1-7任一项所述的方法,其特征在于,使用所述预设分类器,对所述第一特征向量,以及所述第一特征向量对应训练样本所包含的评估值进行训练,得到表征所述第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重,具体包括:基于所述预设分类器支持的特征向量、各特征向量分别归属的类别、表征特征向量各维度的特征词对应的权重,构造所述预设分类器对应分类算法中的
\t损失函数;将所述训练样本对应的各第一特征向量的值,以及所述各第一特征向量对应训练样本所包含的评估值作为所述损失函数的输入,采用所述分类算法对所述损失函数进行运算处理,得到表征第一特征向量的各维度的特征词在确定所述业务对象真假属性时所占的权重的值。9.如权利要求1-7任一项所述的方法,其特征在于,在使用所述预设分类器,根据所述特征词以及所述权重,为针对所述业务对象的待分类评价文本进行分类之前,还包括:使用预设分词工具对待分类评价文本进行分词处理;针对每个完成分词处理的待分类评价文本,对该待分类评价文本进行特征提取,生成该待分类评价文本对应的第二词组向量;根据表征所述第一特征向量的各维度的特征词与构成各第一词组向量的不同的第一词分量之间的对应关系,将构成各所述第二词组向量的第二词分量与所述特征词进行匹配;并根据得到的匹配结果,为各第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量。10.如权利要求9所述的方法,其特征在于,根据得到的匹配结果,为各所述第二词组向量分别生成与所述第一特征向量具有相同维度的第二特征向量,具体包括:针对构成每个第二词组向量的各第二词分量,当该第二词分量匹配到特征词时,则将该第二词分量对应的预设值确定为该第二词分量所在第二词组向量对应第二特征向量中匹配到的特征词所在维度的值;其中,所述预设值为预设固定值,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频,或者为该第二词分量在所在第二词组向量对应待分类评价文本中的词频与预设商的乘积,其中,预设商为基于各第二词组向量的个数,与包含该第二词分量的第二词组向量的个数的商确定的;当该第二词分量未匹配到特征词时,根据第二特征向量的维度,确定未匹配到特征词的第二词分量在第二特...

【专利技术属性】
技术研发人员:王国印石志伟郑恒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1