业务数据分类模型的训练、业务数据的分类方法和装置制造方法及图纸

技术编号:31157959 阅读:13 留言:0更新日期:2021-12-04 09:56
本发明专利技术公开了业务数据分类模型的训练、业务数据的分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:利用多个业务数据样本构建样本集,其中,样本集中的一个样本包括一个业务数据样本的样本特征以及对应的处理类别;基于样本集划分出训练样本集和测试样本集;利用训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;利用测试样本集中的样本特征和对应的处理类别,测试数据分类模型,并根据测试的结果,为数据分类模型修正分类阈值。该实施方式能够比较准确的为业务数据进行分类,从而更准确、高效地完成业务数据处理。效地完成业务数据处理。效地完成业务数据处理。

【技术实现步骤摘要】
业务数据分类模型的训练、业务数据的分类方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种业务数据分类模型的训练、业务数据的分类方法和装置。

技术介绍

[0002]随着线上服务越来越普遍,线上服务所产生的业务数据如商品询问相关的业务数据如询问商品性能、价格、配送范围等所产生的数据、售后服务相关的业务数据如用户投诉产生的数据、退换商品产生的数据等也呈指数性的增加。为了能够尽快地处理好这些业务数据,为这些业务数据引入了自动化处理方式。如询问商品性能、价格、配送范围等所产生的数据、退换商品产生的数据等可进行自动化处理,而有一些业务数据比如用户投诉产生的部分数据如投诉产品质量问题等,则需要人工介入才能解决。而对业务数据进行分类,是确定业务数据处理方式的基础。
[0003]目前,主要通过为人工处理和自动化处理设置对应的数据特征,当待处理数据所具有的数据特征属于人工处理的数据特征,则对该待处理数据进行人工处理,当待处理数据所具有的数据特征自动化处理的数据特征,则对该待处理数据进行自动化处理。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]由于为人工处理和自动化处理设置对应的数据特征很难完整的体现出业务数据的特征,导致现有的分类方式的准确性较低。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种业务数据分类模型的训练、业务数据分类方法和装置,能够比较准确的为业务数据进行分类,从而更准确、高效地完成业务数据处理。
[0007]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种业务数据分类模型的训练方法,包括:
[0008]利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别;
[0009]基于所述样本集划分出训练样本集和测试样本集;
[0010]利用所述训练样本集中的样本特征和对应的处理类别,训练模型,得到数据分类模型;
[0011]利用所述测试样本集中的样本特征和对应的处理类别,测试所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。
[0012]优选地,利用多个业务数据样本构建样本集的步骤,包括:
[0013]基于预设的信息维度,从所述业务数据样本中采集多个样本特征;
[0014]利用所述业务数据样本对应的多个样本特征和处理类别构建样本;
[0015]利用多个所述样本组成样本集。
[0016]优选地,在利用所述多种样本特征和所述业务数据样本标注的处理类别构建样本
的步骤之前,进一步包括:
[0017]对所述样本特征进行标准化处理;
[0018]利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤,包括:
[0019]利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。
[0020]优选地,对所述样本特征进行标准化处理的步骤,包括:
[0021]针对特征值为非空的样本特征,执行:
[0022]当所述样本特征属于连续类时,判断所述样本特征是否超出所述连续类对应的边界,如果是,则修正所述样本特征;
[0023]当所述样本特征属于离散类时,将所述样本特征转换为对应的特征编码;
[0024]当所述样本特征属于文本类时,根据预设的分词赋值表,将所述样本特征量化为对应的数值。
[0025]优选地,对所述样本特征进行标准化处理的步骤,包括:
[0026]针对特征值为空的样本特征,执行:
[0027]根据预设的赋值策略,为所述样本特征赋值。
[0028]优选地,业务数据分类模型的训练方法,进一步包括:
[0029]针对每一个所述业务数据样本,执行:
[0030]判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。
[0031]优选地,业务数据分类模型的训练方法,进一步包括:
[0032]针对每一个离散类的样本特征,执行:
[0033]确定所述离散类的样本特征对应的多个离散信息,以及为每一个所述离散信息赋值的字符和所述字符的编码位置;
[0034]将所述样本特征转换为对应的特征编码的步骤,包括:
[0035]利用所述样本特征对应的多个离散信息、所述离散信息对应的字符和所述字符的编码位置,为所述样本特征生成对应的特征编码。
[0036]优选地,
[0037]所述预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。
[0038]优选地,业务数据分类模型的训练方法,进一步包括:基于所述样本集划分出校验样本集;
[0039]在得到所述分类模型之后,进一步包括:利用所述校验样本集中的样本特征和对应的处理类别,修正所述分类模型;
[0040]测试所述分类模型的步骤,包括:测试修正后的分类模型。
[0041]优选地,
[0042]所述测试的结果包括:设定阈值与准确率之间的第一关联关系;
[0043]为所述分类模型确定分类阈值包括:
[0044]确定目标准确率;
[0045]根据所述第一关联关系,确定所述目标准确率对应的阈值为所述分类阈值。
[0046]优选地,业务数据分类模型的训练方法,进一步包括:设置有召回率限定范围和准确率限定范围;
[0047]所述测试的结果进一步包括:召回率和所述准确率之间的第二关联关系;
[0048]确定目标准确率的步骤,包括:
[0049]根据所述第二关联关系,查找所述召回率限定范围和所述准确率限定范围之间的相交区域;
[0050]选定所述相交区域中的最小准确率为目标准确率。
[0051]第二方面,本专利技术实施例提供一种业务数据的分类方法,基于上述任一实施例训练出的数据分类模型实现,包括:
[0052]当接收到待处理业务数据时,根据所述待处理业务数据和所述数据分类模型,得到处理类别分数;
[0053]对比所述处理类别分数和所述分类阈值,根据对比的结果,确定所述待处理业务数据的处理策略。
[0054]优选地,根据所述待处理业务数据和所述分类模型,得到处理类别分数的步骤,包括:
[0055]基于预设的信息维度,从所述待处理业务数据中抽取出多个数据特征;
[0056]对所述数据特征进行标准化处理;
[0057]将标准化处理后的数据特征输入所述分类模型,得出分类分值。
[0058]优选地,业务数据分类的方法,进一步包括:
[0059]针对设定数量的待处理业务数据,同时进行人工分类和所述分类模型分类;
[0060]判断所述人工分类的结果与所述分类模型分类的结果之间的匹配度是否低于设定的报警阈值,如果是,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种业务数据分类模型的训练方法,其特征在于,包括:利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别;基于所述样本集划分出训练样本集和测试样本集;利用所述训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;利用所述测试样本集中的样本特征和对应的处理类别,测试所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。2.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,利用多个业务数据样本构建样本集的步骤,包括:基于预设的信息维度,从所述业务数据样本中采集多个样本特征;利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本;利用多个所述样本组成样本集。3.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,在利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本的步骤之前,进一步包括:对所述样本特征进行标准化处理;利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤,包括:利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。4.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:针对特征值为非空的样本特征,执行:当所述样本特征属于连续类时,判断所述样本特征是否超出所述连续类对应的边界,如果是,则修正所述样本特征;当所述样本特征属于离散类时,将所述样本特征转换为对应的特征编码;当所述样本特征属于文本类时,根据预设的分词赋值表,将所述样本特征量化为对应的数值。5.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:针对特征值为空的样本特征,执行:根据预设的赋值策略,为所述样本特征赋值。6.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,进一步包括:针对每一个所述业务数据样本,执行:判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。7.根据权利要求4所述的业务数据分类模型的训练方法,其特征在于,进一步包括:针对每一个离散类的样本特征,执行:确定所述离散类的样本特征对应的多个离散信息,以及为每一个所述离散信息赋值的字符和所述字符的编码位置;将所述样本特征转换为对应的特征编码的步骤,包括:
利用所述样本特征对应的多个离散信息、所述离散信息对应的字符和所述字符的编码位置,为所述样本特征生成对应的特征编码。8.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,所述预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。9.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,进一步包括:基于所述样本集划分出校验样本集;在得到所述数据分类模型之后,进一步包括:利用所述校验样本集中的样本特征和对应的处理类别,修正所述数据分类模型;测试所述数据分类模型的步骤,包括:测试修正后的数据分类模型。10.根据权利要求1至9任一所述的业务数据分类模型的训练方法,其特征在于,所述测试的结果包括:设定阈值与准确率之间的第一关联关系;为所述数据分类模型确定分类阈值包括:确定目标准确率;根据所述第一关联关系,确定所述目标准确率对应的阈值为所述分类阈值。11.根据权利要求10所述的业务数据分类模型的训练方法,其特征在于,进一步包括:设置有召回率...

【专利技术属性】
技术研发人员:王永杰赵晓艳李雨冯朝明焦飞
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1