【技术实现步骤摘要】
业务数据分类模型的训练、业务数据的分类方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种业务数据分类模型的训练、业务数据的分类方法和装置。
技术介绍
[0002]随着线上服务越来越普遍,线上服务所产生的业务数据如商品询问相关的业务数据如询问商品性能、价格、配送范围等所产生的数据、售后服务相关的业务数据如用户投诉产生的数据、退换商品产生的数据等也呈指数性的增加。为了能够尽快地处理好这些业务数据,为这些业务数据引入了自动化处理方式。如询问商品性能、价格、配送范围等所产生的数据、退换商品产生的数据等可进行自动化处理,而有一些业务数据比如用户投诉产生的部分数据如投诉产品质量问题等,则需要人工介入才能解决。而对业务数据进行分类,是确定业务数据处理方式的基础。
[0003]目前,主要通过为人工处理和自动化处理设置对应的数据特征,当待处理数据所具有的数据特征属于人工处理的数据特征,则对该待处理数据进行人工处理,当待处理数据所具有的数据特征自动化处理的数据特征,则对该待处理数据进行自动化处理。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]由于为人工处理和自动化处理设置对应的数据特征很难完整的体现出业务数据的特征,导致现有的分类方式的准确性较低。
技术实现思路
[0006]有鉴于此,本专利技术实施例提供一种业务数据分类模型的训练、业务数据分类方法和装置,能够比较准确的为业务数据进行分类,从而更准确、高效地完成业务数据处理。
...
【技术保护点】
【技术特征摘要】
1.一种业务数据分类模型的训练方法,其特征在于,包括:利用多个业务数据样本构建样本集,其中,所述样本集中的一个样本包括一个所述业务数据样本的样本特征以及对应的处理类别;基于所述样本集划分出训练样本集和测试样本集;利用所述训练样本集中的样本特征和对应的处理类别,训练分类模型,得到数据分类模型;利用所述测试样本集中的样本特征和对应的处理类别,测试所述数据分类模型,并根据测试的结果,为所述数据分类模型修正分类阈值。2.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,利用多个业务数据样本构建样本集的步骤,包括:基于预设的信息维度,从所述业务数据样本中采集多个样本特征;利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本;利用多个所述样本组成样本集。3.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,在利用所述业务数据样本对应的多个样本特征和对应的处理类别构建样本的步骤之前,进一步包括:对所述样本特征进行标准化处理;利用所述业务数据样本对应的多种样本特征和处理类别构建样本的步骤,包括:利用所述业务数据样本对应的标准化处理后的多种样本特征和处理类别构建样本。4.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:针对特征值为非空的样本特征,执行:当所述样本特征属于连续类时,判断所述样本特征是否超出所述连续类对应的边界,如果是,则修正所述样本特征;当所述样本特征属于离散类时,将所述样本特征转换为对应的特征编码;当所述样本特征属于文本类时,根据预设的分词赋值表,将所述样本特征量化为对应的数值。5.根据权利要求3所述的业务数据分类模型的训练方法,其特征在于,对所述样本特征进行标准化处理的步骤,包括:针对特征值为空的样本特征,执行:根据预设的赋值策略,为所述样本特征赋值。6.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,进一步包括:针对每一个所述业务数据样本,执行:判断所述业务数据样本包括的分类信息是否满足预设的样本标准,如果是,则执行从所述业务数据样本中采集多个样本特征的步骤;否则,舍弃所述业务数据样本。7.根据权利要求4所述的业务数据分类模型的训练方法,其特征在于,进一步包括:针对每一个离散类的样本特征,执行:确定所述离散类的样本特征对应的多个离散信息,以及为每一个所述离散信息赋值的字符和所述字符的编码位置;将所述样本特征转换为对应的特征编码的步骤,包括:
利用所述样本特征对应的多个离散信息、所述离散信息对应的字符和所述字符的编码位置,为所述样本特征生成对应的特征编码。8.根据权利要求2所述的业务数据分类模型的训练方法,其特征在于,所述预设的信息维度,包括:用户信息维度、物品信息维度、订单信息维度以及服务信息维度中的任意一个或多个维度。9.根据权利要求1所述的业务数据分类模型的训练方法,其特征在于,进一步包括:基于所述样本集划分出校验样本集;在得到所述数据分类模型之后,进一步包括:利用所述校验样本集中的样本特征和对应的处理类别,修正所述数据分类模型;测试所述数据分类模型的步骤,包括:测试修正后的数据分类模型。10.根据权利要求1至9任一所述的业务数据分类模型的训练方法,其特征在于,所述测试的结果包括:设定阈值与准确率之间的第一关联关系;为所述数据分类模型确定分类阈值包括:确定目标准确率;根据所述第一关联关系,确定所述目标准确率对应的阈值为所述分类阈值。11.根据权利要求10所述的业务数据分类模型的训练方法,其特征在于,进一步包括:设置有召回率...
【专利技术属性】
技术研发人员:王永杰,赵晓艳,李雨,冯朝明,焦飞,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。