System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及使用机器学习模型表征数据项。特别地,本公开涉及修正训练数据集以生成用于训练机器学习模型的修正后的训练数据集。
技术介绍
1、数据项的分类是常用的过程。在许多情形下,分类可以在规则库中手动编码,然后应用于传入的数据项。即使在最好的情况下,手动对数据项进行分类也是耗时费力的。对于每小时处理数百万或数十亿个数据项(例如,点击流数据、电子通信流量)的现代数据系统来说,数据项的手动分类是不可行的。在其他情形下,可以使用目标数据来训练一种被称为分类器的机器学习模型。一旦经过训练,分类器就可以按照其训练对目标数据项进行分组。虽然对于高数据量环境来说是一种更实用的解决方案,但是传统分类器可能会产生不准确或没有有用信息的分类。这是因为用于训练分类器的数据可能包括具有很少观察值(observation)的类。因此,经过训练的模型可以按照这些统计上有问题的或不提供信息的类对目标数据进行分类。
2、记载在本节中的方法是可以执行的方法,但未必是以前构思或执行过的方法。于是,除非另有说明,否则不应认为记载在本节中的任何方法仅仅由于包含在本节中而成为现有技术。
技术实现思路
【技术保护点】
1.一种或多种存储指令的非临时性计算机可读介质,所述指令当由一个或多个硬件处理器执行时导致操作的执行,所述操作包括:
2.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的第一层级中的第一类别的第一概率和所述目标数据项对应于所述第一层级中的第二类别的第二概率,其中所述第一层级由所述第一类别和所述第二类别组成,并且其中所述第一概率和所述第二概率之和为1。
3.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的第一层级中的相应类别的概率,其中所述第一层级的所有类别的概率之和为1。
4.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的每个层级中的相应类别的概率,其中各个层级的所有类别的概率之和为1。
5.按照权利要求1所述的介质,应用操作还包括从考虑中去除特定数据项的第一分类,在所述类别的层次分类的终端层级的所述第一分类具有低于最小概率阈值的第一概率。
6.按照权利要求1所述的介质,其中应用操作还包括识别特定数据项的特
7.按照权利要求1所述的介质,其中应用操作还包括将非终端分类识别为对应于特定数据项,所述非终端分类是基于高于阈值的所述非终端分类与连接的终端分类之间的概率比率来选择的。
8.一种方法,包括按照权利要求1-7任意之一所述的操作。
9.一种系统,所述系统包括硬件处理器,并被配置为进行按照权利要求1-7任意之一所述的操作。
10.一种系统,所述系统包括用于进行按照权利要求1-7任意之一所述的操作的装置。
...【技术特征摘要】
【国外来华专利技术】
1.一种或多种存储指令的非临时性计算机可读介质,所述指令当由一个或多个硬件处理器执行时导致操作的执行,所述操作包括:
2.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的第一层级中的第一类别的第一概率和所述目标数据项对应于所述第一层级中的第二类别的第二概率,其中所述第一层级由所述第一类别和所述第二类别组成,并且其中所述第一概率和所述第二概率之和为1。
3.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的第一层级中的相应类别的概率,其中所述第一层级的所有类别的概率之和为1。
4.按照权利要求1所述的介质,其中应用操作包括分配所述目标数据项对应于所述类别的层次分类的每个层级中的相应类别的概率,其中各个层级的所有类别的概率之和为1。
5.按...
【专利技术属性】
技术研发人员:A·波莱里,L·德拉帕尔,F·特洛简,K·瓦库里克,
申请(专利权)人:甲骨文国际公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。