机器学习特征推荐制造技术

技术编号:37275069 阅读:15 留言:0更新日期:2023-04-20 23:42
生成预训练模型,其被训练以至少部分地基于与文本字段数据类型关联的特征相关性得分来预测预期的模型性能的度量。接收对用于机器学习预测的合期望的目标字段的指定和存储输入内容的一个或多个文本字段。计算针对存储输入内容的一个或多个文本字段中的每个的对应的特征相关性得分。基于对应的所计算的特征相关性得分,使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量。将所预测的预期模型性能的度量提供用于在存储输入内容的所述一个或多个文本字段之中的特征选择中使用,以用于生成机器学习模型以预测合期望的目标字段。生成机器学习模型以预测合期望的目标字段。生成机器学习模型以预测合期望的目标字段。

【技术实现步骤摘要】
【国外来华专利技术】机器学习特征推荐
[0001]其它申请的交叉引用本申请是2020年7月17日提交的题为“MACHINE LEARNING FEATURE RECOMMENDATION (机器学习特征推荐)”的未决美国专利申请No.16/931,906的部分继续申请,该未决美国专利申请被针对所有目的通过引用合并于此。

技术介绍

[0002]当与人工分类相比时,使用机器学习的自动分类的使用可以显著减少人工工作和错误。执行自动分类的一种方法涉及使用机器学习来预测用于输入数据的类别。例如,使用机器学习,可以自动地对传入任务、事件和案例进行类别化并且将其路由到被分配的一方。典型地,使用机器学习的自动分类要求包括过去经验的训练数据。一旦被训练,机器学习模型就可以被应用于新数据以推断分类结果。例如,新报告的事件可以被自动地分类、分配和路由到负责方。然而,创建准确的机器学习模型是重大的投资,并且可能是典型地要求主题专业知识的困难并且耗时的任务。例如,选择造成准确的模型的输入特征典型地要求对数据集以及特征如何影响预测结果的深入理解。
附图说明
[0003]在以下详细描述和随附附图中公开了本专利技术的各种实施例。
[0004]图1是图示用于创建和利用机器学习模型的网络环境的示例的框图。
[0005]图2是图示用于创建机器学习解决方案的处理的实施例的流程图。
[0006]图3是图示用于自动识别用于机器学习模型的推荐特征的处理的实施例的流程图。
[0007]图4是图示用于自动识别用于机器学习模型的推荐特征的处理的实施例的流程图
[0008]图5是图示用于自动识别用于机器学习模型的推荐特征的评估处理的实施例的流程图。
[0009]图6是图示用于创建用于确定特征的性能度量的离线模型的处理的实施例的流程图。
[0010]图7是图示用于自动识别和评估作为用于机器学习模型的潜在特征的文本字段的处理的实施例的流程图。
[0011]图8是图示用于评估作为用于机器学习模型的特征的文本字段的合格度以预测合期望的目标字段的处理的实施例的流程图。
[0012]图9是图示用于准备输入文本字段数据以确定影响得分的处理的实施例的流程图。
[0013]图10是图示用于确定用于文本字段特征的性能度量的处理的实施例的流程图。
具体实施方式
[0014]本专利技术可以以多种方式实施,包括作为方法;装置;系统;物体组成部;在计算机可读存储介质上体现的计算机程序产品;和/或处理器,诸如被配置为执行存储在耦合到处理器的存储器上和/或由耦合到处理器的存储器提供的指令的处理器。在本说明书中,这些实现或者本专利技术可以采取的任何其它形式可以被称为技术。一般而言,在本专利技术的范围内,可以更改所公开的处理的步骤的顺序。除非另外声明,否则被描述为被配置为执行任务的诸如处理器或存储器的组件可以被实现为临时配置为在给定时间执行任务的通用组件或被制造为执行任务的特定组件。如在此使用的那样,术语“处理器”指代被配置为处理诸如计算机程序指令之类的数据的一个或多个设备、电路和/或处理核。
[0015]下面连同图示本专利技术的原理的随附各图一起提供本专利技术的一个或多个实施例的详细描述。与这样的实施例有关地描述本专利技术,但是本专利技术不限制于任何实施例。本专利技术的范围仅受权利要求限制,并且本专利技术涵盖许多替换、修改和等同物。在以下描述中阐述了许多具体细节,以便提供对本专利技术的透彻理解。这些细节是出于示例的目的而提供的,并且本专利技术可以是在没有这些具体细节中的一些或全部的情况下根据权利要求实践的。为了清楚的目的,没有详细描述与本专利技术相关的
中已知的技术材料,从而不会不必要地模糊本专利技术。
[0016]公开了用于选择机器学习特征的技术。当构建机器学习模型时,特征选择可以显著地影响模型的准确度和可用性。然而,在没有主题专业知识和对机器学习问题的深入理解的情况下,适当地选择改进模型的准确度的特征可能是挑战。使用所公开的技术,机器学习特征可以被自动推荐和选择,这造成机器学习模型的预测准确度上的显著改进。此外,几乎乃至根本不要求主题专业知识。例如,具有对输入数据集的最小理解的用户可以成功地生成可以准确预测分类结果的机器学习模型。在一些实施例中,用户可以经由诸如软件即服务web应用之类的软件服务来利用机器学习平台。
[0017]在各种实施例中,用户向机器学习平台提供输入数据集,诸如识别一个或多个数据库表。所提供的数据集包括多个合格特征。合格特征可以包括在准确地预测机器学习结果中有用的特征以及对于准确地预测机器学习结果无用或具有较小影响的特征。准确地识别有用特征可以造成高度准确的模型并且改进资源使用和性能。例如,训练具有无用特征的模型可能是显著的资源消耗,其可以通过准确地识别和忽略无用特征来避免。在各种实施例中,用户指定合期望的目标字段以进行预测,并且使用所公开的技术的机器学习平台可以从所提供的输入数据集生成一组推荐的机器学习特征以用于在建立机器学习模型中使用。在一些实施例中,通过将一系列评估应用于合格特征以过滤无用特征并且识别有用特征来确定推荐的机器学习特征。一旦确定了一组推荐的特征,就可以将其呈现给用户。例如,在一些实施例中,按对预测结果的改进的顺序对特征进行排序。在一些实施例中,使用由用户基于推荐的特征选择的特征来训练机器学习模型。例如,可以使用通过对预测结果的改进而自动识别和排序的推荐特征来自动训练模型。
[0018]在一些实施例中,接收对用于机器学习预测的合期望的目标字段的指定和存储机器学习训练数据的一个或多个表。例如,软件即服务平台的客户指定一个或多个客户数据库表。表可以包括来自过去的经验的数据,诸如已被分类的传入任务、事件和案例。例如,分类可以包括对任务、事件或案件的类型进行类别化,以及分配要负责解决问题的适当的一
方。在一些实施例中,机器学习数据被存储在不同于数据库的另外的适当的数据结构中。在各种实施例中,合期望的目标字段是分类结果,其可以是所接收的表之一中的列。由于所接收的数据库表数据未必被准备为训练数据,因此数据可以包括用于预测分类结果的有用的和无用的字段。在一些实施例中,在一个或多个表内识别用于建立机器学习模型以执行针对合期望的目标字段的预测的合格机器学习特征。例如,从数据库数据中,将字段识别为用于训练机器学习模型的潜在特征或合格特征。在一些实施例中,合格特征基于表的列。使用不同评估的管线来评估合格的机器学习特征,以相继地过滤掉合格的机器学习特征中的一个或多个,以在合格的机器学习特征中识别一组推荐的机器学习特征。通过从合格特征中相继地过滤掉特征,剔除了对模型预测准确度具有较小影响的特征。余下的特征是具有预测值的推荐特征。过滤管线的每个步骤识别没有帮助的附加特征(以及可能有帮助的特征)。例如,在一些实施例中,一个过滤步骤移除其中特征数据不必要或超出范围的特征。稀疏地布居在其相应的数据库表中的特征或者其中特征的所有值相同(例如,是常数)的特征可以被过滤掉。在一些实施例中,非标称列被过滤掉。在一些实施例中,过滤步骤计算用于每个合格特征的影响得分。可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:生成预训练模型,其被训练以至少部分地基于与文本字段数据类型关联的特征相关性得分来预测预期的模型性能的度量;接收对用于机器学习预测的合期望的目标字段的指定和存储输入内容的一个或多个文本字段;针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分;基于对应的所计算的特征相关性得分,使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量;以及将所预测的预期模型性能的度量提供用于在存储输入内容的所述一个或多个文本字段之中的特征选择中使用,以用于生成机器学习模型以预测合期望的目标字段。2.根据权利要求1所述的方法,其中针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分包括针对所述一个或多个文本字段中的每个确定统计度量。3.根据权利要求2所述的方法,其中统计度量至少部分地基于词频

逆文档频率(TF

IDF)度量。4.根据权利要求1所述的方法,其中针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分包括生成存储输入内容的所述一个或多个文本字段中的每个文本字段的一个或多个样本数据集。5.根据权利要求4所述的方法,其中存储输入内容的所述一个或多个文本字段中的每个文本字段的一个或多个生成的样本数据集是分层样本。6.根据权利要求4所述的方法,进一步包括针对所述一个或多个生成的样本数据集中的每个计算相关性得分。7.根据权利要求1所述的方法,其中针对所述一个或多个文本字段中的每个计算对应的特征相关性得分包括针对所述一个或多个文本字段中的每个对一个或多个采样的相关性得分取平均。8.根据权利要求1所述的方法,其中使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量包括将预训练模型应用于针对所述一个或多个文本字段中的每个的一个或多个信息度量。9.根据权利要求8所述的方法,其中所述一个或多个信息度量包括文本字段密度度量。10.根据权利要求1所述的方法,其中针对存储输入内容的所述一个或多个文本字段中的每个的所计算的特征相关性得分是加权并且归一化的过滤式选择得分。11.根据权利要求1所述的方法,其中针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量基于与基线模型相比与机器学习模型关联的查准率

查全率曲线下的面积的增加量,以预测合期望的目标字段。12.根据权利要求1所述的方法,进一步包括基于所预测的预期模型性能的度量来对存储输入内容的所述一个或多个文本字段进行排序,以用于在用于生成机器学习模型的特征选择中使用以预测合期望的目标字段。13.根据权利要求1所述的方法,其中存储输入内容的所述一个或多个文本字段包括从输入文本字段、电子邮件主题、电子邮件主体或聊天对话收集的文本。
14.一种系统,包括:一个或多个处理器;以及耦合到所述一个或多个处理器的存储器,其中存储器被配置为向所述一个或多个处理器提供指令,指令在被执行时引起所...

【专利技术属性】
技术研发人员:S
申请(专利权)人:即时服务公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1