机器学习特征推荐制造技术

技术编号：37275069 阅读：15 留言：0更新日期：2023-04-20 23:42

生成预训练模型，其被训练以至少部分地基于与文本字段数据类型关联的特征相关性得分来预测预期的模型性能的度量。接收对用于机器学习预测的合期望的目标字段的指定和存储输入内容的一个或多个文本字段。计算针对存储输入内容的一个或多个文本字段中的每个的对应的特征相关性得分。基于对应的所计算的特征相关性得分，使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量。将所预测的预期模型性能的度量提供用于在存储输入内容的所述一个或多个文本字段之中的特征选择中使用，以用于生成机器学习模型以预测合期望的目标字段。生成机器学习模型以预测合期望的目标字段。生成机器学习模型以预测合期望的目标字段。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器学习特征推荐
[0001]其它申请的交叉引用本申请是2020年7月17日提交的题为“MACHINE LEARNING FEATURE RECOMMENDATION (机器学习特征推荐)”的未决美国专利申请No.16/931,906的部分继续申请，该未决美国专利申请被针对所有目的通过引用合并于此。

技术介绍

[0002]当与人工分类相比时，使用机器学习的自动分类的使用可以显著减少人工工作和错误。执行自动分类的一种方法涉及使用机器学习来预测用于输入数据的类别。例如，使用机器学习，可以自动地对传入任务、事件和案例进行类别化并且将其路由到被分配的一方。典型地，使用机器学习的自动分类要求包括过去经验的训练数据。一旦被训练，机器学习模型就可以被应用于新数据以推断分类结果。例如，新报告的事件可以被自动地分类、分配和路由到负责方。然而，创建准确的机器学习模型是重大的投资，并且可能是典型地要求主题专业知识的困难并且耗时的任务。例如，选择造成准确的模型的输入特征典型地要求对数据集以及特征如何影响预测结果的深入理解。
附图说明
[0003]在以下详细描述和随附附图中公开了本专利技术的各种实施例。
[0004]图1是图示用于创建和利用机器学习模型的网络环境的示例的框图。
[0005]图2是图示用于创建机器学习解决方案的处理的实施例的流程图。
[0006]图3是图示用于自动识别用于机器学习模型的推荐特征的处理的实施例的流程图。
[0007]图4是图示用于自动识别用于机器学习模型的推荐特征的处理的实施例的流程图...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：生成预训练模型，其被训练以至少部分地基于与文本字段数据类型关联的特征相关性得分来预测预期的模型性能的度量；接收对用于机器学习预测的合期望的目标字段的指定和存储输入内容的一个或多个文本字段；针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分；基于对应的所计算的特征相关性得分，使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量；以及将所预测的预期模型性能的度量提供用于在存储输入内容的所述一个或多个文本字段之中的特征选择中使用，以用于生成机器学习模型以预测合期望的目标字段。2.根据权利要求1所述的方法，其中针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分包括针对所述一个或多个文本字段中的每个确定统计度量。3.根据权利要求2所述的方法，其中统计度量至少部分地基于词频
‑
逆文档频率(TF
‑
IDF)度量。4.根据权利要求1所述的方法，其中针对存储输入内容的所述一个或多个文本字段中的每个计算对应的特征相关性得分包括生成存储输入内容的所述一个或多个文本字段中的每个文本字段的一个或多个样本数据集。5.根据权利要求4所述的方法，其中存储输入内容的所述一个或多个文本字段中的每个文本字段的一个或多个生成的样本数据集是分层样本。6.根据权利要求4所述的方法，进一步包括针对所述一个或多个生成的样本数据集中的每个计算相关性得分。7.根据权利要求1所述的方法，其中针对所述一个或多个文本字段中的每个计算对应的特征相关性得分包括针对所述一个或多个文本字段中的每个对一个或多个采样的相关性得分取平均。8.根据权利要求1所述的方法，其中使用预训练模型来预测针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量包括将预训练模型应用于针对所述一个或多个文本字段中的每个的一个或多个信息度量。9.根据权利要求8所述的方法，其中所述一个或多个信息度量包括文本字段密度度量。10.根据权利要求1所述的方法，其中针对存储输入内容的所述一个或多个文本字段中的每个的所计算的特征相关性得分是加权并且归一化的过滤式选择得分。11.根据权利要求1所述的方法，其中针对存储输入内容的所述一个或多个文本字段中的每个的预期模型性能的对应度量基于与基线模型相比与机器学习模型关联的查准率
‑
查全率曲线下的面积的增加量，以预测合期望的目标字段。12.根据权利要求1所述的方法，进一步包括基于所预测的预期模型性能的度量来对存储输入内容的所述一个或多个文本字段进行排序，以用于在用于生成机器学习模型的特征选择中使用以预测合期望的目标字段。13.根据权利要求1所述的方法，其中存储输入内容的所述一个或多个文本字段包括从输入文本字段、电子邮件主题、电子邮件主体或聊天对话收集的文本。
14.一种系统，包括：一个或多个处理器；以及耦合到所述一个或多个处理器的存储器，其中存储器被配置为向所述一个或多个处理器提供指令，指令在被执行时引起所...

【专利技术属性】
技术研发人员：S，
申请(专利权)人：即时服务公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人