源于人工决策的机器学习模型训练制造技术

技术编号：37553618 阅读：22 留言：0更新日期：2023-05-15 07:38

在用于源于人工决策来改进用于数据匹配的机器学习模型训练的方法中，一个或多个计算机处理器检测对两个数据记录做出的校正。一个或多个计算机处理器确定这两个数据记录之间的共同属性。一个或多个计算机处理器识别与共同属性相关联的第一机器学习模型。一个或多个计算机处理器将两个数据记录的比较数据添加至机器学习模型的训练数据，其中比较数据包括校正。校正。校正。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】源于人工决策的机器学习模型训练

技术介绍

[0001]本专利技术总体上涉及主数据管理领域，并且更具体地涉及源于人工决策来改进用于数据匹配的机器学习模型训练。
[0002]主数据指的是公司内的多个计算机系统和应用所共有的信息类别，诸如产品或供应商。不同的计算机系统可属于同一公司或者可属于不同的公司，诸如供应商或承包商。主数据可被存储在多个不同位置、计算机系统和/或不兼容格式中。主数据管理(master data management，MDM)是许多组织的最高优先级，因为它们旨在递送和利用可信业务信息。主要数据是高价值信息，诸如客户、供应商、合作伙伴、产品、材料和员工数据。主数据对于解决业务问题至关重要，并且对于多个业务交易、应用和决定是重要的。有效的MDM策略可帮助组织快速且容易地响应现有和改变的业务需要。MDM软件用于确保主数据实体保持一致和精确。
[0003]MDM依赖于干净的、无重复的数据来成为有效的商业工具。匹配在实现客户、零件、交易和几乎任何类型的数据的单个视图中起重要作用。匹配是将类似或相同的数据记录放在一起以便从数据中识别或移除重复的过程。匹配通常用于将具有某种关系的数据记录链接在一起。匹配技术的强度由算法建立匹配的强大程度来定义。当前市场上存在两种常见类型的匹配技术：确定性和概率性。确定性匹配是基于规则的，其中使用模糊算法来比较数据记录。概率匹配技术对数据进行统计分析，然后使用该分析对匹配进行加权。
[0004]当前，许多行业正趋向由大数据平台和机器学习模型赋能的认知模型。认知模型，也称为认知实体，被设计...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：由一个或多个计算机处理器检测对两个数据记录进行的校正；由一个或多个计算机处理器确定所述两个数据记录之间的共同属性；由一个或多个计算机处理器识别与所述共同属性相关联的第一机器学习模型；以及由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据，其中，所述比较数据包括所述校正。2.根据权利要求1所述的方法，还包括：由一个或多个计算机处理器确定所述两个数据记录之间的两个或多个共同属性；由一个或多个计算机处理器识别两个或多个机器学习模型，每个机器学习模型与所述两个或多个共同属性中的一个相关联；由一个或多个计算机处理器检索与所述两个或多个共同属性中的每一个相关联的权重；由一个或多个计算机处理器应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重；以及由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据，每个机器学习模型与所述两个或多个共同属性中的一个相关联，其中，所述比较数据包括两个或多个加权的属性。3.根据权利要求2所述的方法，还包括：由一个或多个计算机处理器确定所述加权的属性的阈值；由一个或多个计算机处理器计算所述两个或多个共同属性中的每一个的加权的概率；由一个或多个计算机处理器确定所述两个或多个共同属性中的每一个的加权的概率中的至少一个不满足所述阈值；以及由一个或多个计算机处理器从与其加权的概率不满足所述阈值的属性相关联的所述机器学习模型的训练数据中省略所述加权的概率。4.根据权利要求2所述的方法，还包括：由一个或多个计算机处理器从用户接收与所述两个或多个共同属性中的每一个相关联的权重。5.根据权利要求1所述的方法，其中，所述校正是由数据管理员做出的。6.根据权利要求1所述的方法，其中所述校正选自由链接所述两个数据记录和解链接所述两个数据记录构成的组。7.根据权利要求1所述的方法，还包括：由一个或多个计算机处理器确定所述两个数据记录之间的共同属性的数量大于一。8.一种计算机程序产品，包括：一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所存储的程序指令包括：用于检测对两个数据记录进行的校正的程序指令；用于确定所述两个数据记录之间的共同属性的程序指令；用于识别与所述共同属性相关联的第一机器学习模型的程序指令；以及用于将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据的程序指令，其中，所述比较数据包括所述校正。
9.根据权利要求8所述的计算机程序产品，所存储的程序指令还包括：用于确定所述两个数据记录之间的两个或多个共同属性的程序指令；用于识别两个或多个机器学习模型的程序指令，每个机器学习模型与两个或更多个共同属性中的一个相关联；用以检索与所述两个或多个共同属性中的每一个相关联的权重的程序指令；用于应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重的程序指令；以及用于将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据的程序指令，每个机器学习模型与所述两个或多个共同属性中的一个相关联，其中，...

【专利技术属性】
技术研发人员：L，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人