源于人工决策的机器学习模型训练制造技术

技术编号:37553618 阅读:22 留言:0更新日期:2023-05-15 07:38
在用于源于人工决策来改进用于数据匹配的机器学习模型训练的方法中,一个或多个计算机处理器检测对两个数据记录做出的校正。一个或多个计算机处理器确定这两个数据记录之间的共同属性。一个或多个计算机处理器识别与共同属性相关联的第一机器学习模型。一个或多个计算机处理器将两个数据记录的比较数据添加至机器学习模型的训练数据,其中比较数据包括校正。校正。校正。

【技术实现步骤摘要】
【国外来华专利技术】源于人工决策的机器学习模型训练

技术介绍

[0001]本专利技术总体上涉及主数据管理领域,并且更具体地涉及源于人工决策来改进用于数据匹配的机器学习模型训练。
[0002]主数据指的是公司内的多个计算机系统和应用所共有的信息类别,诸如产品或供应商。不同的计算机系统可属于同一公司或者可属于不同的公司,诸如供应商或承包商。主数据可被存储在多个不同位置、计算机系统和/或不兼容格式中。主数据管理(master data management,MDM)是许多组织的最高优先级,因为它们旨在递送和利用可信业务信息。主要数据是高价值信息,诸如客户、供应商、合作伙伴、产品、材料和员工数据。主数据对于解决业务问题至关重要,并且对于多个业务交易、应用和决定是重要的。有效的MDM策略可帮助组织快速且容易地响应现有和改变的业务需要。MDM软件用于确保主数据实体保持一致和精确。
[0003]MDM依赖于干净的、无重复的数据来成为有效的商业工具。匹配在实现客户、零件、交易和几乎任何类型的数据的单个视图中起重要作用。匹配是将类似或相同的数据记录放在一起以便从数据中识别或移除重复的过程。匹配通常用于将具有某种关系的数据记录链接在一起。匹配技术的强度由算法建立匹配的强大程度来定义。当前市场上存在两种常见类型的匹配技术:确定性和概率性。确定性匹配是基于规则的,其中使用模糊算法来比较数据记录。概率匹配技术对数据进行统计分析,然后使用该分析对匹配进行加权。
[0004]当前,许多行业正趋向由大数据平台和机器学习模型赋能的认知模型。认知模型,也称为认知实体,被设计成记忆过去,与人交互,不断学习,并随着预测水平的增加而不断改善对于未来的反应。机器学习探索可以从数据学习并且基于数据做出预测的算法的学习和构造。这样的算法通过从示例输入构建模型来操作以便作出表达为输出的数据驱动预测或决策,而不是严格遵循静态程序指令。在数据分析领域内,机器学习是用于设计使其自身适于预测的复杂模型和算法的方法。这些分析模型允许研究人员、数据科学家、工程师和分析人员产生可靠的、可重复的决定和结果,并且通过从数据的历史关系和趋势中学习来揭示隐藏的见解。
[0005]预测MDM参考中的两个人是否是同一物理人是困难的问题。机器学习已被证明优于确定和概率匹配系统,这些系统是复杂的并且因此正确配置困难且耗时的。针对比较的不同属性(例如,姓名、出生日期)使用专门的机器学习模型有利于降低问题的复杂度。机器学习模型可以用工作得相当好的合成数据来预训练,但是当前如果收集了用户反馈,则反馈考虑整个记录相似性而不是属性相似性。用户反馈可能不能确定各个机器学习模型工作得多好。因此,没有使用有价值的用户反馈来改进模型。

技术实现思路

[0006]本专利技术实施例公开了一种用于源于人工决策来改进用于数据匹配的机器学习模型训练的方法、计算机程序产品和系统。该方法可以包括一个或多个计算机处理器检测对两个数据记录进行的校正。一个或多个计算机处理器确定这两个数据记录之间的共同属
性。一个或多个计算机处理器识别与共同属性相关联的第一机器学习模型。一个或多个计算机处理器将两个数据记录的比较数据添加至机器学习模型的训练数据,其中比较数据包括校正。
[0007]附图简要说明
[0008]图1是示出根据本专利技术的实施例的分布式数据处理环境的功能框图;
[0009]图2是描绘根据本专利技术实施例的模型训练程序的操作步骤的流程图,模型训练程序在图1的分布式数据处理环境内的服务器计算机上,用于通过捕获人工决策来改进对用于数据匹配的机器学习模型的训练;
[0010]图3A示出根据本专利技术的实施例的在图1的分布式数据处理环境内的服务器计算机上的模型训练程序的操作步骤的示例;
[0011]图3B示出根据本专利技术的实施例的在图1的分布式数据处理环境内的服务器计算机上的模型训练程序的操作步骤的实例;以及
[0012]图4示出了根据本专利技术的实施例的在图1的分布式数据处理环境内执行模型训练程序的服务器计算机的组件的框图。
具体实施方式
[0013]本专利技术的实施例认识到,可以通过在模型的匹配决策之后捕获数据记录的人工链接或解链接(unlink)来在用于数据匹配的机器学习模型的训练中做出改进。本专利技术的实施例标识机器学习模型的训练数据并且改进作为匹配算法的一部分的属性特定的机器学习分类器。本专利技术的实施例还认识到,可以通过捕获关于与个体机器学习模型相关联的个体属性的级别的用户反馈来获得效率,而无需用户明确地提供反馈。本专利技术的实施例的实现方式可以采取多种形式,并且随后参照附图讨论示范性实现方式细节。
[0014]图1是示出根据本专利技术一个实施例的一般指定为100的分布式数据处理环境的功能框图。如本文所使用的术语“分布式”描述了包括多个物理上不同的设备的计算机系统,这些设备作为单个计算机系统一起操作。图1仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。本领域技术人员可对所描述的环境作出许多修改,而不脱离权利要求书所描述的本专利技术的范围。
[0015]分布式数据处理环境100包括通过网络102互连的服务器计算机104和客户端计算设备122。网络102可以是例如电信网络、局域网(LAN)、广域网(WAN)(诸如互联网)或三者的组合,并且可以包括有线、无线或光纤连接。网络102可以包括能够接收和传输数据、语音和/或视频信号(包括包含语音、数据和视频信息的多媒体信号)的一个或多个有线和/或无线网络。一般而言,网络102可以是将支持服务器计算机104、客户端计算设备122和分布式数据处理环境100内的其他计算设备(未示出)之间的通信的连接和协议的任何组合。
[0016]服务器计算机104可以是独立计算设备、管理服务器、web服务器、移动计算设备或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中,服务器计算机104可表示诸如在云计算环境中利用多个计算机作为服务器系统的服务器计算系统。在另一实施例中,服务器计算机104可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、或能够经由网络102与客户端计算设备122和分布式数据处理环境100内的其他计算设备(未示出)通信的任何可编程电子设
备。在另一实施例中,服务器计算机104表示利用当在分布式数据处理环境100内被访问时充当单个无缝资源池的集群计算机和组件(例如,数据库服务器计算机、应用服务器计算机等)的计算系统。服务器计算机104包括主数据管理系统106、匹配引擎108、模型训练程序110、机器学习模型112、模型1141‑
N
、模型训练数据库1161‑
N
、加权服务118和客户权重数据库120。如关于图4更详细描绘和描述的,服务器计算机104可包括内部和外部硬件组件。
[0017]主数据管理(MDM)系统106为多个软件工具中的一个或多个,软件工具可用于通过移除重复、标准化数据(大规模维护)、以及合并规则以消本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:由一个或多个计算机处理器检测对两个数据记录进行的校正;由一个或多个计算机处理器确定所述两个数据记录之间的共同属性;由一个或多个计算机处理器识别与所述共同属性相关联的第一机器学习模型;以及由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据,其中,所述比较数据包括所述校正。2.根据权利要求1所述的方法,还包括:由一个或多个计算机处理器确定所述两个数据记录之间的两个或多个共同属性;由一个或多个计算机处理器识别两个或多个机器学习模型,每个机器学习模型与所述两个或多个共同属性中的一个相关联;由一个或多个计算机处理器检索与所述两个或多个共同属性中的每一个相关联的权重;由一个或多个计算机处理器应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重;以及由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据,每个机器学习模型与所述两个或多个共同属性中的一个相关联,其中,所述比较数据包括两个或多个加权的属性。3.根据权利要求2所述的方法,还包括:由一个或多个计算机处理器确定所述加权的属性的阈值;由一个或多个计算机处理器计算所述两个或多个共同属性中的每一个的加权的概率;由一个或多个计算机处理器确定所述两个或多个共同属性中的每一个的加权的概率中的至少一个不满足所述阈值;以及由一个或多个计算机处理器从与其加权的概率不满足所述阈值的属性相关联的所述机器学习模型的训练数据中省略所述加权的概率。4.根据权利要求2所述的方法,还包括:由一个或多个计算机处理器从用户接收与所述两个或多个共同属性中的每一个相关联的权重。5.根据权利要求1所述的方法,其中,所述校正是由数据管理员做出的。6.根据权利要求1所述的方法,其中所述校正选自由链接所述两个数据记录和解链接所述两个数据记录构成的组。7.根据权利要求1所述的方法,还包括:由一个或多个计算机处理器确定所述两个数据记录之间的共同属性的数量大于一。8.一种计算机程序产品,包括:一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令,所存储的程序指令包括:用于检测对两个数据记录进行的校正的程序指令;用于确定所述两个数据记录之间的共同属性的程序指令;用于识别与所述共同属性相关联的第一机器学习模型的程序指令;以及用于将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据的程序指令,其中,所述比较数据包括所述校正。
9.根据权利要求8所述的计算机程序产品,所存储的程序指令还包括:用于确定所述两个数据记录之间的两个或多个共同属性的程序指令;用于识别两个或多个机器学习模型的程序指令,每个机器学习模型与两个或更多个共同属性中的一个相关联;用以检索与所述两个或多个共同属性中的每一个相关联的权重的程序指令;用于应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重的程序指令;以及用于将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据的程序指令,每个机器学习模型与所述两个或多个共同属性中的一个相关联,其中,...

【专利技术属性】
技术研发人员:L
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1