用于机器学习的计算机模型的迭代训练制造技术

技术编号:40948403 阅读:41 留言:0更新日期:2024-04-18 20:22
本公开涉及接收当前训练数据集的计算机。第一分数的训练数据集包括合成训练数据,并且剩余第二分数的训练数据集包括真实训练数据。真实训练数据是用户定义数据,并且合成训练数据是系统定义数据。基于机器学习的引擎被训练并且可通过使用当前训练数据集来重复地执行。在每次迭代或迭代的子集中,通过添加真实训练数据来更新训练数据集,由此增加经更新的训练数据集中的第二分数并减少第一分数的合成训练数据。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、本专利技术涉及数字计算机系统领域,并且更具体地涉及用于训练基于机器学习的引擎的方法。

2、文书记录是针对其给定匹配过程不能确定它们是否彼此是重复记录并且因此应当被合并或者一个或多个是否应该被认为是不匹配并且因此应当被保持彼此分开的记录。那些文书记录可能需要用户干预以更接近地查看数据记录的值。尽管自动化和改进记录匹配过程的巨大努力,那些文书记录的数目连续地增加(例如,它可以是数百万个文书记录)。这导致大部分文书记录不在非常长的时间段内被处理,在所述非常长的时间段内不一致的数据可被用于系统配置中。


技术实现思路

1、各个实施例提供了一种用于训练基于机器学习的引擎的方法、计算机系统和计算机程序产品,如独立权利要求的技术方案所描述的。在从属权利要求中描述了有利的实施例。如果本专利技术的实施例不相互排斥,则它们可以彼此自由组合。

2、在根据本专利技术的一个方面中,一种训练基于机器学习的引擎的计算机实现的方法包括接收当前训练数据集。第一分数的当前训练数据集包括合成训练数据,并且剩余本文档来自技高网...

【技术保护点】

1.一种训练基于机器学习的引擎的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,所述基于机器学习的引擎被训练以确定两个数据记录是否是彼此的副本,所述方法进一步包括使用被训练后的所述基于机器学习的引擎来比较数据库的记录。

3.根据权利要求2所述的方法,其中如果当前经训练的所述基于机器学习的引擎的预测准确度与上一次迭代的经训练的所述基于机器学习的引擎的所述预测准确度相比没有增加,则所述基于机器学习的引擎被用于比较所述数据库的所述记录。

4.根据权利要求2所述的方法,其中如果所述第一分数是零,则所述基于机器学习的引擎被用于比较所述数据库的所述...

【技术特征摘要】
【国外来华专利技术】

1.一种训练基于机器学习的引擎的计算机实现的方法,所述方法包括:

2.根据权利要求1所述的方法,所述基于机器学习的引擎被训练以确定两个数据记录是否是彼此的副本,所述方法进一步包括使用被训练后的所述基于机器学习的引擎来比较数据库的记录。

3.根据权利要求2所述的方法,其中如果当前经训练的所述基于机器学习的引擎的预测准确度与上一次迭代的经训练的所述基于机器学习的引擎的所述预测准确度相比没有增加,则所述基于机器学习的引擎被用于比较所述数据库的所述记录。

4.根据权利要求2所述的方法,其中如果所述第一分数是零,则所述基于机器学习的引擎被用于比较所述数据库的所述记录。

5.根据权利要求1所述的方法,进一步包括:在每次迭代中或者在所述迭代的所述子集的每次迭代中,减少所述合成训练数据,由此进一步减少经更新的所述训练数据集中的所述第一分数的合成训练数据。

6.根据权利要求5所述的方法,其中所述合成训练数据的所述减少是绝对减少或者相对减少。

7.根据权利要求5所述的方法,其中所述合成训练数据的重复减少包括逐渐减少合成训练数据的量。

8.根据权利要求5所述的方法,其中合成训练数据的所述量被减少到仅对真实训练数据执行所述训练的点。

9.根据权利要求5所述的方法,其中被用于训练的所述合成训练数据的减少的水平基于至少一个预测质量度量而被动态地调整。

10.根据权利要求1所述的方法,针对所述基于机器学习的引擎的所述训练的所述第一执行,所述第二分数为零。

11.根据权利要求1所述的方法,其中所述基于机器学习的引擎是用于在数据库中查找副本的基于机器学习的匹配引擎,所述训练数据集包括标记的记录,其中所述合成训练数据的所述记录由基于规则的匹配引擎基于由所述基于规则的匹配引擎对所述记录...

【专利技术属性】
技术研发人员:H·科尼格L·布雷默M·欧弗斯M·奥贝霍弗
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1