【技术实现步骤摘要】
【国外来华专利技术】用于处理数据记录的方法和系统
技术介绍
[0001]本专利技术涉及数字计算机系统领域,并且更具体地,涉及一种用于处理数据记录的方法。
[0002]存储和处理数据可以是数据管理系统成功运行的先决条件。例如,在数据清洗过程中,去除重复记录或在数据库中找到匹配是关键步骤,因为重复可能严重影响任何后续数据处理或数据挖掘的结果。随着在不同地理区域、国家等之间所需的大量不同属性所涉及的复杂性的增加,用于记录链接的匹配过程变得更加复杂,并且构成了记录链接算法的主要挑战之一。
技术实现思路
[0003]各种实施例提供了如独立权利要求的主题所描述的用于处理数据记录的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有利的实施例。如果本专利技术的实施例不是相互排斥的,则它们可以彼此自由地组合。
[0004]在一个方面,本专利技术涉及一种方法,包括:提供一个或多个记录的集合,记录的集合中的每个记录具有一个或多个属性的集合,将记录的集合的属性的集合的值输入到经训练的数据表示学习模型,从而接收分别表示记录的集合的特征向量的集合作为经训练的 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:提供一个或多个记录的集合,记录的集合中的每个记录具有一个或多个属性的集合;将记录的集合的属性的集合的值输入到经训练的数据表示学习模型,从而接收分别表示记录的集合的特征向量的集合作为经训练的数据表示学习模型的输出;存储特征向量的集合。2.根据权利要求1所述的方法,还包括:接收具有属性的集合的另外的记录;将所接收的另外的记录的属性的集合的值输入到经训练的数据表示学习模型,从而从经训练的数据表示学习模型获得所接收的另外的记录的特征向量;将所获得的特征向量与特征向量的集合的至少一部分进行比较,以确定所获得的特征向量与特征向量的集合的匹配级别;基于匹配级别存储所获得的特征向量和/或所接收的另外的记录。3.根据前述权利要求中任一项所述的方法,特征向量的集合的存储包括将特征向量的集合聚类成聚类,并且将所存储的特征向量中的每个与指示对应的聚类的聚类信息相关联。4.根据前述权利要求中任一项所述的方法,特征向量的集合的存储包括将特征向量的集合聚类成特征向量的聚类,所述方法还包括确定所获得的特征向量与表示聚类中的每个聚类的向量之间的距离,其中特征向量的集合的至少一部分包括由具有与所获得的特征向量最接近的距离的向量表示的聚类。5.根据权利要求2至4中任一项所述的方法,被实时执行,其中,记录作为创建或更新操作的一部分被接收。6.根据前述权利要求中任一项所述的方法,其中由经训练的数据表示模型输出特征向量的集合中的每个特征向量包括针对属性的集合中的每个属性生成个体特征向量并且组合个体特征向量以获得所述特征向量。7.根据前述权利要求中的任一项所述的方法,经训练的数据表示学习模型被配置为并行地处理输入值。8.根据前述权利要求中的任一项所述的方法,经训练的数据表示学习模型包括属性级别的经训练的数据表示模型的集合,其中属性级别的经训练的数据表示模型的集合中的每一个与属性的集合中的相应属性相关联,其中特征向量的集合中的每个特征向量的输出包括:将属性的集合中的每个属性的值输入到相关联的属性级别经训练的数据表示模型中;响应于输入,从属性级别经训练的数据表示模型中的每一个接收个体特征向量;以及组合个体特征向量以获得所述特征向量。9.根据权利要求8所述的方法,经训练的数据表示学习模型还包括经训练的权重的集合,权重的集合中的每个权重与属性的集合中的相应属性相关联,其中组合包括利用经训练的权重的集合中的相应经训练的权重对个体特征向量中的每一个进行加权。10.根据权利要求8至9中任一项所述的方法,属性级别经训练的数据表示模型中的每一个是神经网络。11.根据权利要求8至10中任一项所述的方法,经训练的数据表示学习模型被训练用于
优化损失函数,损失函数是记录对的特征向量之间的相似性的测量,相似性的测量是个体相似性的组合,个体相似性中的每个个体相似性指示针对记录对中的相同属性生成的两个个体特征向量的相似性。12.根据前述权利要求中任一项所述的方法,经训练的数据表示学习模型被训练用于优化损失函数,损失函数是记录对的特征向量之间的相似性的测量。13.根据前述权利要求中任一项所述的方法,经训练的数据表示学习模型包括根据Siamese神经网络架构训练的至少一个神经网络。14.根据前述权利要求中任一项所述的方法,经训练的数据表示学习模型包括针对属性的集合中的每个属性的一个经训...
【专利技术属性】
技术研发人员:L布雷默,J罗斯纳,C凡科尼,M奥伯霍弗,K斯特克勒,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。