使用实体分辨识别重复方的系统技术方案

技术编号:27572719 阅读:19 留言:0更新日期:2021-03-09 22:21
一种实体分辨系统,其执行基于数据集解析一个或多个候选实体的方法。该实体分辨系统具有基于规则的模块,机器学习模块,叙述模块和评估模块。所述基于规则的模块比较所述第一实体特征和所述第二实体特征并确定是否有规则识别了所述第一实体和所述第二实体之间的关系。所述机器学习模块对所述第一实体特征和所述第二实体特征之间的相似度进行评级。所述叙述模块基于基于规则的模块,机器学习模块,叙述模块和评估模块中的一个或多个生成叙述输出,所述叙述输出声明所述第一实体和所述第二实体之间的识别的关系。所述评估模块确定一个或多个度量以提供反馈给所述系统。或多个度量以提供反馈给所述系统。或多个度量以提供反馈给所述系统。

【技术实现步骤摘要】
使用实体分辨识别重复方的系统


[0001]本专利技术整体上涉及识别重复方,更具体地,涉及使用实体分辨识别重复方的系统和方法

技术介绍

[0002]有很多方法来描绘一个人、地方或者事情。然而,如果不知道其他任何信息,我们怎么知道两个描绘是描述同样的事情?两个不同的实体可能具有同样的名字,而且同样的实体可能还有替代名。数据可能在一个地方是不正确或者不完整的,但在另一个地方不是。这个概念和金融机构数据相关。在一个例子中,当客户试图开一个银行账户,银行的尽职调查步骤应该确定这个客户是否已经有一个账户,是否在筛选清单上,或者是否是具有高风险的人(例如,通过判断该客户和具有一个账户的客户是同一个),甚至给定的信息和已经存储的信息不同。
[0003]当银行内部评估他们的客户风险时,使用,例如来自多个账户的信息,给每个账户一个风险值会比给每个客户一个风险值更不准确。获得这个目标的障碍在于,该机构能够或者不能总是知道该客户是和另外一个已知实体相同(或者不同)的实体,因此,是否他们具有多个账户。进而,链接到洗钱者的账户的能力将暴露可疑的交易模式。例如,如果汇出的钱最终汇入他们自己的(不同的)账户,则是可疑的。
[0004]本专利技术描述了和解决是否两个实体是相同或者不同的问题相关的实施例,给出了多组信息以解决如上描述的问题,以及本领域其他相关目标。

技术实现思路

[0005]根据一些实施例,本专利技术描述了一种用于执行实体分辨的计算机实现的方法。该方法包括:接收一组数据,该组数据包括具有第一实体特征的第一实体和具有第二实体特征的第二实体,接收包括描述第一实体的第一实体特征和描述第二实体的第二实体特征的数据集,由所述处理设备使用第一实体特征和第二实体特征执行基于匹配的规则以尝试基于一个或多个所存储的规则识别第一实体特征和第二实体特征的关系,由处理设备使用第一实体特和第二实体特征执行机器学习匹配以尝试基于一个或多个机器学习算法识别第一实体特征和第二实体特征的关系,由处理设备根据基于规则的匹配和机器学习匹配的一个或多个生成叙述输出,该叙述输出声明第一实体和第二实体之间的识别的关系,将该叙述输出提供给用户接口。
[0006]根据其他实施例,本专利技术描述了实体分辨系统。该实体分辨系统包括基于规则的模块,机器学习模块和叙述模块。基于规则的模块比较第一实体特征和第二实体特征并确定是否有规则识别第一实体和第二实体之间的关系。机器学习模块对第一实体特征和第二实体特征之间的关系进行评级。叙述模块根据基于规则的模块的一个或多个以及机器学习模块生成叙述输出,叙述输出声明第一实体和第二实体之间的识别的关系。
[0007]通过参考附图进行的以下说明性实施例的详细描述,本公开的附加特征和优点将
变得显而易见。
附图说明
[0008]当结合附图阅读时,根据以下详细描述可以最好地理解本专利技术的前述和其他方面。为了说明本专利技术,在附图中示出了当前优选的实施例,但是应当理解,本专利技术不限于所公开的特定手段。附图包括以下:
[0009]图1示出了根据本专利技术实施例的示例服务提供者系统的框图;
[0010]图2示出了实现说明性实施例相关方面的示例数据处理系统的框图;
[0011]图3是根据本专利技术实施例的示例实体分辨系统的框图;
[0012]图4是根据本专利技术实施例的实体分辨系统的示例视觉流;
[0013]图5是根据本专利技术实施例的使用实体分辨系统来制造叙述输出的示例性过程的流程图;
[0014]图6是用于基于成对距离矩阵确定叙述输出的聚类过程的视觉流的示例;
[0015]图7是根据本专利技术实施例的用于评估和调整实体分辨系统的示例过程的流程图;
[0016]图8是根据本专利技术实施例的示例评估度量的图;
[0017]图9是根据本专利技术实施例的另一个示例评估度量的图;以及
[0018]图10是根据本专利技术实施例的又一个示例评估度量的图。
具体实施方式
[0019]关于说明性实施例的特定特征和组件,本描述和权利要求可以使用术语“一个”,“至少一个”和“一个或多个”。应当理解,这些术语和短语旨在声明在特定说明性实施例中存在至少一个特定特征或元素,但是也可以存在一个以上。也就是说,这些术语/短语不旨在将描述或权利要求限制为存在单个特征/元素,或者要求存在多个这样的特征/元素。相反,这些术语/短语仅需要至少一个特征/要素,并且多个这样的特征/要素可能在说明书和权利要求书的范围内。
[0020]另外,应当理解,以下描述将多个各种示例用于说明性实施例的各个要素,以进一步说明说明性实施例的示例性实施方式,并有助于理解说明性实施例的机制。这些示例旨在是非限制性的,并且未穷尽用于实现说明性实施例的机制的各种概率。鉴于本说明书,对于本领域普通技术人员而言将显而易见的是,除了本文所提供的示例之外,或替代本文所提供的示例,可以使用针对这些各种组件的许多其他替代实施方式,而不脱离本专利技术的范围和精神。
[0021]本专利技术的实施例可以是系统,方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于使处理器执行本专利技术的方面的计算机可读程序指令的计算机可读存储介质。
[0022]计算机可读存储介质可以是有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备,磁存储设备,光存储设备,电磁存储设备,半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容:便携式计算机磁盘,磁头磁盘,随机存取存储器(RAM),只读存储器(ROM),可擦可编程只读存储器。仅存储器(EPROM或闪存),静态随机存取存储器
(SRAM),便携式光盘只读存储器(CD-ROM),数字多功能磁盘(DVD),记忆棒,软盘,机械编码设备,例如打孔卡或凹槽中的凸起结构,上面记录了指令,以及上述内容的任何合适组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号,例如无线电波或其他自由传播的电磁波,通过波导传播的电磁波或其他传输介质(例如,穿过的光脉冲)光纤电缆)或通过电线传输的电信号。
[0023]本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者通过网络(例如,互联网,局域网(LAN))下载到外部计算机或外部存储设备,广域网(WAN)和/或无线网络。该网络可以包括铜传输电缆,光传输纤维,无线传输,路由器,防火墙,交换机,网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令以存储在各个计算/处理设备内的计算机可读存储介质中。
[0024]用于执行本专利技术的操作的计算机可读程序指令可以是汇编程序指令,指令集架构(ISA)指令,机器指令,机器相关指令,微代码,固件指令,状态设置数据或任一源以一种或多种编程语言(包括诸如JavaTM,Smalltalk,C++等之类的面向对象的编程语言)以及诸如“C”编程语言或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于在数据处理系统中执行实体分辨的计算机实现的方法,所述数据处理系统包括处理设备和包含指令的存储器,所述指令由所述处理设备执行,所述方法包括:接收包含描述第一实体的第一实体特征和描述第二实体的第二实体特征的数据集;由所述处理设备使用所述第一实体特征和所述第二实体特征执行基于规则的匹配,以尝试基于一个或多个存储的规则识别所述第一实体和所述第二实体之间的关系;由所述处理设备使用所述第一实体特征和所述第二实体特征执行机器学习匹配,以尝试基于一个或多个机器学习算法识别所述第一实体和所述第二实体之间的关系;由所述处理设备基于所述基于规则的匹配以及所述机器学习匹配二者的一个或多个生成叙述输出,所述叙述输出声明所述第一实体和所述第二实体之间的识别的关系;将所述叙述输出提供给用户接口。2.根据权利要求1所述的方法,其中所述一个或多个存储的规则包括已知关系的定义,其中如果所述第一实体特征和所述第二实体特征匹配一个或多个定义,则确定所述第一实体和所述第二实体之间的所述关系。3.根据权利要求1所述的方法,其中所述一个或多个机器学习算法包括用于评级所述第一实体特征和所述第二实体特征之间相似度的算法。4.根据权利要求3所述的方法,其中生成叙述输出包括将所述相似度评级匹配给和关系相关的已知信息。5.根据权利要求1所述的方法,其中所述机器学习匹配包括应用算法以判断所述第一实体和所述第二实体具有给定关系的概率。6.根据权利要求1所述的方法,其中所述叙述输出包括定义所述第一实体和所述第二实体之间关系的文本信息和置信度分数。7.根据权利要求6所述的方法,其中所述文本信息包括多个潜在关系,并且所述置信度分数是每个潜在关系是正确的概率。8.根据权利要求1所述的方法,进一步包括:通过所述处理设备基于已知信息确定一个或多个度量以评估所述叙述输出并且基于所述一个或多个度量调整基于规则的模块、机器学习模块或者叙述模块的一个或多个。9.根据权利要求8所述的方法,其中所述一个或多个度量包括实体大小分析、置信度分数分布和置信度阻断中的一个或多个。10.根据权利要求9所述的方法,进一步包括将所述一个或多个度量提供给所述用户接口。11.一种实体分辨系统,包括处理设备和存储器,所述存储器包含指令,所述指令当被所...

【专利技术属性】
技术研发人员:卢树言马忆惠S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1