使用神经网络的验证模型制造技术

技术编号:24218739 阅读:19 留言:0更新日期:2020-05-20 20:30
提供了一种用于基于接收到的用户数据生成搜索查询以使用该搜索查询来执行互联网搜索的系统和方法。该系统和方法进一步从来自使用搜索查询的互联网搜索的互联网搜索结果中提取数据,从所提取的数据中生成互联网搜索收入记录,从包括收入记录的一个或多个数据库中生成收入记录,以及将互联网搜索收入记录和从一个或多个数据库生成的收入记录进行组合以形成组合的收入记录结果。该系统和方法进一步从组合的收入记录结果中标识候选收入记录,从每个候选收入记录中提取特征以用于生成收入预测,以及基于从候选收入记录中提取的特征,使用用以预测收入的机器学习模型来生成收入预测。

Verification model using neural network

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的验证模型相关申请的交叉引用本申请要求于2018年7月24日提交的美国专利申请序列号16/043,752的优先权的权益,其要求于2017年8月4日提交的美国临时专利申请序列号62/541,132的优先权的权益,这些专利申请都通过引用整体并入本文。
技术介绍
收入验证是在给定诸如人的姓名、位置、职称和雇主之类的基本身份信息的情况下证实该人的申报收入的问题。其被广泛用于抵押贷款、租赁申请和其他金融风险模型的上下文中。然而,当前围绕验证的过程涉及大量的人力和文档收集,这既耗时又昂贵。附图说明附图中的各个附图仅图示了本公开的示例实施例,并且不应被认为是对其范围的限制。图1是图示了根据一些示例实施例的联网系统的框图。图2是图示了根据一些示例实施例的一个示例收入验证系统的框图。图3是图示了根据一些示例实施例的另一示例收入验证系统的框图。图4是图示了根据一些示例实施例的又一示例收入验证系统的框图。图5是图示了根据一些示例实施例的用于生成收入预测的方法的各方面的流程图。图6是图示了根据一些示例实施例的可以被安装在机器上的软件架构的示例的框图。图7图示了根据示例实施例的以计算机系统的形式的机器的图解表示,在该机器中,指令集可以被执行以使机器执行本文所讨论的方法中的任何一个或多个方法。具体实施方式本文描述的示例系统和方法涉及利用深度神经网络的收入验证。如上面以示例方式所解释的那样,收入验证包括在诸如姓名、位置、职称和雇主之类的基本身份信息的情况下证实人的申报收入的挑战。其被广泛用于抵押贷款、租赁申请和其他金融风险模型的上下文中。然而,当前围绕验证的过程涉及大量的人力和文档收集,这既耗时又昂贵。此外,收集和传播收入信息的在线资源已经越来越多(例如,Payscale、Glassdoor等)。该推动的主要原因在于私有和公共机构都需要支付透明度和问责制。在一些情况下,诸如政府来源,薪水和奖金数据的估计是可用的。其他来源从愿意报告这种信息的个体收集薪酬细节,并仅公开针对个体收入组成部分的匿名范围。示例实施例包括利用这样的资源来改进收入验证的系统。示例实施例描述了一种新颖的模型,该模型用于在贷款申请中通常可用的非常有限的身份信息的情况下验证个体的收入。该模型是深度神经网络和手工设计特征的组合。手工设计特征是基于将输入信息与从各种可公开获得的在线资源(例如H-1B文件、政府雇员薪水等)自动提取的收入记录进行匹配。实验是在两个数据集上进行的,一个数据集是从H-1B记录模拟的,而另一数据集来自从世界上最大的P2P贷款平台获得的对等(P2P)贷款申请的真实数据集。实验结果表明,相对于若干强基线,错误显著降低了3-6%。还执行了消融研究,以证明组合的模型可以被用来实现此任务的最新性能。本文描述的实施例所解决的一个技术问题是收入验证的问题。例如,给定一个人的基本身份(例如,姓名、出生日期)、当前的就业信息(职称、公司、位置)和申报收入,示例实施例可以在某阈值内准确地证实该给定个体的收入。在一个实施例中,收入被定义为一年中诸如底薪和奖金的收益之和。在一个实施例中,不包括租金、股票奖励、利息支付、股息支付和其他形式的收入。然而,应当理解,其他形式的收入可以被包括在其他实施例中。此外,使用贷款申请的示例来描述示例实施例。应当理解,示例实施例可以在其他用例场景中被用于收入验证。收入验证的最重要的用例之一是在贷款申请期间区分信誉良好的用户和欺诈性的用户。若干近来的发薪日贷款和对等贷款公司提供即时的预批准贷款,其由可以准确评估申请所涉及的风险的幕后模型提供支持。个体的被证实的收入是这些风险模型的重要特征。银行和贷款机构需要以成本有效和时间高效的方式进行这些检查。收入验证系统的主要组成部分是来自给定输入身份的收入预测。示例实施例利用互联网(例如web)上公共可用的数据源的能力来解决预测问题。术语“互联网”、“web”和“公共web”在本文中可互换使用。使用公共资源和公共web面临许多技术挑战。一个挑战是如何从web文档和数据库记录的结构化的和非结构化的源中搜索、提取和匹配数据。示例实施例构建查询以获取web文档和数据库记录的候选集,从结构化的和非结构化的源中提取数据,并且过滤这些源,仅剩与输入身份最匹配的那些源。另一挑战是由用户在web上输入的部分信息。一个示例是公司的缩写和备选名称。例如,“美国邮政服务”可以被表示为“USPS”、“U.S.P.S.”等。示例实施例提供了标识这些都是相同实体的方法。另一技术挑战是web上的错误数据,因为并非web上的所有资源都是准确的。例如,一些web资源歪曲了薪水信息或已过时。示例实施例描述了解决一些或所有这些问题的稳健系统。首先,在线搜索解决方案使用算法来利用重型搜索引擎披露各个域上的薪水内容。例如,所披露的内容包括若干域,诸如https://transparentcalifornia.com/、https://www.fedsdatacenter.com/usps-pay-rates/等。示例实施例还包括大量这些域的离线爬取和内部数据库的直接搜索。这些域中的每个域都带来了不同的提取挑战。例如,在一些情况下,需要从非结构化文本中提取内容,而在其他情况下,本文所述的系统可以直接使用定制的包装器。其次,为了解决部分信息的问题(无论是在输入中还是在web上),示例实施例“扩展”了身份的范围。例如,示例实施例可以从公司推断出行业,并且可以从职称和可能存在的出生日期推断出经验等级,并且然后将搜索广义化到给定的职位和行业。最后,为了解决web上可能不正确的信息的问题,示例实施例包括构建一种模型,该模型聚集跨若干域的薪水范围,并且然后通过考虑(a)发生频率、(b)来源可信度、和(c)输入与每个来源之间的身份匹配强度来计算一个统一的范围。本文描述的实施例可以被用于各种各样的应用中。在一个示例中,示例实施例可以在在线市场中被使用。图1是图示了根据一些示例实施例的联网系统100的框图。系统100包括一个或多个客户端设备,诸如客户端设备110。客户端设备110可以包括但不限于移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板电脑、超级本、上网本、笔记本电脑、多处理器系统、基于微处理器的或可编程的消费电子系统、游戏机、机顶盒、车辆中的计算机、或用户可以利用来访问联网系统100的任何其他通信设备。在一些实施例中,客户端设备110包括显示模块(未示出)以显示信息(例如,以用户界面的形式)。在进一步的实施例中,客户端设备110包括触摸屏、加速度计、陀螺仪、相机、麦克风、全球定位系统(GPS)设备等中的一个或多个。客户端设备110可以是被用来请求和接收预订信息、住宿信息、贷款信息、收入验证等的用户设备。一个或多个用户106可以是与客户端设备110进行交互的人、机器或其他装置。在示例实施例中,用户106可以不是系统100的一部分,但是可以经由客户端设备110或其他装置与本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n由计算系统接收用户数据,所述用户数据包括用户姓名、用户雇主、用户职位和用户薪水;/n由所述计算系统基于所述用户数据生成搜索查询,以使用所述搜索查询执行互联网搜索;/n从来自使用所述搜索查询的所述互联网搜索的互联网搜索结果中提取数据;/n从所提取的所述数据中生成互联网搜索收入记录;/n基于所述用户数据从包括收入记录的一个或多个数据库中生成收入记录;/n将所述互联网搜索收入记录和从所述一个或多个数据库中生成的所述收入记录进行组合,以形成组合的收入记录结果;/n从所述组合的收入记录结果中标识候选收入记录;/n从每个候选收入记录中提取特征以用于生成收入预测;/n基于从所述候选收入记录中提取的所述特征,使用用以预测收入的机器学习模型来生成所述收入预测;以及/n向一个或多个计算设备提供所述收入预测。/n

【技术特征摘要】
【国外来华专利技术】20170804 US 62/541,132;20180724 US 16/043,7521.一种方法,包括:
由计算系统接收用户数据,所述用户数据包括用户姓名、用户雇主、用户职位和用户薪水;
由所述计算系统基于所述用户数据生成搜索查询,以使用所述搜索查询执行互联网搜索;
从来自使用所述搜索查询的所述互联网搜索的互联网搜索结果中提取数据;
从所提取的所述数据中生成互联网搜索收入记录;
基于所述用户数据从包括收入记录的一个或多个数据库中生成收入记录;
将所述互联网搜索收入记录和从所述一个或多个数据库中生成的所述收入记录进行组合,以形成组合的收入记录结果;
从所述组合的收入记录结果中标识候选收入记录;
从每个候选收入记录中提取特征以用于生成收入预测;
基于从所述候选收入记录中提取的所述特征,使用用以预测收入的机器学习模型来生成所述收入预测;以及
向一个或多个计算设备提供所述收入预测。


2.根据权利要求1所述的方法,其中在接收到所述用户数据之后,所述方法还包括:
标准化所述用户数据以符合用于所述用户姓名、所述用户雇主、所述用户职位和所述用户薪水的标准格式。


3.根据权利要求1所述的方法,其中标识所述候选收入记录包括:
将所述组合的收入记录结果中的每个收入记录与所述用户数据进行比较;
确定针对所述组合的收入记录结果中的每个收入记录的相似性分数;以及
基于针对所述组合的收入记录结果中的每个收入记录的所述相似性分数,从所述组合的收入记录结果中选择预定数目的候选收入记录以用于生成所述收入预测。


4.根据权利要求3所述的方法,还包括:
丢弃所述组合的收入记录结果中具有低于预定阈值的相似性分数的任何收入记录。


5.根据权利要求3所述的方法,其中所提取的所述特征包括针对每个候选收入记录的所述相似性分数和薪水范围。


6.根据权利要求5所述的方法,其中所述薪水范围包括最低薪水额、中值薪水额和最高薪水额。


7.根据权利要求1所述的方法,其中所述收入预测是第一收入预测,并且所述机器学习模型是第一机器学习模型,并且所述方法还包括:
从标准化的所述用户数据中生成职位向量、雇主向量和州向量;
使用所述职位向量、所述雇主向量和所述州向量,使用用以预测收入的第二机器学习模型来生成第二收入预测;以及
使用所述第一收入预测和所述第二收入预测,使用第三机器学习模型来生成组合的收入预测。


8.根据权利要求1所述的方法,其中从所提取的所述数据中生成所述互联网搜索收入记录还包括:标准化所述互联网搜索收入记录以符合所述标准格式。


9.根据权利要求1所述的方法,其中基于所述用户数据从包括收入记录的所述一个或多个数据库中生成所述收入记录包括:
基于所述用户数据生成第二搜索查询;以及
根据所述第二搜索查询的结果从所述一个或多个数据库中生成所述收入记录。


10.根据权利要求9所述的方法,其中根据所述第二搜索查询的所述结果从所述一个或多个数据库中生成所述收入记录还包括:标准化来自所述一个或多个数据库的所述收入记录以符合所述标准格式。


11.一种系统,包括:
存储器,所述存储器存储指令;以及
一个或多个处理器,所述一个或多个处理器由所述指令配置为执行操作,所述操作包括:
接收用户数据,所述用户数据包括用户姓名、用户雇主、用户职位和用户薪水;
基于所述用户数据生成搜索查询,以使用所述搜索查询执行互联网...

【专利技术属性】
技术研发人员:C·玛哈帕特拉K·贝拉雷
申请(专利权)人:空中食宿公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1