用于识别信息和重新格式化数据文件的高效数据处理及其应用制造技术

技术编号:34316620 阅读:11 留言:0更新日期:2022-07-30 23:14
本公开涉及用于识别数据文件中的人口统计信息的系统和方法。该方法可以包括:从第三方接收数据文件,数据文件包含人口统计信息的多个字段,该数据文件具有多个字段中的一个或多个字段的不一致的或误标的术语或虚假的人口统计信息;使用根据其它数据文件训练的机器学习模型来分析该数据文件,以在人口统计信息的多个字段中的每一个字段之间进行区分,该机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息;生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数;以及基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。的多个字段中的每一个的修订的数据文件。的多个字段中的每一个的修订的数据文件。

Efficient data processing and its application for identifying information and reformatting data files

【技术实现步骤摘要】
【国外来华专利技术】用于识别信息和重新格式化数据文件的高效数据处理及其应用


此领域总体上涉及处理信息。

技术介绍

随着技术的进步,越来越多的人口统计信息被数字化。例如,对于医疗保健提供者,人口统计信息可以包括但不限于他们的姓名、地址、专业、学历、认证等。该人口统计信息可以从各种公共数据源(例如网站)获得。这些网站可以从存储数据的基础数据库(例如州、县、城市或自治市数据库)中检索人口统计信息。例如,州可能有许可委员会,该许可委员会维护所有许可的医疗保健提供者的列表,以及它们相关联的人口统计信息。在另一个示例中,健康保险公司可以在其网络中具有列出医疗保健提供者和相关联人口统计信息的公共网站。在另一个示例中,医疗保健提供者可以自己建立公共网站,列出关于他们的诊所的这种人口统计信息。实体可能需要维护人口统计信息。例如,健康保险公司可能需要维护对所理赔的服务进行赔偿所需的医疗保健提供者的人口统计信息。为了维护人口统计信息,这些实体经常试图从提供者、医院、团体诊所等收集和整合人口统计信息。对这种信息的请求的响应通常具有低的响应率、差的格式,并且可能包括不准确的信息。例如,响应可能以未知的格式结构化,可能包括不一致或误标的标题,或者可能包括虚假信息。因此,应对响应进行审查,以验证所提供数据的内容,并将其重新格式化为一致的结构。然而,响应经常包括数百个(如果不是数千个的话)具有任何数量的不同类型的人口统计数据的条目。因此,从这些响应中手动审查和重新格式化数据可能是困难的、耗时的和昂贵的,并且通常每个文件需要数周才能完成。这些成本和时间延迟极大地增加了行政开销费用,占美国医疗保险费的三分之一。因此,需要通过使昂贵的行政任务自动化从而消除手动数据格式化并减少浪费的支出,改进审查和将这些响应重新格式化为有效格式的系统和方法。

技术实现思路

在一个实施例中,本公开涉及一种识别数据文件中人口统计信息的方法。该方法可以包括从第三方接收数据文件,数据文件包含人口统计信息的多个字段。数据文件可能包括多个字段中的一个或多个字段的不一致或误标的术语或虚假的人口统计信息。该方法还可以包括使用根据其它数据文件训练的机器学习模型来分析数据文件,以在人口统计信息的多个字段中的每一个字段之间进行区分。机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。该方法还可以包括生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数。该方法还可以包括基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。还公开了系统和计算机程序产品实施例。
下文参照附图详细描述了本专利技术的其它实施例、特征和优点,以及各种实施例的结构和操作。
附图说明
并入本文中并构成说明书一部分的附图示出了本公开,并与说明书一起进一步用于解释本公开的原理,并使相关领域的技术人员能够做出和使用本公开。图1示出了根据本公开的方面的一个或多个数据源与系统之间的通信网络图。图2示出了根据本公开的方面用于审查和重新格式化来自一个或多个数据源的数据文件的系统的图。图3

5B示出了根据本公开的方面,从一个或多个数据源接收的示例数据文件。图6示出了根据本公开的方面的示例修订的数据文件。图7示出了根据本公开的方面,对来自数据源的数据进行重新格式化的方法。图8为用于实施各种实施例的示例计算机系统。元件首次出现的附图通常由相对应附图标记中最左边的一个或多个数字表示。在附图中,相似的附图标记可以表示相同或功能相似的元件。
具体实施方式
实施例提供了检查和重新格式化数据文件的方法,数据文件包括对于人口统计信息的多个字段中的一个或多个字段不一致或误标的术语或虚假人口统计信息,这将需要对每个文件进行数周的手动审查和重新格式化。例如,实施例可以使用根据其它数据文件训练的机器学习模型来分析数据文件,以在人口统计信息的多个字段中的每一个字段之间进行区分。机器学习模型可以基于多种机器学习算法来识别不同类型的人口统计信息。例如,分析数据文件可以基于人口统计信息的语义内容、人口统计信息的形状或元数据中的一个或多个的组合。这样,实施例提供了识别不同类型的人口统计数据的能力。实施例还可以生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数。实施例还可以基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。例如,可以基于提供原始数据文件的第三方的要求来格式化修订的数据文件。换句话说,修订的数据文件可以基于对重新结构化的数据的个别请求而可完全定制。因此,实施例提供了有效且高效地生成对第三方最有用的格式的数据文件的能力。此外,本公开可实施多种机器学习算法与规则的组合,从而改进计算设备的功能。即,机器学习算法与规则的组合避免了机器学习模型的过度训练和过度复杂化,从而减少了生成重新格式化的数据文件所需的资源量,例如处理消耗和存储器资源。此外,在一些方面,本公开可以基于数据文件的采样部分而不是整个数据文件智能地识别不同类型的人口统计信息,整个数据文件可能包括数百个(如果不是数千个的话)条目。通过基于采样部分识别不同类型的人口统计信息,本公开可以进一步减少生成重新格式化的数据文件所需的资源量。在以下详细说明中,对“一个实施例”、“实施例”、“示例实施例”等的提及指示所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例不一定包括特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合实施例描述特定特征、结构或
特性时,认为结合其它实施例实现这种特征、结构或特性在本领域技术人员的知识范围内,无论是否明确描述。图1是一个或多个数据源105与系统115之间通过网络110进行通信的网络100的示意图。在一些实施例中,一个或多个数据源105可以是维护一个或多个个人的人口统计信息的数据库的任何数据源,个人例如是医疗保健提供者,包括但不限于医生、牙医、医师助理、执业护士、护士等。尽管本公开将个人描述为医疗保健提供者,但是本领域普通技术人员应该理解,本公开可以从任何数据源累积数据来实施。在一些实施例中,数据源105可以被托管在能够经由网络110通信的服务器(例如主机服务器、web服务器、应用服务器等),数据中心设备或类似设备上。在某些情况下,一个或多个数据源105可包括医疗补助和医疗保险中心(CMS)服务数据源、目录数据源、药品执行机构(DEA)数据源、公共数据源、国家提供者标识符(NPI)数据源、注册数据源和/或理赔数据源。CMS数据源可以是由政府机构提供的数据服务。数据库可能是分布式的,不同的机构组织可能负责CMS数据源中存储的不同数据。CMS数据源还可以包括关于医疗保健提供者的数据,例如合法可用的人口统计信息和理赔信息。CMS数据源也可允许提供者在医疗保险提供者登记系统中登记和更新其信息,并注册和协助医疗保险和医疗补助电子健康记录(EHR)激励计划。目录数据源可以是医疗保健提供者的目录。在一个示例中,目录数据源可以是专有目录,其将医疗保健提供者与特定客户端认为真实的人口统计和行为属性相匹配。例如,目录数据源可能属于保险公司或健康系统,并且只有在公司同意的情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别在数据文件中的人口统计信息的计算机实施的方法,包括:从第三方接收数据文件,所述数据文件包含人口统计信息的多个字段,所述数据文件具有对于所述多个字段中的一个或多个字段的不一致的或误标的术语或者虚假的人口统计信息;使用根据其它数据文件训练的机器学习模型来分析所述数据文件,以在所述人口统计信息的多个字段中的每一个字段之间进行区分,所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息;生成指示出对所述人口统计信息的多个字段中的每一个字段进行了正确识别的概率的分数;以及基于所识别的类型,生成被修订的数据文件,所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个字段。2.根据权利要求1所述的方法,其中,分析所述数据文件包括:分析所述人口统计信息的多个字段中的每一个字段的语义内容,以识别所述不同类型的所述人口统计信息。3.根据权利要求1所述的方法,其中,分析所述数据文件包括:分析所述人口统计信息的多个字段中的每一个字段的形状,以识别所述不同类型的人口统计信息。4.根据权利要求1所述的方法,其中,分析所述数据文件包括:分析所述人口统计信息的多个字段中的每一个字段的元数据,以识别所述不同类型的人口统计信息。5.根据权利要求4所述的方法,其中,所述元数据包括所述人口统计信息的多个字段中的每一个字段的每个术语。6.根据权利要求1所述的方法,其中,响应于识别出所述人口统计信息的多个字段中的不同字段,所述方法还包括:对照已知的人口统计信息,交叉检查所述人口统计信息的多个字段中的至少一个字段。7.根据权利要求1所述的方法,还包括:将所述被修订的数据文件发送给所述第三方。8.一种用于识别数据文件中的人口统计信息的系统,包括:存储器,所述存储器存储有用于识别所述数据文件中的所述人口统计信息的指令;以及处理器,所述处理器被配置为执行所述指令,所述指令使得所述处理器:从第三方接收数据文件,所述数据文件包含人口统计信息的多个字段,所述数据文件具有对于所述多个字段中的一个或多个字段的不一致的或误标的术语或者虚假的人口统计信息;使用根据其它数据文件所训练的机器学习模型来分析所述数据文件,以在所述人口统计信息的多个字段中的每一个字段之间进行区分,所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息;生成指示出对所述人口统计信息的多个字段中的每一个字段进行了正确识别的概率
的分数;以及基于所识别的类型,生成被修订的数据文件,所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个。9.根据权利要求8所述的系统,其中,分析所述数据文件包括:分析所述...

【专利技术属性】
技术研发人员:卡洛斯
申请(专利权)人:维达数据方案公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1