用于识别信息和重新格式化数据文件的高效数据处理及其应用制造技术

技术编号：34316620 阅读：11 留言：0更新日期：2022-07-30 23:14

本公开涉及用于识别数据文件中的人口统计信息的系统和方法。该方法可以包括：从第三方接收数据文件，数据文件包含人口统计信息的多个字段，该数据文件具有多个字段中的一个或多个字段的不一致的或误标的术语或虚假的人口统计信息；使用根据其它数据文件训练的机器学习模型来分析该数据文件，以在人口统计信息的多个字段中的每一个字段之间进行区分，该机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；生成指示人口统计信息的多个字段中的每一个被正确识别的概率的分数；以及基于所识别的类型生成标记人口统计信息的多个字段中的每一个的修订的数据文件。的多个字段中的每一个的修订的数据文件。的多个字段中的每一个的修订的数据文件。

Efficient data processing and its application for identifying information and reformatting data files

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于识别信息和重新格式化数据文件的高效数据处理及其应用

此领域总体上涉及处理信息。

技术介绍

随着技术的进步，越来越多的人口统计信息被数字化。例如，对于医疗保健提供者，人口统计信息可以包括但不限于他们的姓名、地址、专业、学历、认证等。该人口统计信息可以从各种公共数据源(例如网站)获得。这些网站可以从存储数据的基础数据库(例如州、县、城市或自治市数据库)中检索人口统计信息。例如，州可能有许可委员会，该许可委员会维护所有许可的医疗保健提供者的列表，以及它们相关联的人口统计信息。在另一个示例中，健康保险公司可以在其网络中具有列出医疗保健提供者和相关联人口统计信息的公共网站。在另一个示例中，医疗保健提供者可以自己建立公共网站，列出关于他们的诊所的这种人口统计信息。实体可能需要维护人口统计信息。例如，健康保险公司可能需要维护对所理赔的服务进行赔偿所需的医疗保健提供者的人口统计信息。为了维护人口统计信息，这些实体经常试图从提供者、医院、团体诊所等收集和整合人口统计信息。对这种信息的请求的响应通常具有低的响应率、差的格式，并且可能包括不准确的信息。例如，响应可能以未知的格式结构化，可能包括不一致或误标的标题，或者可能包括虚假信息。因此，应对响应进行审查，以验证所提供数据的内容，并将其重新格式化为一致的结构。然而，响应经常包括数百个(如果不是数千个的话)具有任何数量的不同类型的人口统计数据的条目。因此，从这些响应中手动审查和重新格式化数据可能是困难的、耗时的和昂贵的，并且通常每个文件需要数周才能完成。这些成本和时间延迟极大地增加了行...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种识别在数据文件中的人口统计信息的计算机实施的方法，包括：从第三方接收数据文件，所述数据文件包含人口统计信息的多个字段，所述数据文件具有对于所述多个字段中的一个或多个字段的不一致的或误标的术语或者虚假的人口统计信息；使用根据其它数据文件训练的机器学习模型来分析所述数据文件，以在所述人口统计信息的多个字段中的每一个字段之间进行区分，所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；生成指示出对所述人口统计信息的多个字段中的每一个字段进行了正确识别的概率的分数；以及基于所识别的类型，生成被修订的数据文件，所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个字段。2.根据权利要求1所述的方法，其中，分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的语义内容，以识别所述不同类型的所述人口统计信息。3.根据权利要求1所述的方法，其中，分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的形状，以识别所述不同类型的人口统计信息。4.根据权利要求1所述的方法，其中，分析所述数据文件包括：分析所述人口统计信息的多个字段中的每一个字段的元数据，以识别所述不同类型的人口统计信息。5.根据权利要求4所述的方法，其中，所述元数据包括所述人口统计信息的多个字段中的每一个字段的每个术语。6.根据权利要求1所述的方法，其中，响应于识别出所述人口统计信息的多个字段中的不同字段，所述方法还包括：对照已知的人口统计信息，交叉检查所述人口统计信息的多个字段中的至少一个字段。7.根据权利要求1所述的方法，还包括：将所述被修订的数据文件发送给所述第三方。8.一种用于识别数据文件中的人口统计信息的系统，包括：存储器，所述存储器存储有用于识别所述数据文件中的所述人口统计信息的指令；以及处理器，所述处理器被配置为执行所述指令，所述指令使得所述处理器：从第三方接收数据文件，所述数据文件包含人口统计信息的多个字段，所述数据文件具有对于所述多个字段中的一个或多个字段的不一致的或误标的术语或者虚假的人口统计信息；使用根据其它数据文件所训练的机器学习模型来分析所述数据文件，以在所述人口统计信息的多个字段中的每一个字段之间进行区分，所述机器学习模型基于多种机器学习算法来识别不同类型的人口统计信息；生成指示出对所述人口统计信息的多个字段中的每一个字段进行了正确识别的概率
的分数；以及基于所识别的类型，生成被修订的数据文件，所述被修订的数据文件标记所述人口统计信息的多个字段中的每一个。9.根据权利要求8所述的系统，其中，分析所述数据文件包括：分析所述...

【专利技术属性】
技术研发人员：卡洛斯，
申请(专利权)人：维达数据方案公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人