基于多源数据融合生成居民孕产模型标签方法技术

技术编号:30912673 阅读:14 留言:0更新日期:2021-11-23 00:00
本发明专利技术公开了一种基于多源数据融合生成居民孕产模型标签方法,包括:步骤1、数据汇聚分析;步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;步骤3、校验数据;步骤4、清洗数据;步骤5、融合数据;步骤6、多源数据融合成孕产模型;步骤7、基于孕产模型生成孕产标签;步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;步骤9、进行数据质量稽查。该方法能够快速发现孕妇并进行孕产跟踪和监控,降低孕产妇和围产儿死亡率,同时,便于人口信息管理,实现产妇分娩管理和核查。实现产妇分娩管理和核查。实现产妇分娩管理和核查。

【技术实现步骤摘要】
基于多源数据融合生成居民孕产模型标签方法


[0001]本专利技术涉及一种基于多源数据融合生成居民孕产模型标签方法。

技术介绍

[0002]日常孕产业务核查过程中会存在以下问题:
[0003]第一、孕产模型一数多源,编目难确权:孕产资源信息目录存在多个部门编目,每个部门信息资源项权属不清晰、数据项维护职责不明确;同时,存在一数多源情况。例如,卫健委委既有全员人口系统资源目录,又有生育登记信息、怀孕信息、出生信息、公安出生信息、卫健委委健康家庭一卡通等信息。
[0004]第二、数据标准不统一,口径不一致:多部门对孕产信息数据项以及数据标准不一致,导致数据共享交换过程中存在数据口径冲突、一数多意的问题。例如,全员人口中妊娠结果代码字典项有:活产、阴道分娩、剖宫产、妊娠终止、自然流产、12周以内人工流产、12周以上人工流产、死胎、死产、其他;而妊娠结局随访字典项有:足月活产、自然流产、人工流产、稽留流产、葡萄胎、异位妊娠、治疗性引产、低出生体重儿、早产。
[0005]第三、数据交换过程追溯机制不完善:孕产信息数据共享交换过程涉及的业务方有卫健委、公安等部门,数据业务流程长、审批环节多。同时,数据申请、审批、交换、使用过程无法追溯审计。
[0006]第四、业务协同不深入,数据不可用:业务协同处于初级阶段,存在信息孤岛、有数不能用。当前政务部门较多,孕产信息数据散落在众多信息系统中,形成一个个“数据烟囱”。以出生人口为例,统计局公布的人口出生数据,公安公布的出生且登记户籍的人口出生数据,卫健委的出生数据可能又是一个新值。
[0007]因此,急需要提供一种基于多源数据融合生成居民孕产模型标签方法来解决上述难题。

技术实现思路

[0008]本专利技术的目的是提供一种基于多源数据融合生成居民孕产模型标签方法,该方法能够快速发现孕妇并进行孕产跟踪和监控,降低孕产妇和围产儿死亡率,同时,便于人口信息管理,实现产妇分娩管理和核查。
[0009]为了实现上述目的,本专利技术提供了一种基于多源数据融合生成居民孕产模型标签方法,包括:
[0010]步骤1、数据汇聚分析;
[0011]步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;
[0012]步骤3、校验数据;
[0013]步骤4、清洗数据;
[0014]步骤5、融合数据;
[0015]步骤6、多源数据融合成孕产模型;
[0016]步骤7、基于孕产模型生成孕产标签;
[0017]步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;
[0018]步骤9、进行数据质量稽查。
[0019]优选地,步骤1包括:定义出一系列的孕产业务孕产业务数据交换规范标准,用于反应各业务应用所需要的数据结构;同时,在标准中定义数据提供方信息,记录当前数据是通过哪个业务部门、哪个业务系统请求获得;
[0020]步骤1中的数据汇聚方法包括数据录入和数据采集汇聚;其中,
[0021]数据录入为通过页面管理操作,实现孕产专项业务的录入,根据梳理的统一标准《孕产业务标准规范》对社区的孕产等信息进行模板式录入管理;
[0022]数据采集汇聚为对接各业务部门信息平台,通过调研分析梳理的信息系统,利用向导式的操作使用数据人工智能机器人将该单位现有系统的数据导出后,再根据数据导入标准进行底数仓库数据导入。
[0023]优选地,在步骤2中,
[0024]汇聚生育登记信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即新办证系统中的生育登记管理;其次,每天获取的增加数据判断依据为申请日期,其中,开始日期为当前时间减7天,结束日期为当前时间天;
[0025]汇聚怀孕信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的怀孕信息查询;其次,每天获取的增加数据判断依据为妊娠日期,其中,开始日期为当前时间减1 年,结束日期为当前时间天;
[0026]汇聚出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的出生信息查询;其次,每天获取的增加数据判断依据为出生日期,其中,开始日期为当前时间减半年,结束日期为当前时间天;
[0027]汇聚卫健委/公安出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX 数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
[0028]汇聚户籍信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;
[0029]汇聚出生医学证明信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的PSN_BIRTH_CERTIFICATE_INFO 数据表中的所有字段;其次,每天获取的增加数据判断依据为更新时间,即当前时间减1天。
[0030]优选地,在步骤3中:
[0031]数据校验从校验对象细粒度维度分析,针对孕情专项数据,校验模块进行数据唯一性检查和外键完整性检查;数据校验内容包括类型、长度、是否为空、精度、范围、格式等信息,如果数据不符合,则进行过滤;同时,对于错误的数据,进行错误数据输出,包括错误原因和错误字段序号;
[0032]在发生数据汇聚时,各业务部门采集汇聚的数据向基层社区底数仓库传入要校验的数据条目信息,数据底座校验该条目信息是否吻合一致,如果一致相符,则返回对比成功;否则,返回比对错误,并将各业务部门采集汇聚准确的信息返回给自动取数模块;在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入;如果不一致,则用最新的数据覆盖不一致信息。
[0033]优选地,步骤4中的数据清洗为对人工智能采集汇聚机器人抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等功能,用于进行不一致的数据转换、数据粒度的转换、数据去脏和转换规则的计算;其中,不符合要求的数据包括残缺数据、错误数据和重复数据;
[0034]针对残缺数据,对其进行数据过滤并根据业务属性使用算法或者人工关联进行必要补齐;
[0035]针对错误数据,如是数值数据输成全角数字字符或数据前后有不可见字符的问题,通过写SQL语句的方式找出来,使用算法进行尝试修复;如是日期格式不正确或日期越界,则需要先核实后修复;
[0036]针对重复数据,对每个从源业务系统中数据,按照表的主键、识别主体,对主键字段重复、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源数据融合生成居民孕产模型标签方法,其特征在于,包括:步骤1、数据汇聚分析;步骤2、根据业务分析需要汇聚生育登记信息、怀孕信息、出生信息、卫健委/公安出生信息、户籍信息和出生医学证明信息;步骤3、校验数据;步骤4、清洗数据;步骤5、融合数据;步骤6、多源数据融合成孕产模型;步骤7、基于孕产模型生成孕产标签;步骤8、基于多源数据融合智能标签生成对怀孕标签进行使用;步骤9、进行数据质量稽查。2.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤1包括:定义出一系列的孕产业务孕产业务数据交换规范标准,用于反应各业务应用所需要的数据结构;同时,在标准中定义数据提供方信息,记录当前数据是通过哪个业务部门、哪个业务系统请求获得;步骤1中的数据汇聚方法包括数据录入和数据采集汇聚;其中,数据录入为通过页面管理操作,实现孕产专项业务的录入,根据梳理的统一标准《孕产业务标准规范》对社区的孕产等信息进行模板式录入管理;数据采集汇聚为对接各业务部门信息平台,通过调研分析梳理的信息系统,利用向导式的操作使用数据人工智能机器人将该单位现有系统的数据导出后,再根据数据导入标准进行底数仓库数据导入。3.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤2中,汇聚生育登记信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即新办证系统中的生育登记管理;其次,每天获取的增加数据判断依据为申请日期,其中,开始日期为当前时间减7天,结束日期为当前时间天;汇聚怀孕信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的怀孕信息查询;其次,每天获取的增加数据判断依据为妊娠日期,其中,开始日期为当前时间减1年,结束日期为当前时间天;汇聚出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即全员人口业务中的全员业务查询中的出生信息查询;其次,每天获取的增加数据判断依据为出生日期,其中,开始日期为当前时间减半年,结束日期为当前时间天;汇聚卫健委/公安出生信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所名称;汇聚户籍信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的GZK_SC_WJW_GACSDJXX数据表中的所有字段;其次,每天获取的增加数据判断依据为数据写入时间,即当前时间减1天;出生登记类型为出生登记并上报派出所
名称;汇聚出生医学证明信息的汇聚加载策略为增量追加,汇聚逻辑为:首先,汇聚数据所在位置,即大数据中心数据库中的PSN_BIRTH_CERTIFICATE_INFO数据表中的所有字段;其次,每天获取的增加数据判断依据为更新时间,即当前时间减1天。4.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,在步骤3中:数据校验从校验对象细粒度维度分析,针对孕情专项数据,校验模块进行数据唯一性检查和外键完整性检查;数据校验内容包括类型、长度、是否为空、精度、范围、格式等信息,如果数据不符合,则进行过滤;同时,对于错误的数据,进行错误数据输出,包括错误原因和错误字段序号;在发生数据汇聚时,各业务部门采集汇聚的数据向基层社区底数仓库传入要校验的数据条目信息,数据底座校验该条目信息是否吻合一致,如果一致相符,则返回对比成功;否则,返回比对错误,并将各业务部门采集汇聚准确的信息返回给自动取数模块;在向业务部门数据同步时,数据校验用于比对导入数据和业务部门数据的一致性,如果一致,则不需要重复导入;如果不一致,则用最新的数据覆盖不一致信息。5.根据权利要求1所述的基于多源数据融合生成居民孕产模型标签方法,其特征在于,步骤4中的数据清洗为对人工智能采集汇聚机器人抽取过来的数据进行清洗处理,包括数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并...

【专利技术属性】
技术研发人员:承孝敏赵勇水新莹
申请(专利权)人:长三角信息智能创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1