一种实验数据治理和管理的方法技术

技术编号:25552258 阅读:45 留言:0更新日期:2020-09-08 18:52
本发明专利技术提供一种实验数据治理和管理的方法,属于数据处理技术领域,本发明专利技术通过网络爬虫技术将试验登记公示信息采集后,按照其业务逻辑进行数据拆分,然后将它们重新组合为结构化的数据后存储到到关系型数据库中;同时具有数据操作权限的用户结合其专业知识对试验数据进行初步拆解结构化;通过结构化和标准化对试验数据进行治理后,为患者招募提供高效数据对接,充分发挥数据价值。

【技术实现步骤摘要】
一种实验数据治理和管理的方法
本专利技术涉及数据处理技术,尤其涉及一种实验数据治理和管理的方法。
技术介绍
任何应用系统都离不开对数据的处理,数据也是驱动业务创新以及向智能化发展最核心的东西。这也是为何目前大多数企业都在构建数据中台的原因,数据处理的技术已经是核心竞争力。在一个完备的技术架构中,通常也会由应用系统以及数据系统构成。应用系统负责处理业务逻辑,而数据系统负责处理数据。数据结构化是数据库系统与文件系统的根本区别。在文件系统中,独立文件内部的数据一般是有结构的,但文件之间不存在联系,因此从数据的整体来说是没有结构的。数据库系统虽然也常常分成许多单独的数据文件,并且文件内部也具有完整的数据结构,但是它更注意同一数据库中各数据文件之间的相互联系。传统模式存在病历不足和入排标准解读慢匹配效率低等主要问题,基于上述背景,需要分别解决院内病历和试验入排标准的问题;但是目前的数据采集和处理上仍有很大问题,以至于数据不能很好的对接。
技术实现思路
为了解决以上技术问题,本专利技术提供了一种对数据保存、表格在线编辑及对入排标准数据进行结构化处理的方法,通过结构化和标准化对试验数据进行治理后,提供高效数据对接,充分发挥数据价值,解决试验入排标准面临的问题。本专利技术的技术方案是:一种实验数据治理和管理的方法,包括如下步骤:1)验数据保存;2)表格在线编辑;3)对入排标准数据进行结构化。进一步的,通过网络爬虫技术将试验登记公示信息采集后,按照其业务逻辑进行数据拆分,然后将它们重新组合为结构化的数据后存储到到关系型数据库中;同时具有数据操作权限的用户对数据进行初步拆解结构化。进一步的,通过使用网络爬虫技术,将数据采集,经过清洗后并存储到关系型数据库,然后进行数据结构化管理和维护,初次爬取对数据源全量数据进行采集,如果数据有变化,则通过逐条对比全字段是否有某些字段值的变化,如有变化则增量更新。进一步的,爬取方式分类两种:一种是设置周期时间进行自动化定时采集;一种是手动立即爬取;在数据爬取过程中进行操作,采用正则表达式的方式,根据网页结构的规则、节点属性便可从中提取网页信息,经过清洗后持久化存储到数据库中。进一步的,基于角色的访问权限控制模型,赋予用户的操作权限,对不同的人访问资源进行权限的控制。依据已经治理好的标准字典数据进行部分编辑和维护及可视化展示的操作。进一步的,可通过在线编辑实现对数据等内容进行在线编辑修改,让用户在网站上获得“所见即所得”效果,一个以上的人同时编辑时,通过监控数据变化实时推送更新到客户端,对比修改状态的变化情况。实时查看、展现数据库实时的视图;查看详细的变化状况,实现对数个用户对数据并发操作的统一管理。进一步的,入排标准数据结构化是将采集入库后的数据中的入排标准数据部分进行初步结构化处理,将原有的文本数据归一化字典的方式拆解为指标和值的形式,并维护其指标间逻辑关系,满足数据查询要。本专利技术的有益效果是本专利技术提供了药物临床实验数据的可视化展示,可多人在线协作编辑数据,保证数据操作的完整性,实现了自动化采集数据,大大减少了人工重复性的工作,解决了入排标准解读慢匹配效率低等主要问题,并解决了医院内电子病历的数据快速查询和高效匹配。附图说明图1是本专利技术的数据治理和管理流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种采集、存储、治理和管理试验数据的方法,该方法通过爬虫采集临床试验登记公示信息(简称CTR)后,将患者招募的入排标准通过拆解、标准化后,形成结构化的入排条件,根据其结构化入排条件,满足患者数据高效快速结构化数据查询要求,为患者招募提供高质量的患者疾病数据队列。通过网络爬虫技术将试验登记公示信息采集后,按照其业务逻辑进行数据拆分,然后将它们重新组合为结构化的数据后存储到到关系型数据库中;同时具有数据操作权限的用户结合其专业知识对试验数据进行初步拆解结构化。爬取方式分类两种:一种是设置周期时间进行自动化定时采集;一种是手动立即爬取。在数据爬取过程中进行各种异常处理,错误重试等操作,采用正则表达式的方式,根据网页结构的规则、节点属性便可高效快速的从中提取网页信息,经过清洗后持久化存储到数据库中,使杂乱的数据变得条理清晰,以便我们后续处理和分析数据。基于角色的访问权限控制(RBAC)模型,赋予用户的操作权限,主要目的是对不同的人访问资源进行权限的控制,避免因权限控制缺失或操作不当引发的风险问题,如操作错误,隐私数据泄露等问题。依据已经治理好的标准字典数据:如手术、诊断,检查,检验,药品等可进行部分编辑和维护及可视化展示的操作。用户可通过在线编辑实现对文本等数据等内容进行在线编辑修改,让用户在网站上获得“所见即所得”效果,多人同时编辑时为了确保数据的完整性,我们通过监控数据变化实时推送更新到客户端,对比修改状态的变化情况。实时查看、展现数据库实时的视图;查看详细的变化状况,实现多个用户对数据并发操作的统一管理。完美解决多人编辑后会造成表格数据的混乱,甚至数据相互重叠覆盖的问题。入排标准数据结构化是将采集入库后的药物实验数据中的入排标准数据部分进行初步结构化处理,将原有的文本数据结合手术、诊断,检查,检验,药品等归一化字典的方式拆解为指标和值的形式,并维护其指标间逻辑关系,满足数据查询要求。本专利技术通过“定时采集+数据拆解+实时更新”的方式实现药物实验数据的定时增量采集。实时更新方式是基于websocket通讯技术。通过“爬虫”的方式对互联网网站的定时爬取及数据的检验、清洗处理。可采用用户结合专业领域知识将清洗后的数据根据具体条件拆解为结构化数据。利用websocket+多线程的方式,实现了服务端与客户端实时通讯,对每个在线用户开启一个线程单独处理及操作,同时会保证数据操作的一致性、完整性。把重复性、手工做的工作尽可能降到最低,并且实现对试验登记公示信息数据中入排标准数据的结构化,管理人员可在数据管理平台结合字典对入排标准进行拆解操作;已结构化的入排标准将用于与医院内电子病历的数据查询和高效匹配。以上所述仅为本专利技术的较佳实施例,仅用于说明本专利技术的技术方案,并非用于限定本专利技术的保护范围。凡在本专利技术的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本专利技术的保护范围内。本文档来自技高网...

【技术保护点】
1.一种实验数据治理和管理的方法,其特征在于,/n1)验数据保存;/n2)表格在线编辑;/n3)对入排标准数据进行结构化。/n

【技术特征摘要】
1.一种实验数据治理和管理的方法,其特征在于,
1)验数据保存;
2)表格在线编辑;
3)对入排标准数据进行结构化。


2.根据权利要求1所述的方法,其特征在于,
通过网络爬虫技术将试验登记公示信息采集后,按照其业务逻辑进行数据拆分,然后将它们重新组合为结构化的数据后存储到到关系型数据库中;同时具有数据操作权限的用户对数据进行初步拆解结构化。


3.根据权利要求2所述的方法,其特征在于,
通过使用网络爬虫技术,将数据采集,经过清洗后并存储到关系型数据库,然后进行数据结构化管理和维护,初次爬取对数据源全量数据进行采集,如果数据有变化,则通过逐条对比全字段是否有某些字段值的变化,如有变化则增量更新。


4.根据权利要求3所述的方法,其特征在于,
爬取方式分类两种:一种是设置周期时间进行自动化定时采集;一种是手动立即爬取。


5.根据权利要求4所述的方法,其特征在于,
在数据爬取过程中进行操作,采用正则表达式的方式,根据网页结构的规则、节点属性便可从中提取网页信...

【专利技术属性】
技术研发人员:刘昊东刘壮
申请(专利权)人:山东健康医疗大数据有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1