System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种不良反应公共数据库数据的快速清洗方法技术_技高网

一种不良反应公共数据库数据的快速清洗方法技术

技术编号:40563020 阅读:12 留言:0更新日期:2024-03-05 19:26
本发明专利技术公开了一种不良反应公共数据库数据的快速清洗方法,具体涉及数据处理领域,是针对获取的原始数据,进行解构和预处理后,构建不良反应初始数据库和本体映射数据库。通过数据映射与标准化,将不良反应初始数据库与药物映射库、医学术语映射库对比、映射,并对未映射的其他变量数据进行标准化处理。全变量数据整合后,建立通用数据模型,计算药物与不良反应相关性,获取信号值。进行特征分析,整合数据并导入指定数据库,形成公共数据库信号及群体特征分析结果数据库。这一过程有助于提高清洗效率、准确度,同时提高数据的统一度和标准程度。能够满足海量数据快速统一标准化的清洗需求,减少人工介入,提高清洗效率和数据质量。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,更具体地说,本专利技术涉及一种不良反应公共数据库数据的快速清洗方法


技术介绍

1、不良反应公共数据库收集到的数据通常来自不同的来源,例如患者、医疗人员、医院、药企、药店、实验机构、律师等,数据格式和质量存在差异。不同的公共数据库所使用的数据格式、数据标准、语言编码也具有很大差异,这导致了数据清洗的挑战,需要统一数据格式、处理缺失值、解决命名不一致等问题,以确保数据的一致性和可用性。其次,药品不良反应现象及其相关数据是一个不断变化的领域,新的药品不良反应事件不断出现,相应的数据也不断更新,因此数据清洗需要及时进行,以保持数据的最新和准确。

2、目前数据清洗并未有通用的模式,多数清洗过程依旧依赖于大量的人工处理和人工判断,导致清洗效率和准确度不高,统一度和标准程度低,无法满足海量数据快速统一标准化的清洗需求。

3、针对不良反应公共数据库的清洗方法,通常涉及以下主要步骤和技术:数据去重:清洗过程中常涉及数据去重,以确保数据库中不出现重复的记录。然而,传统的去重方法可能会忽略了不同记录之间微小差异的情况,造成一些重要信息的丢失。

4、数据标准化:标准化数据可以提高数据的一致性和可比性,但在不良反应数据中,可能存在大量的异构性和多样性,传统的标准化方法可能无法充分考虑到这些特点,导致部分数据无法被准确清洗和识别。

5、异常值处理:不良反应数据中可能存在大量的异常值,传统的异常值处理方法可能无法充分考虑到医药领域的实际情况,导致清洗结果不够准确和可靠。

>6、数据关联与整合:在不良反应数据清洗中,数据的关联与整合是至关重要的一步,但传统的方法可能会受到数据质量和信息匹配度的限制,难以实现完整的数据库清洗和信号识别系统的建立。

7、为了解决上述问题,现提供一种技术方案。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术的实施例提供一种不良反应公共数据库数据的快速清洗方法,从多个不良反应数据库和本体知识库中获取原始数据,经过解构和预处理后,构建不良反应初始数据库和本体映射数据库。通过数据映射与标准化,将不良反应初始数据库与药物映射库、医学术语映射库对比、映射,并对未映射的其他变量数据进行标准化处理。全变量数据整合后,建立通用数据模型,计算药物与不良反应相关性,获取信号值。进行特征分析,整合数据并导入clickhouse数据库,形成公共数据库信号及群体特征分析结果数据库。这一过程有助于提高清洗效率、准确度,同时提高数据的统一度和标准程度。能够满足海量数据快速统一标准化的清洗需求,减少人工介入,提高清洗效率和数据质量,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、在一个优选的实施方式中,s1.从多个不良反应数据库和本体知识库中获取原始数据,进行解构和预处理;

4、s2.基于不同来源的不良反应数据库的数据结构,构建er图并建立不良反应初始数据库;

5、s3.重新构建本体知识库,建立er图,构建统一的本体映射数据库,包括药物映射库与医学术语映射库;

6、s4.将不良反应初始数据库与药物映射库、临床医学术语相关的数据与医学术语映射库分别进行比对、映射;

7、s5.将在s4中未参与对比、映射的其他变量数据进行标准化处理;

8、s6.将s4中映射的数据与s5中标准化的数据整合,形成全变量数据标准化后的优化不良反应数据库;

9、s7.基于优化不良反应数据库内的数据,建立不良反应分析通用数据模型,对模型数据的药物与不良反应相关性进行计算以获取信号值,对信号值满足预期的信号值进行其他相关特性的提取分析,获得信号群体特征分析结果;将s3、s6和s7的结果数据整合后导入clickhouse数据库,建立公共数据库信号及群体特征分析结果数据库。

10、在一个优选的实施方式中,步骤s3具体包括以下内容:

11、s3-1.根据不同本体知识库的数据结构、数据类型和数据关联构建er图;

12、s3-2.根据er图构建本体知识库数据库;

13、s3-3.将经过步骤s1-2中预处理的数据,批量导入至数据库对应的数据表中并建立索引。

14、在一个优选的实施方式中,s3-4.针对步骤s3-3中的所有药物相关数据表,使用领域本体知识库中的概念层次结构,将药物成分映射到本体概念,并计算基于概念的相似性,找出具有相同药物成分但表述方式不同的数据;

15、具体处理过程为:

16、s3-4-1.从领域本体知识库中获取药物概念的层次结构,包括不同概念之间的父子关系;

17、s3-4-2.将每个药物成分映射到领域本体知识库的概念层次结构中的相应概念;

18、s3-4-3.对于每一对药物成分映射到的概念,提取获得路径长度相似性和信息内容相似性;

19、使用最短路径长度来度量概念之间的相似性;

20、利用概念在知识库中的频率信息,计算信息内容;

21、对于两个概念,计算两者的信息内容相似性;

22、将路径长度相似性和信息内容相似性进行加权综合,得到最终的概念的相似系数;

23、对于概念相似系数大于或等于相似阈值的数据记录建立映射关系,记录两个不同本体之间药物成分的对应关系。

24、在一个优选的实施方式中,s3-5.为每种药物成分选择一个特定的入口词,并为其编码,采用一个编码规则,主要以药物本体知识库为基础,其他知识库作为补充,药物映射库形式为:每个药物成分入口词对应一个编码,关联多个不同描述,形成一对多关系,只需符合任一描述,即可映射到特定药物成分入口词和编码;

25、s3-6.将s3-3步骤所有医学术语相关的数据表进行关联与相互映射,形成具有相同医学语义,但表述方式不同的本体之间全映射关系;

26、s3-7.为每种医学语义选择一个特定的入口词并为其编码,采用医学语义本体知识库为主要部分,其他知识库作为补充,最终形成医学语义映射库,包括特定入口词、对应编码以及对应多个不同医学语义描述,语义描述采用不同语言和方式,只要符合任一描述,均映射到特定入口词和编码。

27、在一个优选的实施方式中,s4具体包括以下内容:

28、s4-1.提取s2-3数据库中所有与药物描述相关的数据,建立药物待映射数据表;

29、s4-2.提取s2-3数据库中所有与医学术语相关的数据,建立医学术语待映射数据表。

30、s4-3.将药物待映射数据表中所有数据与s2中建立的药物映射库进行对比和匹配,所有可精准匹配的药物直接采用入口词及其编码作为映射结果;无法精准匹配的数据,则采用分词与相似度比对进行二次匹配;

31、具体过程如下:

32、s4-4-1.编写sql查询语句,使用join操作将医学语义待映射数据表中所有数据与s本文档来自技高网...

【技术保护点】

1.一种不良反应公共数据库数据的快速清洗方法,其特征在于:

2.根据权利要求1所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

3.根据权利要求2所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

4.根据权利要求3所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

5.根据权利要求4所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

6.根据权利要求5所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

7.根据权利要求6所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

8.根据权利要求7所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

【技术特征摘要】

1.一种不良反应公共数据库数据的快速清洗方法,其特征在于:

2.根据权利要求1所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

3.根据权利要求2所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

4.根据权利要求3所述的一种不良反应公共数据库数据的快速清洗方法,其特征在于:

5....

【专利技术属性】
技术研发人员:任晓蕾彭净吴明丽
申请(专利权)人:济宁医学院附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1