基于大数据的宫颈癌知识图谱构建方法技术

技术编号：41070394 阅读：2 留言：0更新日期：2024-04-24 11:26

本发明专利技术涉及基于大数据的宫颈癌知识图谱构建方法，属于电数字数据处理技术领域，可实现知识抽取阶段，通过基于Global Pointer解码的实体关系联合抽取模型，相比于存在实体冗余、误差积累问题的管道式抽取模式，对于宫颈癌医学文本的实体识别和关系抽取效果有大幅提升；在知识融合阶段，通过基于召回+排序算法策略的实体对齐模型，对知识抽取阶段中宫颈癌各类医学文本中所抽取到的实体进行对齐，对不规范的实体实现了临床术语归一化，为后续高质量知识图谱的构建奠定了基础。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电数字数据处理，具体涉及基于大数据的宫颈癌知识图谱构建方法。

技术介绍

1、在全球范围内，宫颈癌是最常见的恶性肿瘤之一，也是导致死亡的重要原因之一。宫颈癌的预防和治疗方案，取决于疾病的早期诊断和治疗。然而，由于宫颈癌知识的广泛性和复杂性，医生和研究人员需要耗费大量时间和精力来更好地理解该病的发病机制、诊断方法及治疗方案等方面的知识。并且宫颈癌领域的知识碎片化，信息量庞大，且难以整合和查询。加之传统的文本检索方式无法满足对知识的深度挖掘，缺乏数据的可视化呈现和语义分析。

2、因此，现阶段需设计基于大数据的宫颈癌知识图谱构建方法，来解决以上问题。

技术实现思路

1、本专利技术目的在于提供基于大数据的宫颈癌知识图谱构建方法，用于解决上述现有技术中存在的技术问题，建立宫颈癌知识图谱，可以将宫颈癌领域的碎片化知识进行整合。知识图谱可以利用大数据技术快速收集、处理、分析各种与宫颈癌相关的信息。利用自然语言处理技术，对所有相关文本数据进行处理，抽取其中的实体、关系等信息，并将其结构化存储，为研究和临床实践提供参考和支持。

2、为实现上述目的，本专利技术的技术方案是：

3、基于大数据的宫颈癌知识图谱构建方法，包括以下步骤：

4、s1、本体构建，采用自顶向下的方式，即通过文献查阅法和专家咨询法联合构建宫颈癌知识图谱的本体；

5、s2、数据标注，划分为四个流程：数据预处理、规范制定、预标注、正式标注；

6、s3、知识

7、s4、知识融合，采用召回+排序的算法策略构建的实体对齐模型；先通过中文短文本相似度计算，得到top n个候选标准词；再对候选标准词和诊断原词，构造一定比例的正负样本，基于bert做文本匹配，最终完成对抽取出的医学实体的实体对齐；

8、s5、知识存储，将经过融合的知识，即实体、实体与实体之间的关系以三元组的形式导入图数据库neo4j graph database中，从而实现对宫颈癌知识图谱的存储与可视化。

9、进一步的，步骤s1中具体如下：

10、文献查阅法：在本体构建阶段，针对宫颈癌查阅参考国家卫生健康委发布的文献指南；根据宫颈癌医学文本的特点，参考临床诊疗指南，整理汇总宫颈癌实体关系对；

11、专家咨询法：邀请宫颈癌诊疗专家从专业知识和临床实践上予以指导、审核后，对于初版定义的宫颈癌实体关系对进行删除和新增；

12、最终汇总形成宫颈癌相关的实体关系对，完成宫颈癌的本体构建。

13、进一步的，步骤s2中具体如下：

14、数据预处理：通过数据去重、繁简转换、清除无效信息、去除停用词、数据脱敏工作，使得文本数据中包含更多的有意义的关键词汇；

15、规范制定：旨在制定一套经专家审核后的、具有可操作性的标注规范文档；指导规范后续的标注工作；

16、预标注：旨在通过多轮迭代的预标注和标注一致性评价，逐步减少不同的标注参与者的标注分歧；

17、正式标注：经过多轮预标注，规范趋于稳定，标注人员得到充分的训练，即可在正式标注阶段依据标注规范展开数据标注工作。

18、进一步的，步骤s3中具体如下：

19、输入的数据先经过transofomer层后得到位置处representation，再通过解码层全局性指针网络globalpointer对实体和关系进行同步解码，最终输出包含实体和关系的五元组；

20、transformer分为encoder、decoder两个部分；

21、输入：假设输入序列长度为t，则encoder输入的维度为[batch_size，t]，经过embedding层、position encoding流程后，生成[batch_size，t，d]的数据，d表示模型隐层维度；

22、encoder：这个数据会经过n个模块，每个模块的结构都是相同的，为multi-headattention->add->layernorm->feedforward->add->layernorm；multi-head attention在t这个维度上，计算每两个位置元素的attention值，会汇聚再次得到每个位置的embedding，输出维度仍然为[batch_size，t，d]；add层将multi-head attention的输出结果和输入结果相加；feed forward会用一个比较大的中间层维度将上一层的隐藏维度扩大，然后再缩小；最终经过n个模块，encoder的输出维度仍然为[batch_size，t，d]；

23、decoder：decoder的输入也经过类似的变换得到[batch_size，t'，d]，t'是decoder输入长度；之后会进入多个相同结果的模块，每个模块为self multi-headattention->add->layernorm->crossmulti-head attention->add->layernorm->feed forward->add norm；self multi-head attention，表示decoder序列上的元素内部做attention，和encoder相同；cross multi-head attention，是decoder每个位置和encoder各个位置进行attention，用来进行decoder和encoder的对齐；

24、transformer结构的核心部分：多头注意力机制；公式如下，

25、

26、输入假设是[batch_size，t，d]，首先将它用3个不同的全连接映射成q、k、v三个不同的向量，维度仍然为[batch_size，t，d]；然后假设有k个head，那么将向量转换维度：[batch_size，t，d]->[batch_size，t，k，d/k]->[batch_size，k，t，d/k]，这相当于把后续的attention分别做k次，同时又没有增加模型的隐藏维度带来计算开销增大；然后就套用上面的公式，pair对进行q和k的点积计算+softmax得到attention分，再和v相乘得到每个位置元素的结果；

27、globalpointer是一种基于span分类的解码方法；对于任意句子，globalpointer构造一个上三角矩阵来遍历所有有效的span；

28、假设实体类别只有一个，假设经过encoder后，位置i和j处的representation为hi和hj，经过全连接层分别得到二者的query向量qi和key向量ki：

29、qi＝wqhi+bq

30、ki＝wkhj+bk

31、于是每个sp本文档来自技高网...

【技术保护点】

1.基于大数据的宫颈癌知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大数据的宫颈癌知识图谱构建方法，其特征在于，步骤S1中具体如下：

3.根据权利要求2所述的基于大数据的宫颈癌知识图谱构建方法，其特征在于，步骤S2中具体如下：

4.根据权利要求3所述的基于大数据的宫颈癌知识图谱构建方法，其特征在于，步骤S3中具体如下：

【技术特征摘要】

1.基于大数据的宫颈癌知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大数据的宫颈癌知识图谱构建方法，其特征在于，步骤s1中具体如下：

3.根...

【专利技术属性】
技术研发人员：曲建明，蒲立新，何明杰，高忠军，周滨，张勇，
申请(专利权)人：成都成电金盘健康数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人