基于肿瘤医学文本语义主题提取与知识图谱构建的方法技术

技术编号：40955185 阅读：2 留言：0更新日期：2024-04-18 20:31

基于肿瘤医学文本语义主题提取与知识图谱构建的方法属语言处理技术领域，本发明专利技术针对现有主题模型应用于大规模肿瘤医学文本适用性不足的问题，采取的技术方案如下：基于网络爬取的肿瘤医学文本获取方法；基于肿瘤医学研究标签的文本聚类方法；肿瘤医学文本预处理技术；基于肿瘤医学文本的主题模型；基于图论的主题聚类方法；基于预训练模型的实体识别与关系抽取；可视化。本发明专利技术基于肿瘤医学文本主题提取，并结合基于实体识别与关系抽取技术构建的肿瘤知识图谱丰富主题词语义信息，能得到肿瘤医学文本对应的语义主题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语言处理，具体涉及一种基于肿瘤医学文本语义主题提取与知识图谱构建的方法。

技术介绍

1、通过研究自然语言处理技术，对大规模肿瘤医学文本进行语义主题提取与知识图谱构建，旨在挖掘肿瘤医学领域知识、发现潜在关联与提高信息检索效率。肿瘤医学领域涉及大量的研究论文、临床报告和医学数据库，这些文本通常具有高度的专业性和复杂性。研究人员需要从这些文本中获取有关疾病的诊断治疗方法，以及基因、蛋白质等关键信息，但信息分散且庞大，使得手动分析变得十分困难。

2、主题建模是一种挖掘技术，旨在识别文本中潜在的主题和模式，在肿瘤医学领域使用主题挖掘技术可以帮助识别关键主题，有助于研究人员更迅速定位感兴趣的信息。知识图谱是一种结构化的知识表示方式，其中包括实体、关系和属性。基于肿瘤医学文本数据，可以通过从文本中抽取实体(基因、药物、疾病)及其关系来构建知识图谱。目前，主题模型给出的结果通常为零星分散的关键词，在专业细分程度较高的领域这些分散的词汇汇总的主题表达的语义往往比较宽泛。而知识图谱由实体及实体间的关系构成，构建了一个语义丰富的领域知识网络，将主题模型与知识图谱进行结合，有助于将主题关键词的精炼性与知识图谱的丰富性有机整合。

技术实现思路

1、为克服现有技术不足，辅助研究人员识别新的关联、发现潜在的治疗方法，以及推动肿瘤医学领域的前沿研究，本专利技术提供一种基于肿瘤医学文本语义主题提取与知识图谱构建的方法。本专利技术能有效识别肿瘤医学文本中的主题，识别基因、化合物、疾病三种类型

2、本专利技术构建的模型通过分析大规模文本数据，辅助研究人员识别新的关联、发现潜在的治疗方法，以及推动肿瘤医学领域的前沿研究。本专利技术为肿瘤医学语义主题模型与知识图谱构建方法的研究，包括文本语料获取及预处理方法、文本聚类技术、主题建模方法、实体识别与关系抽取方法以及可视化方法等。

3、本专利技术的基于肿瘤医学文本语义主题提取与知识图谱构建的方法，包括下列步骤：

4、1)确定肿瘤医学领域研究范围，搜集相关文本获得原始语料与肿瘤医学研究特征的标签数据，对原始语料及标签数据进行自然语言预处理操作，获得适用于模型输入的预处理数据，包括下列步骤：

5、1.1围绕肿瘤医学知识，在文献网站上检索高质量肿瘤医学公开出版本摘要和标题，检索条件包括：出版物名称、出版年限、学科关键词，使用网页爬取工具获得初始语料数据；

6、1.2基于肿瘤医学研究的特征，预定义不同特征的标签集合；

7、1.3对上述语料的标点符号非字母文本内容进行去除，使用nltk工具对语料文本进行分词、词性标注、去除停止词、去除无关词，词性过滤，词形还原操作，非字母文本内容包括数字、标点符号、空格、特殊符号；考虑到对文本内容区分起主要作用的是名词，在词型标注后使用仅保留名词的文本进行文本向量的嵌入；

8、2)基于上述预处理数据，使用constrained seed k-means算法对其进行聚类，得到各文本簇δdoc(clu1,clu2,······,clun)，包括下列步骤：

9、2.1采取constrained seed k-means算法，对初始文本进行聚类分析，首先将文本内容向量化，使用word2vec模型获得文本特征词的词向量矩阵vw2v；

10、2.2计算特征词的加权因子，对于k篇文本使用tfidfmodel模型根据字词的在文本中出现的次数和在整个语料中出现的文档频率，来计算该词在整个语料中的重要程度wtfidf；

11、2.3将步骤2.2中的加权因子wtfidf与步骤2.1中词向量矩阵vw2v做乘法运算，获得语料的特征向量表示vdoc；

12、2.4将上述特征向量及文本的标记信号作为constrained seed k-means算法，获得文本聚类的输出，输出为归属不同标记信号的簇类文本集合δdoc(clu1,clu2,······,clun)；

13、3)基于上述各文本簇δdoc(clu1,clu2,······,clun)，使用lda主题模型进行主题识别，获得lda模型输出的一系列原始主题集tn(t1,t2,······,tn)，包括下列步骤：

14、3.1基于上述各文本簇δdoc(clu1,clu2,······,clun)，构建词典dictionary及词袋corpus；

15、3.2使用上述词典dictionary及词袋corpus输入tfidfmodel模型构建lda模型所需输入corpus_tfidf；

16、3.3将上述输入lda模型中进行主题建模，输出结果为一系列原始主题集tn(t1,t2,······,tn)，此步骤将文档转化为文档-主题分布和主题-词汇分布；

17、3.4采取gibbs sampling的方法进行未知参数的估计，并根据上述分布计算主题贡献度，将主题贡献度进行排序；

18、4)基于上述原始主题集tn(t1,t2,······,tn)，使用affinity propagation聚类算法进行主题级聚类，计算出各样本的贡献度最大的代表主题集合t′m(t1,t2,······,tm)，获得主题词，包括下列步骤：

19、4.1对上述lda模型输出的原始主题的主题词进行向量化，此处使用的是word2vec模型获取词向量；

20、4.2构建原始主题词向量矩阵，将矩阵向量作为affinity propagation聚类算法的输入；

21、4.3此处使用余弦距离(cosine distance)作为相似度度量指标。调整上述聚类算法的5部分参数：similarity(相似度)：s(i,k)，preference(参考度)：p(k)，responsibility(吸引度)：r(i,k)，availability(归属度)：a(i,k)，以及阻尼系数dampingfactor：λ至聚类最佳状态,参数具体含义如下：

22、1.余弦距离(cosine distance)用空间中两个向量的余弦值作为衡量两个个体间差异大小的度量，对向量x与y，计算公式为：

23、

24、2.similarity(相似度)，使用余弦相似度计算点i与k之间的相似性，为点k作为点i的聚类中心的能力,参数值越大表示越适合作为聚类中心，公式为：

25、s(i,k)＝-||xi-xk||2 (2)

26、3.preference(参考度)是相似度矩阵中对角线上点的自相似性，即：s(k,k)。该值越大，表示其作为聚类中心的可能性就越大。

27、4.responsibility(吸引度)为点i在考虑其他潜在聚类中心后，点k适合作为点i的聚类中心的程度，r(i,k)初始值为0，后续迭代公式为：

28、<本文档来自技高网...

【技术保护点】

1.一种基于肿瘤医学文本语义主题提取与知识图谱构建的方法，其特征在于，包括下列步骤：

【技术特征摘要】

1.一种基于肿瘤医学文本语义主题提取与知识...

【专利技术属性】
技术研发人员：丰小月，虞玉峰，管仁初，李智，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人