当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于信息内容的心脏病分类词向量开发方法技术

技术编号:39394809 阅读:8 留言:0更新日期:2023-11-19 15:49
本发明专利技术涉及生物信息学技术领域,尤其涉及一种基于信息内容的心脏病分类词向量开发方法

【技术实现步骤摘要】
一种基于信息内容的心脏病分类词向量开发方法


[0001]本专利技术涉及生物信息学
,尤其涉及一种基于信息内容的心脏病分类词向量开发方法


技术介绍

[0002]心脏病是全世界死亡的主要原因,估计每年影响
1790
万人

心脏病是心脏和血管疾病的集合,包括心肌梗塞
(
心脏病发作
)、
冠心病

主动脉疾病等

而心脏病发作占心脏病死亡人数的五分之四以上

在中国,许多人患有糖尿病

高血压和吸烟,这些都是心脏病的主要原因

此外,由于人口老龄化的压力和中国心脏病危险因素的显着增加,需要进一步研究以创建更有效的分类技术来早期检测心脏病

现有的心脏病分类模型仍然存在一些缺点,例如现有的几种疾病分类模型利用
GloVe
算法来学习词向量,这些词向量被提供作为分类的输入层楷模

这些词向量没有考虑一个词的信息内容
(IC)
,这降低了现有模型的效率

为了解决这个问题,在本专利技术中,提出了一种新方法,通过将医学概念的信息内容
(IC)
值合并到其相关的
GloVe
向量中来改进单词向量

新开发的基于信息内容
(IC)
的词向量将作为心脏病分类模型的输入层提供,以提高其效率

[0003]现有技术具有如下问题:
[0004](1)
大型医学文本语料库的构建困难

[0005](2)
无法使用公开可用的医学数据库计算医学概念的信息内容
(IC)


[0006](3)
不能开发新的基于信息内容
(IC)
的词向医学概念量


技术实现思路

[0007]本专利技术的目的在于提供一种基于信息内容的心脏病分类词向量开发方法

[0008]为了实现上述专利技术目的,本专利技术采用技术方案具体为:
[0009]一种基于信息内容的心脏病分类词向量开发方法,包括以下步骤:
[0010]步骤一

使用
GloVe(Global Vector for Word Representation)
算法学习词向量,即医学概念;
[0011]步骤二

计算医学概念的信息内容
(information content

IC)
值;
[0012]步骤三

计算医学概念的平均信息内容
(IC)

[0013]步骤四

基于信息内容:
IC
的医学概念向量的开发;
[0014]步骤五

对心脏病进行分类

[0015]步骤一具体包括:
[0016]将医院提供的医学数据与统一医学语言系统
(Unified Medical Language System

UMLS)、SNOMED

CT(Systematized Nomenclature of Medicine Clinical Terms)、MeSH(Medical Subject Headings)、PMC(PubMed Central)
公开数据库相结合,构建医学文本语料库,使用
GloVe
算法用于生成词向量

[0017][0018]其中
Med
Con
表示一个医学概念,函数
GloVe
algorithm
提供其对应的向量
[0019]步骤二具体包括:
[0020]信息内容
(IC)
衡量一个词所提供的信息量

[0021]使用
UMLS
数据库计算医学概念
Med
Con

IC
,如下所示:
[0022][0023]其中函数
|Descendant(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的后代数,而函数
|Max(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的总数;
[0024]使用
SNOMED

CT
数据库计算医学概念
(Med
Con
)

IC
,如下所示:
[0025][0026]其中函数
|Descendant(Med
Con
)
SNOMED

CT
|
表示
SNOMED

CT
数据库中医学概念的后代数

而函数
|Max(Med
Con
)
SNOMED

CT
|
表示
SNOMED

CT
数据库中医学概念的总数;
[0027]使用
MeSH
数据库计算医学概念
Med
Con

IC
,如下所示:
[0028][0029]其中函数
|Descendant(Med
Con
)
MeSH
|
表示
MeSH
数据库中医学概念的后代数

而函数
|Max(Med
Con
)
MeSH
|
代表
MeSH
数据库中医学概念的总数;
[0030]将使用
PMC
数据库计算医学概念
Med
Con

IC
,如下所示:
[0031][0032]其中函数
(|Count(Med
Con
)|)
表示
PMC
研究文章中特定
Med
Con
的计数;每个
Med
Con
最多被计算一次,函数
|PMC(article)|
表示
PMC
数据库中
PMC
文章的总数

[0033]步骤三具体包括:
[0034]平均医学概念信息内容,如下所示:
[0035][0036]其中:
|M|
代表数据库的总本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于信息内容的心脏病分类词向量开发方法,其特征在于,包括以下步骤:步骤一

使用
GloVe
算法学习词向量,即医学概念;步骤二

计算医学概念的信息内容:
informationcontent

IC
值;步骤三

计算医学概念的平均信息内容:
IC
;步骤四

基于信息内容:
IC
的医学概念向量的开发;步骤五

对心脏病进行分类
。2.
根据权利要求1所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤一具体包括:将医院提供的医学数据与统一医学语言系统
UMLS、SNOMED

CT、MeSH、PMC
公开数据库相结合,构建医学文本语料库,使用
GloVe
算法用于生成词向量;其中
Med
Con
表示一个医学概念,函数
GloVe
algorithm
提供其对应的向量
3.
根据权利要求2所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤二具体包括:使用
UMLS
数据库计算医学概念
Med
Con

IC
,如下所示:其中函数
|Descendant(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的后代数,而函数
|Max(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的总数;使用
SNOMED

CT
数据库计算医学概念
(Med
Con
)

IC
,如下所示:其中函数
|Descendant(Med
Con
)
SNOMED

CT
|
表示
SNOMED

CT
数据库中医学概念...

【专利技术属性】
技术研发人员:侯赛因穆罕穆德贾瓦德
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1