【技术实现步骤摘要】
一种基于信息内容的心脏病分类词向量开发方法
[0001]本专利技术涉及生物信息学
,尤其涉及一种基于信息内容的心脏病分类词向量开发方法
。
技术介绍
[0002]心脏病是全世界死亡的主要原因,估计每年影响
1790
万人
。
心脏病是心脏和血管疾病的集合,包括心肌梗塞
(
心脏病发作
)、
冠心病
、
主动脉疾病等
。
而心脏病发作占心脏病死亡人数的五分之四以上
。
在中国,许多人患有糖尿病
、
高血压和吸烟,这些都是心脏病的主要原因
。
此外,由于人口老龄化的压力和中国心脏病危险因素的显着增加,需要进一步研究以创建更有效的分类技术来早期检测心脏病
。
现有的心脏病分类模型仍然存在一些缺点,例如现有的几种疾病分类模型利用
GloVe
算法来学习词向量,这些词向量被提供作为分类的输入层楷模
。
这些词向量没有考虑一个词的信息内容
(IC)
,这降低了现有模型的效率
。
为了解决这个问题,在本专利技术中,提出了一种新方法,通过将医学概念的信息内容
(IC)
值合并到其相关的
GloVe
向量中来改进单词向量
。
新开发的基于信息内容
(IC)
的词向量将作为心脏病分类模型的输入层提供,以提高其效率
。
[00 ...
【技术保护点】
【技术特征摘要】
1.
一种基于信息内容的心脏病分类词向量开发方法,其特征在于,包括以下步骤:步骤一
、
使用
GloVe
算法学习词向量,即医学概念;步骤二
、
计算医学概念的信息内容:
informationcontent
:
IC
值;步骤三
、
计算医学概念的平均信息内容:
IC
;步骤四
、
基于信息内容:
IC
的医学概念向量的开发;步骤五
、
对心脏病进行分类
。2.
根据权利要求1所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤一具体包括:将医院提供的医学数据与统一医学语言系统
UMLS、SNOMED
‑
CT、MeSH、PMC
公开数据库相结合,构建医学文本语料库,使用
GloVe
算法用于生成词向量;其中
Med
Con
表示一个医学概念,函数
GloVe
algorithm
提供其对应的向量
3.
根据权利要求2所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤二具体包括:使用
UMLS
数据库计算医学概念
Med
Con
的
IC
,如下所示:其中函数
|Descendant(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的后代数,而函数
|Max(Med
Con
)
UMLS
|
表示
UMLS
数据库中医学概念的总数;使用
SNOMED
‑
CT
数据库计算医学概念
(Med
Con
)
的
IC
,如下所示:其中函数
|Descendant(Med
Con
)
SNOMED
‑
CT
|
表示
SNOMED
‑
CT
数据库中医学概念...
【专利技术属性】
技术研发人员:侯赛因穆罕穆德贾瓦德,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。