基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法技术方案

技术编号:38265217 阅读:9 留言:0更新日期:2023-07-27 10:23
本发明专利技术提供了一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法,其特点是,系统包括:数据采集及数据存储模块、医疗领域高质量语料库构建模块、疾病实体识别模块以及疾病关系抽取和分析模块;基于医疗文本大数据的情绪性心脏病疾病关系分析处理方法可以通过分析医疗文本数据而获取到疾病症状药品相关信息之间存在的关系,深入挖掘不同疾病之间或是一种疾病症状之间的深层联系,实现对不同疾病之间的关联分析处理,其准确度高,识别速度快。识别速度快。识别速度快。

【技术实现步骤摘要】
基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法


[0001]本专利技术涉及文本处理和人工智能生物信息学领域,是一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法。

技术介绍

[0002]疾病关系分析是医疗文本数据处理中非常重要的一种计算方法,对包含疾病症状等属性信息的文本进行处理,分析出不同疾病之间的相关关系。
[0003]情绪性心脏病是心血管疾病中的一种,在发育时期,由于情绪长期处于悲观消极的状态而影响一些维持心脏功能平衡的物质和微量元素吸收,进而造成心脏及大血管形成异常,或是出生后应自动关闭的通道未能闭合,造成的心脏病种类成为情绪性心脏病。情绪性心脏病的诱发原因复杂,治疗药物种类繁多,患病病人多数伴随有严重的心理疾病,心血管疾病与心理疾病药物的联合使用原则复杂多样。
[0004]目前,针对疾病的关系分析方法中,疾病实体的识别随着领域内新术语的快速增加,依靠已有的文本语料难以覆盖到新出现的实体名称,并且部分药物的命名十分的复杂且命名长度长,传统方法识别精准度不高。疾病关系分析旨在处理医疗文本包括文献和电子病历等,计算医疗实体之间存在的关系,如药物交互关系、疾病之间的并发关系等,但由于医疗领域知识的丰富性和复杂性,传统方法无法充分的表示医疗文本中的实体,进而不足以支撑后续计算疾病相关实体之间存在的关系。

技术实现思路

[0005]本专利技术的目的在于,从医疗文本数据中提取出情绪性心脏病相关的实体,包含有疾病症状、药物名称,同时计算实体之间的关系,提出一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统及处理方法,克服现有方法中存在的不足,为疾病的关系分析提供更好的计算方法。
[0006]实现本专利技术目的之一采用的技术方案是,一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述系统包括:数据采集及数据存储模块、医疗领域高质量语料库构建模块、疾病实体识别模块以及疾病关系抽取和分析模块依次连接,其中,
[0007]所述数据采集及数据存储模块,用于医疗文本数据采集分类和预处理,构建医疗文本数据库;
[0008]所述医疗领域高质量语料库构建模块,基于数据库中的原始文本数据,依据医疗语料短语词汇的语义词频特征,将相关疾病的短语词汇挖掘出来构建语料库;
[0009]所述疾病实体识别模块,以医疗领域语料库为基础,将数据库医疗文本中需要的疾病相关症状药物病因实体基于规则匹配进行识别和标注,并对相近概念和同类概念的不同实体进行归一处理,对相关实体准确识别;
[0010]所述疾病关系抽取和分析模块,依据文本中标注出的实体之间存在的位置关系,
通过填充上下文语义,对疾病症状、治疗药物、病因因素之间的关系进行准确抽取。
[0011]进一步,所述的数据采集及数据存储模块包括:数据获取装置和数据预处理装置。
[0012]进一步,所述的医疗领域高质量语料提取构建模块包括:医疗语料评价装置、候选语料挖掘装置和高质量语料挖掘装置。
[0013]进一步,所述的疾病实体识别模块包括:实体库构建装置、规则匹配实体装置和后处理装置。
[0014]实现本专利技术目的之二采用的技术方案是,一种基于医疗文本大数据的情绪性心脏病疾病关系分析处理方法,其特征是,所述方法包括:
[0015]1)采用数据采集及数据存储模块的数据采集装置,从权威医学文献网站中获取疾病相关的临床文献及相关临床电子病历文档T,并进行存储;采用数据预处理装置将存储的文本文件进行格式转换为T',便于进行文本处理分析;
[0016]2)采用医疗领域高质量语料提取构建模块的医疗语料评价装置,将文本T

拆分为词汇组合序列X={x1,x2,x3,...,x
n
},其中x
i
为文本中第i个词汇,设关键词和短语的频率特征α、组合合理性β、领域专业性γ、完整性δ作为关键词短语的特征,α用词汇在文本中出现的频数进行量化,β使用词汇与前后词汇组合的点互信息值量化,γ的计算方法为γ=TFIDF(x),TFIDF为词汇出现的逆文档频率,δ的计算方法为δ=P(x
i
,x
i+1
,...),x
i
为文档中的词汇,P(x
i
,x
i+1
,...)为词汇x
i
与后续词汇组成组合的概率;采用候选语料挖掘装置基于频率特征α和n

gram模型的组合,挖掘出文本中频繁出现的短语关键词,短语关键词包含两类,一类是单独词汇,另一类是多个词汇组成的短语,第一类使用字典树进行检查筛选,第二类多词短语应用组合合理性β筛选,即使用词汇组合的点互信息验证组合的合理性;采用高质量语料挖掘装置,根据每个特征对语料质量的贡献来得到对应的权重,考虑到特征的相互作用和特征赘余,引入惩罚因子,设c
i
,c
j
∈{α,β,γ,δ}为短语特征,为对应特征c
i
,c
j
的标准差,惩罚因子ρ的计算公式为:cov(c
i
,c
j
)为c
i
,c
j
的协方差,公式用于计算不同特征之间的相关度,设ω
*
为调整后的权重系数,ω为调整前的权重系数,ρ为用于权重系数调整计算的惩罚因子,调整权重系数计算公式为:ω
*
=ω
×
ρ。设score为计算所得的分数,为对应于特征α,β,γ,δ的调整后权重系数,最终语料的得分计算公式为:最后依据得分排名先后选取高质量语料;
[0017]3)采用疾病实体识别模块的实体库构建装置,依据已获得的高质量语料库构建实体库,依据需要的实体类型抽取需要的实体,然后进行存储;采用规则匹配实体装置,对文本进行分词,判定其是否在实体库中,实体类型为实体库中对应的类型,考虑到分词时可能会有较长的实体被分开,装置在判定时会搜索当前词与前后的拼接,完成对实体的匹配;采用后处理装置,对上述装置匹配后产生的实体相交问题采用规则合并的方式,对互相包含的实体进行筛选处理,将处理后实体标注在文档T

中,得到标注后的文档T


[0018]4)采用疾病关系抽取和分析模块进行以下操作:
[0019](1)将输入的T

转换为向量表示,将训练获得的词向量与位置向量组合,计算得出原句中词嵌入的向量集合表示为:V={v1,v2,v3,...,v
n
},其中v
i
表示句子中第i个词的嵌入向量,n是句子的长度;
[0020](2)计算每个词与实体之间的语义相关度,找出实体相关的常用词,将上述获得向量输入BILSTM模型,获得模型的输出,对输出结果通过注意力机制计算和余弦相似度计算出对应词的权重θ,为丰富词汇语义关系,引入泛用领域权重Ф用于特征编码计算;
[0021](3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述系统包括:数据采集及数据存储模块、医疗领域高质量语料库构建模块、疾病实体识别模块以及疾病关系抽取和分析模块依次连接,其中,所述数据采集及数据存储模块,用于医疗文本数据采集分类和预处理,构建医疗文本数据库;所述医疗领域高质量语料库构建模块,基于数据库中的原始文本数据,依据医疗语料短语词汇的语义词频特征,将相关疾病的短语词汇挖掘出来构建语料库;所述疾病实体识别模块,以医疗领域语料库为基础,将数据库医疗文本中需要的疾病相关症状药物病因实体基于规则匹配进行识别和标注,并对相近概念和同类概念的不同实体进行归一处理,对相关实体准确识别;所述疾病关系抽取和分析模块,依据文本中标注出的实体之间存在的位置关系,通过填充上下文语义,对疾病症状、治疗药物、病因因素之间的关系进行准确抽取。2.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的数据采集及数据存储模块包括:数据获取装置和数据预处理装置。3.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的医疗领域高质量语料提取构建模块包括:医疗语料评价装置、候选语料挖掘装置和高质量语料挖掘装置。4.根据权利要求1所述的基于医疗文本大数据的情绪性心脏病疾病关系分析系统,其特征是,所述的疾病实体识别模块包括:实体库构建装置、规则匹配实体装置和后处理装置。5.一种基于医疗文本大数据的情绪性心脏病疾病关系分析处理方法,其特征是,所述方法包括:1)采用数据采集及数据存储模块的数据采集装置,从权威医学文献网站中获取疾病相关的临床文献及相关临床电子病历文档T,并进行存储;采用数据预处理装置将存储的文本文件进行格式转换为T',便于进行文本处理分析;2)采用医疗领域高质量语料提取构建模块的医疗语料评价装置,将文本T

拆分为词汇组合序列X={x1,x2,x3,

,x
n
},其中x
i
为文本中第i个词汇,设关键词和短语的频率特征α、组合合理性β、领域专业性γ、完整性δ作为关键词短语的特征,α用词汇在文本中出现的频数进行量化,β使用词汇与前后词汇组合的点互信息值量化,γ的计算方法为γ=TFIDF(x),TFIDF为词汇出现的逆文档频率,δ的计算方法为δ=P(x
i
,x
i+1
,

),x
i
为文档中的词汇,P(x
i
,x
i+1
,

)为词汇x
i
与后续词汇组成组合的概率;采用候选语料挖掘装置基于频率特征α和n

gram模型的组合,挖掘出文本中频繁出现的短语关键词,短语关键词包含两类,一类是单独词汇,另一类是多个词汇组成的短语,第一类使用字典树进行检查筛选,第二类多词短语应用组合合理性β筛选,即使用词汇组合的点互信息验证组合的合理性;采用高质量语料挖掘装置,根据每个特征对语料质量的贡献来得到对应的权重,考虑到特征的相互作用和特征赘余,引入惩罚因子,设c
i
,c
j
∈{α,β,γ,δ}为短语特征,为对应特征c
i
,c
j
的标准差,惩罚因子ρ的计算公式为:cov(c
i
,c
j
)为c
...

【专利技术属性】
技术研发人员:王玲周铁华单明磊
申请(专利权)人:东北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1