当前位置: 首页 > 专利查询>扬州大学专利>正文

基于畜禽疾病知识图谱的畜禽疾病的预测分类方法技术

技术编号:32673982 阅读:21 留言:0更新日期:2022-03-17 11:29
本发明专利技术公开了基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,包括以下步骤:1)根据畜禽疾病文本进行特征提取;2)使用图计算的方法构建特征关联网络;3)构建畜禽疾病知识图谱;4)结构化抽取畜禽疾病特征;5)基于朴素贝叶斯,通过添加权重的改进算法计算单个特征对畜禽疾病的影响因子IMPT;6)基于步骤5)计算多个特征对畜禽疾病的影响因子;7)得到畜禽疾病预测分类的推荐结果。本发明专利技术通过构建深度特征关联网络和提供一种优化疾病影响因子算法,加深知识图谱构建时关系的构成,为畜禽疾病预测分类提供一种可行的有效方法,结果可以作为后续诊断的参考。续诊断的参考。续诊断的参考。

【技术实现步骤摘要】
基于畜禽疾病知识图谱的畜禽疾病的预测分类方法


[0001]本专利技术涉及一种预测分类方法,特别涉及基于畜禽疾病知识图谱的畜禽疾病的预测分类方法。

技术介绍

[0002]随着人工智能的兴起,病情辅助诊别也在大数据的驱动下逐渐智能化,多数人工智能病情辅助诊别的技术研究均基于病情文本。据统这些文本如果都由人来处理,不仅时效低而且代价高。并且在本文所涉及到的畜禽疾病预测分类领域,亟需一种便捷的辅助预测分类方式帮助释放人工压力。综上,通过人工智能的手段进行智能化的疾病预测分类辅助是必要的。
[0003]知识图谱是一种通过符号形式表示客观概念和关系的语义知识库,它由许多实体和关系组成,通过关系和实体两两连接,构成“实体

关系

实体”的三元组,最终形成以各个三元组为基本单位的知识网络。近年来知识图谱广泛应用于各个领域,也为结构化存储病情文本提供了一种优秀的解决方案。
[0004]智慧医疗是知识图谱应用中收到广泛关注的一个领域。目前很多公司医院均在医疗领域中进行了相关研究并且构建了自己的医疗知识图谱,如搜狗公司的AI医学知识图谱、阿里巴巴的“医知鹿”、上海曙光医院够贱的中医知识图谱等。随着互联网技术以及区域医疗卫生信息化技术的不断发展,医疗数据迅速增长,如何从这些繁杂庞大的数据中挖掘出有效信息并加以利用,是推进智慧医疗不断发展的关键,同时也是药物推荐等一系列相关应用的基础,对于帮助医生诊疗,减轻人员负担有着重要的意义。
[0005]在医疗知识图谱的构建方面,虽然现有的实体关系抽取研究较为成熟,但是部分研究没有考虑到实体和关系之间的联系,容易造成误差累积和准确率不高的问题;同时在疾病预测方面,很多研究人员进行了相关的研究,但是目前的疾病预测针对性较强,扩展性也有所不足,同时深度不足,缺乏对疾病更深层关系的挖掘,需要一定的改进。

技术实现思路

[0006]本专利技术的目的是克服现有技术缺陷,提供基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,通过构建深度特征关联网络和提供一种优化疾病影响因子算法,加深知识图谱构建时关系的构成,为畜禽疾病预测分类提供一种可行的有效方法,结果可以作为后续诊断的参考。
[0007]本专利技术的目的是这样实现的:一种基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,其特征在于,包括以下步骤:
[0008]步骤1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾病的病情陈述文本集合,使用汉语分词系统NLPIR导入提前准备的疾病和症状词典,对文本进行处理得到初始特征词集,之后进行词性选择得到中间特征词集,最后对中间特征词集进行加权TFIDF排序得到最终特征词集;
[0009]步骤2)使用图计算方法构建特征关联网络:对步骤1)得到的最终特征词集,通过基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;将所有的特征词作为节点建立完全图,并且计算任意两个节点之间的有向关联度作为边的权重,然后通过去除弱关联获得强关联的特征关联网络,最后通过重构得到最终的特征词关联网络;
[0010]步骤3)构建畜禽疾病知识图谱:在步骤2)特征关联网络中,找出节点数在3以上的极大词团,通过筛选得到在描述该种疾病时同时出现的词团用于疾病类型推理,通过词团语义关系建立知识图谱;
[0011]步骤4)结构化抽取畜禽疾病特征:通过对知识图谱中的连通子图进行分解抽取,最终整理得到具有加权度的结构化特征;
[0012]步骤5)基于朴素贝叶斯,通过添加权重的改进算法计算单个特征对疾病的影响因子IMPT:设计基于朴素贝叶斯的单个症状对疾病的影响因子的计算方法,对所提取的结构化特征进行加权处理得到改进后的影响因子计算方法;
[0013]步骤6)基于步骤5)计算多个特征对疾病的影响因子:考虑到现实情况中往往出现两个或者多个症状对应一个疾病的情况,改进步骤5)的影响因子计算方法,得到更为实际高效的计算方法;
[0014]步骤7)得到畜禽疾病预测分类的结果:基于步骤5)、步骤6)中的改进算法,计算特征对于畜禽疾病的影响因子,通过影响因子的排列进一步辅助进行疾病预测推理,最终得到畜禽疾病预测分类的一个或多个推荐结果。
[0015]作为本专利技术的进一步限定,所述步骤1)具体包括:
[0016]步骤1.1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾的病情陈述文本集合,使用汉语分词系统NLPIR导入提前准备的疾病和症状词典,对文本进行分词,词性标注,单字过滤和停用词去除得到初始特征集,之后对初始特征集进行词性选择、筛选与疾病密切相关的名词、动词、形容词,得到中间特征集;最后对得到的中间特征集进行加权TFIDF排序,得到最终特征集;对于TFIDF值而言,TFIDF值越高,就代表着该词与该种疾病的特征关联度越大。
[0017]作为本专利技术的进一步限定,所述步骤2)具体包括:
[0018]步骤2.1)定义有向关联度:对于步骤1)中得到的最终特征词集,采用基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;对于一种疾病的特征词集W,对于特征词集中的关键词w
i
,w
j
计算w
i
与w
j
的有向关联度,定义计算方式如下所示:
[0019][0020]其中,w(w
j
|w
i
)是计算的有向关联度,p(w
j
|w
i
)是词w
i
出现时词w
j
出现的概率t(w
i
)是词w
i
的TFIDF值,q(w
i
,w
j
)是特征词对共现次数,q(w
i
)是词w
i
的词频;
[0021]步骤2.2)得到特征词关联网络:将所有特征词作为节点建立完全图,计算任意两个节点之间的有向关联度作为边的权重,去除不符合条件的关联边,定义若两节点之间的
关联边小于2,则作为弱关联进行去除,得到强关联的特征关联网络;最后对得到的特征关联网络进行重构,将关键词对出现的次数q()作为新的权值重构得到关联网络G,然后根据G中权值的阈值进行过滤,得到最终的特征词关联网络。
[0022]作为本专利技术的进一步限定,所述步骤3)具体包括:
[0023]步骤3.1)定义极大特征词团:对于步骤2.2)中得到的关联网络G,g表示图G中的一个完全子图,如果g不属于G中的任何一个完全子图,则定义子图g为图G的极大团,在本文中,找出节点数在3以上的极大团,然后进行对照筛选;
[0024]步骤3.2)根据语义关系建立知识图谱:特征词团作为病情陈述的不同体现方式,建立知识图谱KG=(C,R,W),其中,将词团集合C中的每个词团g作为节点,将每两个词团之间的有向关联作为边构成边集R,定义若两特征词团c
i
、c
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,其特征在于,包括以下步骤:步骤1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾病的病情陈述文本集合,使用汉语分词系统NLPIR导入提前准备的疾病和症状词典,对文本进行处理得到初始特征词集,之后进行词性选择得到中间特征词集,最后对中间特征词集进行加权TFIDF排序得到最终特征词集;步骤2)使用图计算方法构建特征关联网络:对步骤1)得到的最终特征词集,通过基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;将所有的特征词作为节点建立完全图,并且计算任意两个节点之间的有向关联度作为边的权重,然后通过去除弱关联获得强关联的特征关联网络,最后通过重构得到最终的特征词关联网络;步骤3)构建畜禽疾病知识图谱:在步骤2)特征关联网络中,找出节点数在3以上的极大词团,通过筛选得到在描述该种疾病时同时出现的词团用于疾病类型推理,通过词团语义关系建立知识图谱;步骤4)结构化抽取畜禽疾病特征:通过对知识图谱中的连通子图进行分解抽取,最终整理得到具有加权度的结构化特征;步骤5)基于朴素贝叶斯,通过添加权重的改进算法计算单个特征对疾病的影响因子IMPT:设计基于朴素贝叶斯的单个症状对疾病的影响因子的计算方法,对所提取的结构化特征进行加权处理得到改进后的影响因子计算方法;步骤6)基于步骤5)计算多个特征对疾病的影响因子:考虑到现实情况中往往出现两个或者多个症状对应一个疾病的情况,改进步骤5)的影响因子计算方法;步骤7)得到畜禽疾病预测分类的结果:基于步骤5)、步骤6)中的改进算法,计算特征对于畜禽疾病的影响因子,通过影响因子的排列进一步辅助进行疾病预测推理,最终得到畜禽疾病预测分类的一个或多个推荐结果。2.根据权利要求1所述的基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,其特征在于,所述步骤1)具体包括:步骤1.1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾的病情陈述文本集合,使用汉语分词系统NLPIR导入提前准备的疾病和症状词典,对文本进行分词,词性标注,单字过滤和停用词去除得到初始特征集,之后对初始特征集进行词性选择、筛选与疾病密切相关的名词、动词、形容词,得到中间特征集;最后对得到的中间特征集进行加权TFIDF排序,得到最终特征集。3.根据权利要求1所述的基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,其特征在于,所述步骤2)具体包括:步骤2.1)定义有向关联度:对于步骤1)中得到的最终特征词集,采用基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;对于一种疾病的特征词集W,对于特征词集中的关键词w
i
,w
j
计算w
i
与w
j
的有向关联度,定义计算方式如下所示:
其中,w(w
j
|w
i
)是计算的有向关联度,p(w
j
|w
i
)是词w
i
出现时词w
j
出现的概率t(w
i
)是词w
i
的TFIDF值,q(w
i
,w
j
)是特征词对共现次数,q(w
i
)是词w
i
的词频;步骤2.2)得到特征词关联网络:将所有特征词作为节点建立完全图,计算任意两个节点之间的有向关联度作为边的权重,去除不符合条件的关联边,定义若两节点之间的关联边小于2,则作为弱关联进...

【专利技术属性】
技术研发人员:陈家合朱毅孙小兵杨章平常国斌
申请(专利权)人:扬州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1