一种基于深度信念网络的中药不良作用识别方法技术

技术编号：22188486 阅读：32 留言：0更新日期：2019-09-25 04:18

本发明专利技术公开了一种基于深度信念网络的中药不良作用识别方法。本发明专利技术能够对中药不良作用进行有效的整理和归纳，有助于中药不良作用实体数据库构建。并将传统的中药毒副作用研究与人工智能方法进行有机的统一，实现对于药物不良作用实体的全自动提取，减少人工提取药物不良作用的时间以及经济损耗，实现了在中药不良作用实体识别研究方法学上的优化。后期，本发明专利技术也可以根据不同中药文献集，实现针对特定中药的不良作用识别和关系挖掘，可以有效适用于各种中医药文献，不需要重新训练深度信念网络模型，可以直接从输入中药文献中识别并提取出药物不良作用实体。

A Method for Recognition of Adverse Effects of Traditional Chinese Medicine Based on Deep Belief Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度信念网络的中药不良作用识别方法
本专利技术涉及药品不良作用识别
，具体涉及一种基于深度信念网络的中药不良作用识别方法。
技术介绍
中药在我国有着悠久的应用历史，是我国古代人们在长期生活与医疗实践当中不断总结出来的。中医治病常以方剂为单位，研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由多个单位药物组成，绝大多数的药物具有很好的药物安全性。与西药相比，中药具有伤害小且不易产生药物耐受性及依赖性的特点，但中药也有可能会对患者产生一些不良作用。因此，从海量的中药文献中识别并提取出中药的不良作用，对增加中医临床疗效、减少对患者的不良反应等多个方面都能起到极其重要的推动作用。随着自然语言处理技术的发展，命名实体识别可用于从大量文献提取某类实体。目前，命名实体识别方法主要包括基于词典、基于规则、基于统计学模型、基于深度学习等四种策略。基于词典和规则的识别方法通常需要人工制定词典以及规则，通过总结实体本身具有的规则和其上下文语境规则来将实体提取出来，该方法可以很好的适应中药文本中不良作用实体表达方式随意的特点。但由于中药不良作用没有标准词库，需要自己构建，因此该方法难以实现自动化识别、且效果往往较差。基于统计学模型的识别方法包括HMM、MEMM和CRF等机器学习模型，这类识别方法适用于对反复出现的实体进行识别，常被用于从文本中提取人名、地名等短语结构，而中药的不良作用不同于一般实体，其表达方式多种多样，很难将其全部识别出来，因此该种方法并不完全适合于中药不良作用的实体识别任务。此外，一些研究尝试将实体识别任务转化为分类问题，这...

【技术保护点】
1.一种基于深度信念网络的中药不良作用识别方法，其特征在于，包括以下步骤：S1、获取包含中药不良作用实体的文档集；S2、对包含中药不良作用实体的文档集进行预处理，得到预处理后的文档集；S3、根据预处理后的文档集构建标准语料库；S4、基于标准语料库对深度信念网络模型进行训练，得到训练好的深度信念网络模型和最佳字符概率阈值；S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。

【技术特征摘要】
1.一种基于深度信念网络的中药不良作用识别方法，其特征在于，包括以下步骤：S1、获取包含中药不良作用实体的文档集；S2、对包含中药不良作用实体的文档集进行预处理，得到预处理后的文档集；S3、根据预处理后的文档集构建标准语料库；S4、基于标准语料库对深度信念网络模型进行训练，得到训练好的深度信念网络模型和最佳字符概率阈值；S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。2.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S1中文档集的获取方法包括：利用关键词从中文期刊文献数据库中进行文献检索，并以PDF格式下载检索到的文献并生成PDF文档集，和通过搜索引擎进行检索，并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。3.根据权利要求2所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S2中预处理的具体方法为：采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式，并对文档集中的干扰信息进行过滤。4.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S3中标准语料库的构建方法为：根据标点“。”对预处理后的文档集进行分割，通过BIO规则对分割好的句子进行序列标注，其中BIO规则具体为：使用B表示中药不良反应实体的开头，使用I表示不良反应实体去除开头的其他部分，使用O表示除不良反应实体以外的部分。5.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤S4中的具体步骤为：S41、将标准语料库中的所有字符表示为多个由二值化字符组成的多维向量；S42、通过多维向量计算每一层RBM的网络结构参数，将网络结构参数固定后，对每层RBM网络进行训练得到最优解，在DBN网络顶部加入BP网络进行反向调优，完成整个DBN网络的训练；所述DBN网络由三层RBM网络叠加而成；S43、计算最佳字符概率阈值。6.根据权利要求5所述的基于深度信念网络的中药不良作用识别方法，其特征在于，所述步骤...

【专利技术属性】
技术研发人员：李巧勤，刘勇国，蒋羽，杨尚明，何家欢，蔡茁，李杨，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人