一种基于深度信念网络的中药不良作用识别方法技术

技术编号:22188486 阅读:32 留言:0更新日期:2019-09-25 04:18
本发明专利技术公开了一种基于深度信念网络的中药不良作用识别方法。本发明专利技术能够对中药不良作用进行有效的整理和归纳,有助于中药不良作用实体数据库构建。并将传统的中药毒副作用研究与人工智能方法进行有机的统一,实现对于药物不良作用实体的全自动提取,减少人工提取药物不良作用的时间以及经济损耗,实现了在中药不良作用实体识别研究方法学上的优化。后期,本发明专利技术也可以根据不同中药文献集,实现针对特定中药的不良作用识别和关系挖掘,可以有效适用于各种中医药文献,不需要重新训练深度信念网络模型,可以直接从输入中药文献中识别并提取出药物不良作用实体。

A Method for Recognition of Adverse Effects of Traditional Chinese Medicine Based on Deep Belief Network

【技术实现步骤摘要】
一种基于深度信念网络的中药不良作用识别方法
本专利技术涉及药品不良作用识别
,具体涉及一种基于深度信念网络的中药不良作用识别方法。
技术介绍
中药在我国有着悠久的应用历史,是我国古代人们在长期生活与医疗实践当中不断总结出来的。中医治病常以方剂为单位,研究方剂对疾病的作用机制有助于解释中医方剂配伍以及治病的科学性。而方剂是由多个单位药物组成,绝大多数的药物具有很好的药物安全性。与西药相比,中药具有伤害小且不易产生药物耐受性及依赖性的特点,但中药也有可能会对患者产生一些不良作用。因此,从海量的中药文献中识别并提取出中药的不良作用,对增加中医临床疗效、减少对患者的不良反应等多个方面都能起到极其重要的推动作用。随着自然语言处理技术的发展,命名实体识别可用于从大量文献提取某类实体。目前,命名实体识别方法主要包括基于词典、基于规则、基于统计学模型、基于深度学习等四种策略。基于词典和规则的识别方法通常需要人工制定词典以及规则,通过总结实体本身具有的规则和其上下文语境规则来将实体提取出来,该方法可以很好的适应中药文本中不良作用实体表达方式随意的特点。但由于中药不良作用没有标准词库,需要自己构建,因此该方法难以实现自动化识别、且效果往往较差。基于统计学模型的识别方法包括HMM、MEMM和CRF等机器学习模型,这类识别方法适用于对反复出现的实体进行识别,常被用于从文本中提取人名、地名等短语结构,而中药的不良作用不同于一般实体,其表达方式多种多样,很难将其全部识别出来,因此该种方法并不完全适合于中药不良作用的实体识别任务。此外,一些研究尝试将实体识别任务转化为分类问题,这种方法首先需要有一部分语料作为分类模型的训练语料,语料的质量在一定程度上影响着分类结果的好坏。目前采用深度学习模型来进行实体识别工作往往能取得更好的实验结果,克服了识别结果对人工语料标注精度的依赖性,相比其他实体识别方法具有更好的精确度。经大量调研发现,上述命名实体识别方法在西药不良反应的实体识别领域有开展研究工作,且主要针对英文文献。目前基于中药文献的中药不良反应实体识别研究工作相当匮乏,均依赖于人工方法进行不良反应实体的提取,这主要是由于中药不良反应的文本描述随意性,长度、句式等相对不固定。这种人工标注法虽然可以对实体准确提取,但难以实现自动化,需要消耗较大的人力成本,难以对日益增加的中药文献进行有效利用。目前结合文本挖掘技术的药物不良作用识别工作均应用在西药领域,且主要针对英文文献开展,而对于中药不良作用的实体识别仍然停留在人工层面;同时,基于词典、规则或特定统计学模型的方法,通常需要消耗较大的人力成本进行语料库的构建,而且这些方法在随意性较强的中药文献中难以准确提取出不良作用描述,识别效果通常较差且耗时较长。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于深度信念网络的中药不良作用识别方法解决了难以准确提取出不良作用描述,识别效果通常较差且耗时较长的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于深度信念网络的中药不良作用识别方法,包括以下步骤:S1、获取包含中药不良作用实体的文档集;S2、对包含中药不良作用实体的文档集进行预处理,得到预处理后的文档集;S3、根据预处理后的文档集构建标准语料库;S4、基于标准语料库对深度信念网络模型进行训练,得到训练好的深度信念网络模型和最佳字符概率阈值;S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。进一步地:所述步骤S1中文档集的获取方法包括:利用关键词从中文期刊文献数据库中进行文献检索,并以PDF格式下载检索到的文献并生成PDF文档集,和通过搜索引擎进行检索,并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。进一步地:所述步骤S2中预处理的具体方法为采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式,并对文档集中的干扰信息进行过滤。进一步地:所述步骤S3中标准语料库的构建方法为:根据标点“。”对预处理后的文档集进行分割,通过BIO规则对分割好的句子进行序列标注,其中BIO规则具体为:使用B表示中药不良反应实体的开头,使用I表示不良反应实体去除开头的其他部分,使用O表示除不良反应实体以外的部分。进一步地:所述步骤S4中的具体步骤为:S41、将标准语料库中的所有字符表示为多个由二值化字符组成的多维向量;S42、通过多维向量计算每一层RBM的网络结构参数,将网络结构参数固定后,对每层RBM网络进行训练得到最优解,在DBN网络顶部加入BP网络进行反向调优,完成整个DBN网络的训练;所述DBN网络由三层RBM网络叠加而成;S43、计算最佳字符概率阈值。进一步地:所述步骤S41的具体步骤为:通过分词对标准语料库中的所有词进行编号并对其构建词袋模型,通过one-hot算法根据词袋模型的词频提取特征向量,将特征向量通过训练窗口将特征向量组合成二值化字符组成的多维向量。进一步地:所述步骤S42的具体步骤为:S421、将多维向量作为第一层RBM网络的显层输入,并为该多维向量分配初始化权值W0;S422、对该层RBM网络的初始显性神经元v(0)计算得到一个由其对应的隐性神经元h(0)重构出的新的显性神经元v(1),并更新该层RBM网络的权值为:W=W0+λ(P(h(0)=1|v(0))v(0)T-p(h(1)=1|v(1))v(1)T)上式中,W为更新后的RBM网络的权值,λ为预先设定的学习率,T为向量转置运算,h(1)为重构出的新的显性神经元v(1)对应的新的隐性神经元,P()为概率运算;通过设定的学习率λ固定该层RBM网络的权值W,完成对第一层RBM网络的训练;S423、将第一层RBM网络的隐性神经元作为第二层RBM网络的输入向量,重复步骤S422完成对第二层RBM网络的训练,将第二层RBM网络的隐性神经元作为第三层RBM网络的输入向量,重复步骤S422完成对第三层RBM网络的训练;S424、在DBN网络的顶部加入BP网络进行反向调优,将第三层RBM网络的隐层数据向量作为BP网络的输入;S425、通过BP网络将分类错误信息自顶向下传播至每一层RBM网络,微调层间迁移参数,使DBN网络达到最优;所述层间迁移参数包括权值W、RBM网络中从隐层神经元到显层神经元的偏移向量和RBM网络中从显层神经元到隐层神经元的偏移向量。进一步地:所述步骤S43最佳字符概率阈值通过对字符概率阈值求偏导计算可得,所述字符概率阈值的计算公式为:上式中,Δ为字符概率阈值,Ej为每个不良作用实体,D为中药文献合集,ci为第i个字符,P(ci|Δ)为第i个字符属于该不良作用实体组成部分的概率。本专利技术的有益效果为:本专利技术能够对中药不良作用进行有效的整理和归纳,有助于中药不良作用实体数据库构建。并将传统的中药毒副作用研究与人工智能方法进行有机的统一,实现对于药物不良作用实体的全自动提取,减少人工提取药物不良作用的时间以及经济损耗,实现了在中药不良作用实体识别研究方法学上的优化。后期,本专利技术也可以根据不同中药文献集,实现针对特定中药的不良作用识别和关系挖掘,可以有效适用于各种中医药文献,不需要重新训练深度信念网络模型,可以直接从输入中药文献中识别并提取出药物不良作用实本文档来自技高网
...

【技术保护点】
1.一种基于深度信念网络的中药不良作用识别方法,其特征在于,包括以下步骤:S1、获取包含中药不良作用实体的文档集;S2、对包含中药不良作用实体的文档集进行预处理,得到预处理后的文档集;S3、根据预处理后的文档集构建标准语料库;S4、基于标准语料库对深度信念网络模型进行训练,得到训练好的深度信念网络模型和最佳字符概率阈值;S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。

【技术特征摘要】
1.一种基于深度信念网络的中药不良作用识别方法,其特征在于,包括以下步骤:S1、获取包含中药不良作用实体的文档集;S2、对包含中药不良作用实体的文档集进行预处理,得到预处理后的文档集;S3、根据预处理后的文档集构建标准语料库;S4、基于标准语料库对深度信念网络模型进行训练,得到训练好的深度信念网络模型和最佳字符概率阈值;S5、通过训练好的深度信念网络模型和最佳字符概率阈值对新输入文本识别中药不良作用信息。2.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法,其特征在于,所述步骤S1中文档集的获取方法包括:利用关键词从中文期刊文献数据库中进行文献检索,并以PDF格式下载检索到的文献并生成PDF文档集,和通过搜索引擎进行检索,并通过网页爬虫的方法将检索到的信息保存为TXT文本格式。3.根据权利要求2所述的基于深度信念网络的中药不良作用识别方法,其特征在于,所述步骤S2中预处理的具体方法为:采用pdfbox工具包对PDF文档集进行文本内容提取为TXT文本格式,并对文档集中的干扰信息进行过滤。4.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法,其特征在于,所述步骤S3中标准语料库的构建方法为:根据标点“。”对预处理后的文档集进行分割,通过BIO规则对分割好的句子进行序列标注,其中BIO规则具体为:使用B表示中药不良反应实体的开头,使用I表示不良反应实体去除开头的其他部分,使用O表示除不良反应实体以外的部分。5.根据权利要求1所述的基于深度信念网络的中药不良作用识别方法,其特征在于,所述步骤S4中的具体步骤为:S41、将标准语料库中的所有字符表示为多个由二值化字符组成的多维向量;S42、通过多维向量计算每一层RBM的网络结构参数,将网络结构参数固定后,对每层RBM网络进行训练得到最优解,在DBN网络顶部加入BP网络进行反向调优,完成整个DBN网络的训练;所述DBN网络由三层RBM网络叠加而成;S43、计算最佳字符概率阈值。6.根据权利要求5所述的基于深度信念网络的中药不良作用识别方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:李巧勤刘勇国蒋羽杨尚明何家欢蔡茁李杨
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1