一种中药化学成分命名实体识别方法与装置制造方法及图纸

技术编号:22078770 阅读:67 留言:0更新日期:2019-09-12 15:12
本发明专利技术提供一种中药化学成分命名实体识别方法与装置,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。本发明专利技术方法将基于深度神经网络的命名实体识别技术应用到中药化学成分识别,比人工识别方式有更高的效率;有利于为构建中药化学成分命名实体基础数据库提供数据来源。

A Nominal Entity Recognition Method and Device for Chemical Constituents of Traditional Chinese Medicine

【技术实现步骤摘要】
一种中药化学成分命名实体识别方法与装置
本专利技术涉及信息处理
,尤其涉及一种基于深度神经网络的中药化学成分命名实体识别方法与装置。
技术介绍
中药化学成分命名实体,是指中药所含化学成分的名称,如甘草香豆素、杠柳毒苷元、二氢咖啡酸、大黄素甲醚-8-O-β-D-葡萄糖苷等,是对不同成分使用不同名称加以区别和称呼、并遵循一定规则的命名方式。目前现有中药化学成分命名实体研究比较零散,没有标准的中药化学成分命名实体数据库,为帮助中药研究人员快速、高效地获取最新的中药化成分研究进展,迫切需要对中药化学成分命名实体进行整理,从大量零散的研究文献中有效识别中药化学成分命名实体。随着自然语言处理技术的发展,基于自然语言处理的命名实体识别技术已经开始用于生物医学文献中的西药化学成分识别,常用的方法有模式匹配、机器学习以及深度神经网络的方法,或者将多种方法进行融合。西药的化学药物名称在命名上严格遵循化合物的命名规则,具有规范性。与西药的化学成分名称相比,中药的天然药物成分名称在命名方式上存在差别。比如,天然药物成分名称有很多包含特殊的前缀、后缀,或者根据其来源的植物名称进行演化的命名,有的天然药物成分甚至使用俗名命名。因此,命名实体识别技术在中药化学成分识别领域仍是一片空白。目前对中药化学成分的整理工作还是通过人工方式,效率低,不利于推进标准中药化学成分命名实体数据库的建立。
技术实现思路
本专利技术的目的在于解决上述现有技术存在的缺陷,提供一种基于深度神经网络的中药化学成分命名实体识别方法与系统,解决命名不规范的中药化学成分命名识别问题。一种中药化学成分命名实体识别方法,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。进一步地,如上所述的中药化学成分命名实体识别方法,所述S1包括:S11:利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本,以获取中药化学成分命名实体文档集;S12:根据所述文档集提取文档内容。进一步地,如上所述的中药化学成分命名实体识别方法,所述S3包括:按照一定的规则对所述语料库进行编码,得到编码语料库;对所述编码语料库按照一定的规则进行标注,以区分出中药化学成分命名实体和非中药化学成分命名实体,从而得到标注好的语料库。进一步地,如上所述的中药化学成分命名实体识别方法,所述规则按照以下方法形成:对大量化学成分名称样本进行特征抽取,得到包含化学元素名、化学专用词、化学介词、特定词头、特定词缀、表示序号的数字、表示序号的汉字、表示序号的字母、中药名称、表示地区、基团、符号的特征属性;将每个特征属性分别利用字符进行区分定义,以形成一个字符与特征属性相互对应的规则对照表。进一步地,如上所述的中药化学成分命名实体识别方法,所述步骤S4包括:S41.:将标注好的语料库作为模型训练的输入,输入到BiLSTM的前馈层和反馈层,可同时获得当前词向量的上下文信息;向量表示拼接的双向输出和将其作为BiLSTM在t时刻的输出,由公式1-4可得:it=σ(Wxixt+Whiht-1+Wcict-1+bi)(1)ot=σ(Wxoxt+Whoht-1+Wcoct+bo)(3)其中,σ是非线性函数,{Wxi,Whi,Wci,Wxc,Whc,Wxo,Who,Wco}是LSTM的参数矩阵,{bi,bc,bo}是偏置项;it和ot分别为BiLSTM的输入门和输出门;⊙为点积;c为BiLSTM中每个记忆单元的状态;ht是最后的输出;S42.使用Attention机制获得词在全文中的表示,通过公式计算第i个词在全文范围内所应该分配的注意力αi;energyi=f(attended,statei,W)(5)αi=softmax(energyi)(6)其中,attended为词向量的组合;state为第i个词在该组合中相对应的一项;W为权重系数;f函数用于计算state与attended之间的相关性,采用曼哈顿距离作为相似性测度;其中,a,b表示两个词向量,ai、bi分别对应向量a和b的第i个元素;另外,用source表示将整篇文章通过BiLSTM处理得到的输出;之后,获取当前词在全文范围下的上下文表示,定义为glimpse:S43.将该词在全文范围的上下文以及相邻词的上下文表示结合,通过tanh非线性函数进行映射,记为output;contexti=tanh(glimpsei,sourcei,U).(9)其中,contexti表示Attention层的单元i的内容,U为随模型训练的权值参数;S44:使用条件随机场得到整篇文章的标签序列,计算整篇文章在给定标签序列下的总得分:θ'是整个模型需要学习的所有参数,包括原始BiLSTM需要学习的参数和标签转移矩阵A,A是标签转移矩阵,表示从[m]t-1标签转移到[m]t标签的得分,使用Softmax函数计算将该词确定为真实标签的概率p;通过最大化对数似然概率来训练模型参数,并使用梯度下降法来优化参数;表示真实标签序列,表示句子,表示任意可能的标签序列;S45:采用维特比算法:找到最佳标签序列:表示所有可能的标签序列。一种中药化学成分命名实体识别装置,包括:获取单元,用于获取中药化学成分命名实体相关文献;预处理单元,用于对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;编码标注单元,用于对所述语料库进行编码和标注,得到标注好的语料库;模型训练单元,用于将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;识别单元,用于将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。进一步地,如上所述的中药化学成分命名实体识别装置,所述获取单元包括:搜索单元,用于利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本,以获取中药化学成分命名实体文档集;提取单元,用于根据所述文档集提取文档内容。进一步地,如上所述的中药化学成分命名实体识别装置,所述编码标注单元包括:编码单元,用于按照一定的规则对所述语料库进行编码,得到编码语料库;标注单元,用于对所述编码语料库按照一定的规则进行标注,以区分出中药化学成分命名实体和非中药化学成分命名实体,从而得到标注好的语料库。一种中药化学成分命名实体识别设备,包括处理器以及存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行如上所述任一项所述的中药化学成分命名实体识别方法。一种计算机可读存储介质,所述计算机可读存储介质上存储有程序代码,当所述程序代码被执行时实现如上所述任一项所述的中药化学成分命名实体识别方法。有益效果:本专利技术针对包含有中药化学成分命名本文档来自技高网...

【技术保护点】
1.一种中药化学成分命名实体识别方法,其特征在于,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。

【技术特征摘要】
1.一种中药化学成分命名实体识别方法,其特征在于,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。2.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述S1包括:S11:利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本,以获取中药化学成分命名实体文档集;S12:根据所述文档集提取文档内容。3.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述S3包括:S31:按照一定的规则对所述语料库进行编码,得到编码语料库;S32:对所述编码语料库按照一定的规则进行标注,以区分出中药化学成分命名实体和非中药化学成分命名实体,从而得到标注好的语料库。4.根据权利要求3所述的中药化学成分命名实体识别方法,其特征在于,所述规则按照以下方法形成:对大量化学成分名称样本进行特征抽取,得到包含化学元素名、化学专用词、化学介词、特定词头、特定词缀、表示序号的数字、表示序号的汉字、表示序号的字母、中药名称、表示地区、基团、符号的特征属性;将每个特征属性分别利用字符进行区分定义,以形成一个字符与特征属性相互对应的规则对照表。5.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述步骤S4包括:S41.:将标注好的语料库作为模型训练的输入,输入到BiLSTM的前馈层和反馈层,可同时获得当前词向量的上下文信息;向量表示拼接的双向输出和将其作为BiLSTM在t时刻的输出,由公式1-4可得:it=σ(Wxixt+Whiht-1+Wcict-1+bi)(1)ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)(2)ot=σ(Wxoxt+Whoht-1+Wcoct+bo)(3)ht=ot⊙tanh(ct)(4)其中,σ是非线性函数,{Wxi,Whi,Wci,Wxc,Whc,Wxo,Who,Wco}是LSTM的参数矩阵,{bi,bc,bo}是偏置项;it和ot分别为BiLSTM的输入门和输出门;⊙为点积;c为BiLSTM中每个记忆单元的状态;ht是最后的输出;S42.使用Attention机制获得词在全文中的表示,通过公式计算第i个词在全文范围内所应该分配的注意力αi;energyi=f(attended,statei,W)(5)αi=softmax(energyi)(6)其中,attended为词向量的组合;state为第i个词在该组合中相对应的一项;W为权重系数;f函数用于计算st...

【专利技术属性】
技术研发人员:刘勇国蒋羽李杨何家欢蔡茁杨尚明李巧勤
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1