【技术实现步骤摘要】
一种中药化学成分命名实体识别方法与装置
本专利技术涉及信息处理
,尤其涉及一种基于深度神经网络的中药化学成分命名实体识别方法与装置。
技术介绍
中药化学成分命名实体,是指中药所含化学成分的名称,如甘草香豆素、杠柳毒苷元、二氢咖啡酸、大黄素甲醚-8-O-β-D-葡萄糖苷等,是对不同成分使用不同名称加以区别和称呼、并遵循一定规则的命名方式。目前现有中药化学成分命名实体研究比较零散,没有标准的中药化学成分命名实体数据库,为帮助中药研究人员快速、高效地获取最新的中药化成分研究进展,迫切需要对中药化学成分命名实体进行整理,从大量零散的研究文献中有效识别中药化学成分命名实体。随着自然语言处理技术的发展,基于自然语言处理的命名实体识别技术已经开始用于生物医学文献中的西药化学成分识别,常用的方法有模式匹配、机器学习以及深度神经网络的方法,或者将多种方法进行融合。西药的化学药物名称在命名上严格遵循化合物的命名规则,具有规范性。与西药的化学成分名称相比,中药的天然药物成分名称在命名方式上存在差别。比如,天然药物成分名称有很多包含特殊的前缀、后缀,或者根据其来源的植物名称进行演化的命名,有的天然药物成分甚至使用俗名命名。因此,命名实体识别技术在中药化学成分识别领域仍是一片空白。目前对中药化学成分的整理工作还是通过人工方式,效率低,不利于推进标准中药化学成分命名实体数据库的建立。
技术实现思路
本专利技术的目的在于解决上述现有技术存在的缺陷,提供一种基于深度神经网络的中药化学成分命名实体识别方法与系统,解决命名不规范的中药化学成分命名识别问题。一种中药化学成分命名实体识别方法, ...
【技术保护点】
1.一种中药化学成分命名实体识别方法,其特征在于,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。
【技术特征摘要】
1.一种中药化学成分命名实体识别方法,其特征在于,包括以下步骤:S1:获取中药化学成分命名实体相关文献;S2:对获取的所述相关文献进行信息过滤,以得到文本内容规范化的语料库;S3:对所述语料库进行编码和标注,得到标注好的语料库;S4:将所述标注好的语料库作为BiLSTM的训练样本进行训练,得到训练好的BiLSTM;S5:将需要识别中药化学成分命名实体的相关文献输入所述训练好的BiLSTM进行识别,以识别出中药化学成分命名实体。2.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述S1包括:S11:利用关键词从中文期刊文献数据库进行文献检索,并以PDF格式下载文献;以及从百度百科进行检索,使用网页爬虫的方法将得到的信息保存成TXT文本,以获取中药化学成分命名实体文档集;S12:根据所述文档集提取文档内容。3.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述S3包括:S31:按照一定的规则对所述语料库进行编码,得到编码语料库;S32:对所述编码语料库按照一定的规则进行标注,以区分出中药化学成分命名实体和非中药化学成分命名实体,从而得到标注好的语料库。4.根据权利要求3所述的中药化学成分命名实体识别方法,其特征在于,所述规则按照以下方法形成:对大量化学成分名称样本进行特征抽取,得到包含化学元素名、化学专用词、化学介词、特定词头、特定词缀、表示序号的数字、表示序号的汉字、表示序号的字母、中药名称、表示地区、基团、符号的特征属性;将每个特征属性分别利用字符进行区分定义,以形成一个字符与特征属性相互对应的规则对照表。5.根据权利要求1所述的中药化学成分命名实体识别方法,其特征在于,所述步骤S4包括:S41.:将标注好的语料库作为模型训练的输入,输入到BiLSTM的前馈层和反馈层,可同时获得当前词向量的上下文信息;向量表示拼接的双向输出和将其作为BiLSTM在t时刻的输出,由公式1-4可得:it=σ(Wxixt+Whiht-1+Wcict-1+bi)(1)ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)(2)ot=σ(Wxoxt+Whoht-1+Wcoct+bo)(3)ht=ot⊙tanh(ct)(4)其中,σ是非线性函数,{Wxi,Whi,Wci,Wxc,Whc,Wxo,Who,Wco}是LSTM的参数矩阵,{bi,bc,bo}是偏置项;it和ot分别为BiLSTM的输入门和输出门;⊙为点积;c为BiLSTM中每个记忆单元的状态;ht是最后的输出;S42.使用Attention机制获得词在全文中的表示,通过公式计算第i个词在全文范围内所应该分配的注意力αi;energyi=f(attended,statei,W)(5)αi=softmax(energyi)(6)其中,attended为词向量的组合;state为第i个词在该组合中相对应的一项;W为权重系数;f函数用于计算st...
【专利技术属性】
技术研发人员:刘勇国,蒋羽,李杨,何家欢,蔡茁,杨尚明,李巧勤,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。