System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体为基于多交叉注意力特征融合的生物医学命名实体识别方法。
技术介绍
1、命名实体识别是指识别文本中具有特定意义的实体,如人名,地名,机构名等。它的目的是从非结构化的文本中定位实体提及并将其分类为预定义的类别。然而,与一般领域不同,生物医学领域作为一个交叉学科,结合了医学和生物学等多个学科的方法和理论,其相关文献不仅包含了大量的科研成果,还记录了临床研究、药物治疗、基因表达等关键信息,都是为领域专业人员编写的,对于该领域的信息提取,通常需要更广泛的特定领域知识。同时,由于生物医学文献的海量性,人工处理这些文本成为一项繁重且耗时的任务。尽管国际上已组织了许多人工管理工作,以提取文本中生物医学概念等信息,并将提取得到的信息存储在结构化的知识资源中,如swiss-prot和genbank。但由于文献数据逐年增长的速度太快,对于开发自动化且高性能的bioner方法来帮助检索、组织和管理大量生物医学数据和信息就变得愈发重要。bioner是一种利用自然语言处理技术在文本中标注出如疾病、基因、蛋白质等实体的方法,同时也是后续进行进一步生物医学文献检索、生物医学问答系统等任务的关键子任务。
2、传统的生物医学命名实体识别方法可以分为基于规则和基于字典的方法。但基于规则和字典的方法往往对领域知识依赖性强,扩展性和可移植性差,而且推出规则和建立字典往往需要耗费大量的时间。随着数据量的增加,越来越多的研究人员尝试使用机器学习方法来处理bioner任务,比如隐马尔可夫模型(hidden markov model,
技术实现思路
1、本专利技术的目的是:针对现有技术中通常只通过拼接的方法对字词特征进行融合,忽略了字词相互融合过程中的特征信息,进而导致了提取的特征准确率低,最终导致实体识别准确率低的问题,提出基于多交叉注意力特征融合的生物医学命名实体识别方法。
2、本专利技术为了解决上述技术问题采取的技术方案是:
3、基于多交叉注意力特征融合的生物医学命名实体识别方法,包括以下步骤:
4、步骤一:获取生物医学数据集,之后,针对生物医学数据集中的每个句子x,即单词序列,将句子x中所有实体和非实体分别进行标注;
5、步骤二:利用标注的实体和非实体,训练bi-bwc-lm模型,得到训练好的bi-bwc-lm模型;
6、所述bi-bwc-lm模型具体过程如下:
7、步骤1:将句子x输入biodistilbert模型,生成单词嵌入w;
8、步骤2:将句子x分割为字符,并将每个字符分别转换为one-hot向量和初始的字符嵌入向量,之后,将one-hot向量输入charcnn,得到字符级特征cc,将初始的字符嵌入向量输入charlstm,得到字符级特征cl;
9、步骤3:将单词嵌入w分别与字符级特征cc和字符级特征cl进行交叉注意力融合,得到融合后的嵌入twc和twl,之后将融合后的嵌入twc和twl再次进行交叉注意力融合,得到特征向量t;
10、步骤4:将特征向量t输入bilstm,得到双向输出序列h;
11、步骤5:将双向输出序列h输入多头注意力机制,得到输出的特征向量;
12、步骤6:将步骤5得到的特征向量输入实体类别识别模型,得到实体类别标签,进而完成实体识别,所述实体类别识别模型包括第一线性层、silu激活函数、dropout层以及第二线性层;
13、所述第一线性层用于将多头注意力机制输出的特征向量进行降维;
14、所述silu激活函数用于对第一线性层的输出进行非线性变换;
15、所述dropout层用于防止模型过拟合;
16、所述第二线性层用于将非线性变换得到的特征映射到类别空间,即得到实体类别;
17、步骤三:利用训练好的bi-bwc-lm模型进行实体识别。
18、进一步的,所述步骤2中将句子x分割为字符通过split()函数以及list()函数进行。
19、进一步的,所述步骤2中charcnn采用尺寸为4×4和尺寸为8×8的卷积核。
20、进一步的,所述融合后的嵌入twc表示为:
21、
22、q=wwq
23、k=ccwk
24、v=ccwv
25、所述融合后的嵌入twl表示为:
26、
27、所述特征向量t表示为:
28、
29、其中,q表示query,k表示key,v表示value,dk表示k的维度大小,表示ccwk的维度大小,wq、wk、wv分别表示三个可训练的参数矩阵,表示clwk的维度大小,表示twlwk的维度大小。
30、进一步的,所述bilstm包括前向lstm与后向lstm,所述前向lstm表示为:
31、
32、细胞状态更新和隐藏状态更新表示为:
33、ht=ot*tanh(ct)
34、
35、隐藏状态输出表示为:
36、
37、
38、
39、其中,it表示输入门,ft表示遗忘门,ot表示输出门,表示临时细胞状态,ct表示细胞状态,wi表示输入门的权重系数,wf表示遗忘门的权重系数,wo表示输出门的权重系数,wc表示临时细胞状态的权重,bi表示输入门的偏置值,bf表示遗忘门的偏置值,bo表示输出门的偏置值,bc表示临时细胞状态的偏置值,和分别表示t时刻的前文和后文的隐藏状态信息,表示lstm信息向量首尾拼接操作,ht表示bilstm在t时刻的隐藏状态输出,xt表示t时刻的输入词,tanh表示双曲正切函数。
40、进一步的,所述多头注意力机制运算定义如下:
41、multihead(q,k,v)=concat(head1,…,headh)w
42、
43、
44、其中,和分别表示第j个注意力头上q,k,v的参数映射矩阵,dk表示k的维度大小,concat为拼接操作,h表示head的总数,w表示将拼接结果进行线性转换,j=1,2,...,h。
45、进一步的,所述bi-bwc-lm模型的损失函数loss表示为:
46、loss=lce+lfl
47、
48、lfl=-(1-p)γlogp
49、其中,lce表示交叉熵损失函数,lfl表示focalloss损失本文档来自技高网...
【技术保护点】
1.基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述步骤2中将句子X分割为字符通过split()函数以及list()函数进行。
3.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述步骤2中CharCNN采用尺寸为4×4和尺寸为8×8的卷积核。
4.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述融合后的嵌入TWC表示为:
5.根据权利要求4所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述BiLSTM包括前向LSTM与后向LSTM,所述前向LSTM表示为:
6.根据权利要求5所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述多头注意力机制运算定义如下:
7.根据权利要求6所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述Bi-BWC-LM模型的损失函数
8.根据权利要求7所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述生物医学数据集包括NCBI-Disease,BC5CDR-Disease,BC5CDR-Chem,BC2GM以及JNLPBA。
9.根据权利要求8所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述将句子X中所有实体和非实体分别进行标注通过BIOES法进行。
10.根据权利要求9所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述实体包括:Disease、Chemical、GENE、DNA、protein、cell-type、cell-line以及RNA。
...【技术特征摘要】
1.基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于包括以下步骤:
2.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述步骤2中将句子x分割为字符通过split()函数以及list()函数进行。
3.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述步骤2中charcnn采用尺寸为4×4和尺寸为8×8的卷积核。
4.根据权利要求1所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述融合后的嵌入twc表示为:
5.根据权利要求4所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特征在于所述bilstm包括前向lstm与后向lstm,所述前向lstm表示为:
6.根据权利要求5所述的基于多交叉注意力特征融合的生物医学命名实体识别方法,其特...
【专利技术属性】
技术研发人员:郑德权,韩蓉,于凤,张浩宇,孙云杰,刘昊宸,闫锋,戴威,李彦楠,
申请(专利权)人:哈尔滨商业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。