【技术实现步骤摘要】
一种生物医学命名实体识别方法及系统
[0001]本专利技术涉及生物医学信息处理
,尤其涉及一种生物医学领域的命名实体识别方法及系统。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够进行读取并理解。而且在计算机的支持下对语言信息进行定量化的研究,提供可供人与计算机之间能共同使用的语言描写。
[0003]随着人工智能的发展,自然语言处理也得到了越来越多的关注,尤其是对于上游任务,如命名实体识别,上游任务性能的好坏直接影响了下游任务的性能。例如,命名实体识别对关系抽取,知识图谱,问答系统,情感分析有着举足轻重的影响。因此,提高命名实体识别的性能成为了很多研究者的研究重心。
[0004]一般来说,命名实体识别的任务就是识别出待处理文本中三大类和七小类命名实体,三大类是指实体类、时间类和数字类,七小类是指人名、机构名、地名、时间、日期、货币和百分比。 >[0005]命名实本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种生物医学命名实体识别方法,包括:步骤a:通过CNN提取序列中每个字符的局部特征,得到输出A;步骤b:将序列中每个字符与字典匹配得到对应的字典信息,然后将字典信息转换为对应的词向量;将对应的词向量送入自注意力机制进行特征提取;将每个字符的信息与提取后的特征进行拼接,得到相应的输出B;步骤c:将输出A与输出B拼接得到最终的词嵌入,然后把该词嵌入送进LSTM
‑
CRF中进行训练与解码。2.根据权利要求1所述的生物医学命名实体识别方法,其特征在于,所述步骤a中,通过embedding层将每个输入字符转换成相应的词向量,然后将上述词向量送入CNN中进行每个字符的局部特征提取。3.根据权利要求2所述的生物医学命名实体识别方法,其特征在于,将上述词向量送入CNN中使用3*3或者5*5卷积核进行字符的局部特征的提取。4.根据权利要求2所述的生物医学命名实体识别方法,其特征在于,将所述词向量送入CNN中进行每个字符的局部特征提取,具体计算公式为:5.根据权利要求1所述的生物医学命名实体识别方法,其特征在于,所...
【专利技术属性】
技术研发人员:杨亚平,龙开放,王夏,于惠,徐卫志,
申请(专利权)人:苏州市爱生生物技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。