一种字符卷积特征融合生物医学实体识别方法及装置制造方法及图纸

技术编号:43855009 阅读:16 留言:0更新日期:2024-12-31 18:45
本发明专利技术属于自然语言处理领域,公开了一种字符卷积特征融合生物医学实体识别方法及装置。本发明专利技术通过获取训练数据集,提取训练数据集中的生物医学实体特征,根据提取的生物医学实体特征,捕获生物医学实体的上下文特征,再用字符卷积神经网络对生物医学实体字符特征建模,特征融合之后,通过条件随机场CRF对标签上下文特征进行建模,输出标注序列,提高生物医学领域实体识别的准确性,解决现有技术中非结构化数据很难被直接利用,依靠搜索引擎进行关键词检索,人工筛选信息难度大的问题。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,具体涉及一种字符卷积特征融合生物医学实体识别方法及装置


技术介绍

1、近20年来,生物医学领域相关的医学、生物学、药学、护理学、生物化学、生物物理学、流行病学等研究和技术有了突飞猛进的发展,大量的成果都发表在相应的期刊杂上。medline数据库包含了数百万篇有关生物医学和生命科学领域的学术文献。这些文献来自于世界各地的期刊、学术出版物、会议论文和其他可信的医学文献来源,并且这种增长趋势还在不断的增加。从2002年到2022年期间medline数据库中文献的被引用量情况如图4所示,2002年的引用量还是50.20万,到了2021年引用量就超过了100万,甚至达到了2022年的136.96万,20年的时间里,引用量的增长超过了一倍。这也反映了生物医学领域的研究热度。充分利用自然语言处理技术对海量的文本数据进行分析和处理,不仅可以挖掘出其中潜在的有价值信息,而且还可以用于实现许多智能化的场景。例如,胃癌这种严重的恶性肿瘤,对人民群众生命健康威胁极大。科研人员、药物研发人员和临床专家已经进行了大量科学研究工作,研究成果都发表在各类本文档来自技高网...

【技术保护点】

1.一种字符卷积特征融合生物医学实体识别的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,所述字符卷积神经网络由卷积网络堆叠而成;所述卷积网络分为3层,从下到上分别为卷积层、池化层、随机丢弃层。

3.根据权利要求2所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,字符卷积神经网络由3个卷积网络堆叠而成,分别对应卷积层的卷积核大小为2、3、4。

4.根据权利要求3所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,对池化层进行特征选择,降低特征数量;具体方法为

5....

【技术特征摘要】

1.一种字符卷积特征融合生物医学实体识别的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,所述字符卷积神经网络由卷积网络堆叠而成;所述卷积网络分为3层,从下到上分别为卷积层、池化层、随机丢弃层。

3.根据权利要求2所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,字符卷积神经网络由3个卷积网络堆叠而成,分别对应卷积层的卷积核大小为2、3、4。

4.根据权利要求3所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,对池化层进行特征选择,降低特征数量;具体方法为:

5.根据权利要求1所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,根据提取的生物医学实体特征,捕获生物医学实体的上下文特征时,采用的方法如下:

6.根据权利要求1所述的字符卷积特征融合生物医学实体识别的方法,其特征在于,通过条件随机场crf对标签上下文特征进行建模,输出标注...

【专利技术属性】
技术研发人员:杨荣根缑芸合
申请(专利权)人:金陵科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1