一种建模全局和局部上下文交互的生物医学文本表示方法技术

技术编号:25759530 阅读:75 留言:0更新日期:2020-09-25 21:08
本发明专利技术公开了一种建模全局和局部上下文交互的生物医学文本表示方法,属于生物医学文本表示方法领域,给定的生物医学文本是由L个句子组成的序列(S

【技术实现步骤摘要】
一种建模全局和局部上下文交互的生物医学文本表示方法
本专利技术涉及一种生物医学文本表示方法,特别是涉及一种建模全局和局部上下文交互的生物医学文本表示方法,属于生物医学文本表示方法

技术介绍
近年来生物医学领域蓬勃发展,生物医学文献呈现爆炸式增长的态势,如何从大量的生物医学文本数据中快速准确地获取目标信息,是一个具备应用前景和研究意义的课题。有效地建模生物医学文本是能够有效地进行信息抽取的基础,已有的文本建模方法大致可以分为三类:(1)传统的文本建模方法,使用特征选择或特征提取方法获得文本特征,并在此基础上应用经典的分类或者聚类算法进行分类和聚类分析,如TF-IDF、LDA等;(2)基于词嵌入和深度学习的文本建模方法,能够自动地为大规模的文本数据学习有意义的特征,从而避免了传统文本挖掘方法中耗时和复杂的特征工程,如RNN、CNN等;(3)基于图表示学习的文本建模方法,将文档或句子视为图的结点,利用文献之间的引用关系来构建图结构,如GCN、GAT等。生物医学文本数据规模巨大,由于专业领域的特点,生物医学文本中的术语缩写和专有名词等本文档来自技高网...

【技术保护点】
1.一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:包括如下步骤:/n步骤1:假设给定的生物医学文本是由L个句子组成的序列(S

【技术特征摘要】
1.一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:包括如下步骤:
步骤1:假设给定的生物医学文本是由L个句子组成的序列(S1,…,Si,…,SL),其中每个句子Si表示为该句子中词组成的序列;
步骤2:每个词的向量表示由词嵌入、位置嵌入和实体类型嵌入三部分信息拼接而成;
步骤3:通过输入模块,给定文本中的每个句子Si可以表示为矩阵Xi,其中矩阵中的第j行表示第j个词的向量表示;
步骤4:将输入模块得到的生物医学文本的初始表示,输入到表示学习模块中进行进一步的文本建模;
步骤5:将每个词作为结点,由StanfordCoreNLP得到的语法依赖树作为结点之间的拓扑结构并用邻接矩阵A表示;
步骤6:在描述的拓扑结构图中,应用两层的GCN对Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每个词的表示考虑了局部上下文信息;
步骤7:引入超图概念聚合局部上下文信息得到超图中相应结点包含全局上下文信息的向量表示;
步骤8:通过建模局部和全局上下文的信息交互,来学习每句话中相关生物医学概念的更丰富的表示。


2.根据权利要求1所述的一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:其中步骤2中词嵌入采用预训练模型GloVe作为词嵌入模型;
位置嵌入:采用不同频率的正弦和余弦函数建模句子中不同的位置信息;
实体类型嵌入:为每种实体类型随机初始化一个向量用于表示实体类型所蕴含的信息,实体类型嵌入向量作为模型的参数,通过训练过程来优化。


3.根据权利要求1所述的一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:其中步骤6中每个词的表示考虑了局部上下文信息,两层的GCN形式化表示如下:



其中I是与A同阶的单位矩阵,为图的度矩阵,ReLU为非线性激活函数,W(0)和W(1)分别为两层GCN的参数矩阵。


4.根据权利要求1所述的一种建模全局和局部上下文交互的生物医学文本表示方法,其特征在于:其中步骤7中引入超图的概念用于建模整篇生物医学文本中的全局上下文信息,其中,文本中的每句话视为超图中的超边,相关的生物医学概念视为超图中的结点,每篇生物医学文本可以表示为一个超图,由于某些生物医学概念可能多次出现在整篇文本的多句话中,通过聚合局部上下文信息得到生物医学概念包含全局上下文信息的向量表...

【专利技术属性】
技术研发人员:赵卫中张晋咏
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1