基于深度学习的医学文献中关键词筛选方法及装置制造方法及图纸

技术编号:20389927 阅读:17 留言:0更新日期:2019-02-20 02:52
本发明专利技术实施例公开一种基于深度学习的医学文献中关键词筛选方法及装置,能提高医学文献中关键词筛选的准确度。方法包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中,得到所述待处理的医学文献中的关键词。

【技术实现步骤摘要】
基于深度学习的医学文献中关键词筛选方法及装置
本专利技术实施例涉及计算机领域,具体涉及一种基于深度学习的医学文献中关键词筛选方法及装置。
技术介绍
关键词抽取是指根据一定的目的要求,依靠计算机技术从报告、文献中选择反映主题内容的单词或者术语。从而为文献提供一个简短的概括,使读者能够在短时间内了解文献的重要信息与核心内容,由于关键词十分精炼,故可以利用关键词以很小的计算代价进行文本相似性的度量。因此在文献检索、自动文摘、文本分类、文本聚类等方面有着重要的应用。现有的关键词提取方法主要分为3类:(1)基于统计特征的方法,根据词语出现的频率或者位置确定候选词的权重,筛选出权重较大者作为关键词。该方法虽然操作简单,但是会忽略掉在文中分布较小、位置较偏但是对于文章具有关键意义的词语;(2)基于词语网络的方法,根据一定的规则将文档映射成词语网络,利用该网络计算词语的关键度。该方法主要利用高频词的共现关系构建词语网络,同样不能提取出对文档重要但频率不高的词语;(3)基于语义的方法,从语义角度判断词语的重要性,提取出关键词。但是目前该方法仅仅采用同义词与近义词匹配,然而表达同一主题的关键词,大多不是同义词或近义词,使同主题的词语大部分未能得到语义关联,导致该方法不能发挥应有作用。
技术实现思路
针对现有技术存在的不足和缺陷,本专利技术实施例提供一种基于深度学习的医学文献中关键词筛选方法及装置。一方面,本专利技术实施例提出一种基于深度学习的医学文献中关键词筛选方法,包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。另一方面,本专利技术实施例提出一种基于深度学习的医学文献中关键词筛选装置,包括:生成单元,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;输入单元,用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。本专利技术实施例提供的基于深度学习的医学文献中关键词筛选方法及装置,利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词,因构建的Bilstm-CRF模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。附图说明图1为本专利技术基于深度学习的医学文献中关键词筛选方法一实施例的流程示意图;图2为本专利技术基于深度学习的医学文献中关键词筛选装置一实施例的结构示意图;图3为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。参看图1,本实施例公开一种基于深度学习的医学文献中关键词筛选方法,包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。本专利技术实施例提供的基于深度学习的医学文献中关键词筛选方法,利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词,因构建的Bilstm-CRF模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。在前述方法实施例的基础上,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。本实施例中,在使用Bilstm-CRF模型进行关键词筛选之前,需要对Bilstm-CRF模型进行构建,并使用训练数据对Bilstm-CRF模型进行训练。具体地,Bilstm-CRF模型训练过程如下:(1)将训练样本中分句的各分词组成的词向量序列(x1,x2,...,xmax_len)作为双向LSTM各个时间步的输入。(2)模型的第二层是双向LSTM层,用来自动提取词语特征。将正向LSTM输出的隐状态序列与反向LSTM输出的进行按位拼接,得到完整的隐状态序列:其中(3)紧接着接入一个线性层,将隐状态向量的每一元素从2n维映射成k维,其中k=4表示分词类别数。设输出矩阵为P=(p1,p2,...,pmax_len),pi的每一维pij表示分词xi分类到第j类标签的打分值。(4)模型的第四层是CRF层,该层有一个(k+2)*(k+2)大小的状态转移矩阵A,Aij表示从第i个标签到第j个标签的转移得分,该矩阵的含义是标注分句中某一分词标签时,需要考虑之前已标注的标签值。如果一个分句的目标值序列为y=(y1,y2,...,ymax_len),那么模型对于分句x的标签等于y的打分为:模型的对数似然函数定义为:式中,Yx为因变量的集合,表示所有标签项。(5)通过多轮迭代训练与参数调整,找到使目标函数最大化的最优参数与状态转移概率。当然,在训练模型之前,需要针对训练样本数据生成分句的词向量矩阵,过程如下:(1)将分句的各个分词根据在文献中出现的顺序进行id编码,编码的起始值为1,终止值为文献的词汇量大小N。(2)将所有分句中包含最多分词的个数记录为max_len,之后将id编码的分句进行填0扩充,使其长度达到max_len,其中0码数为(max_len-分词数)。(3)随机初始化词向量矩阵,矩阵的每一行表示为词向量,从上到下依次对应编码为0~N的分词,矩阵的列数为词向量的长度n=300。(4)查找分句中每个id编码的分词对应的词向量,若训练样本数为m,则构建一个[m,max_len,300]大小的三维矩阵作为模型的输入。需要说明的是,在训练模型时,需要针对训练数据进行模型输出构建,具体方法为:依据PICO指标矩阵,给分句中的所有分词打上标签。若分词出现在指标矩阵中,按照对应关系,将标签值设置为P或I-C或O;若分词未出现在指标矩阵中,则标签值为N。将标签序列整体作为模型的目标值。本专利技术构建的模型能够结合分词的上下文语义,并依据标签集的内在联系,通过计算状态转移概率来限制不合理标签序列的输出。在前述方法实施例的基础上,所述对待处理的医学文献进行分句,对分句进行分词,包括:依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词本文档来自技高网...

【技术保护点】
1.一种基于深度学习的医学文献中关键句筛选方法,其特征在于,包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中,得到所述待处理的医学文献中的关键句。

【技术特征摘要】
1.一种基于深度学习的医学文献中关键句筛选方法,其特征在于,包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键句。2.根据权利要求1所述的方法,其特征在于,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。3.根据权利要求2所述的方法,其特征在于,所述对待处理的医学文献进行分句,对分句进行分词,包括:依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。4.根据权利要求3所述的方法,其特征在于,所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵,包括:按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等;基于填零扩充的结果生成所述词向量矩阵。5.一种基于深度学习的医学文献中关键句筛选装置,其特征在于,包括:生成单元,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述...

【专利技术属性】
技术研发人员:赵荣生宋再伟林巧楠周旻
申请(专利权)人:北京大学第三医院北京诺道认知医学科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1