基于深度学习的医学文献中关键词筛选方法及装置制造方法及图纸

技术编号：20389927 阅读：17 留言：0更新日期：2019-02-20 02:52

本发明专利技术实施例公开一种基于深度学习的医学文献中关键词筛选方法及装置，能提高医学文献中关键词筛选的准确度。方法包括：S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中，得到所述待处理的医学文献中的关键词。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的医学文献中关键词筛选方法及装置
本专利技术实施例涉及计算机领域，具体涉及一种基于深度学习的医学文献中关键词筛选方法及装置。
技术介绍
关键词抽取是指根据一定的目的要求，依靠计算机技术从报告、文献中选择反映主题内容的单词或者术语。从而为文献提供一个简短的概括，使读者能够在短时间内了解文献的重要信息与核心内容，由于关键词十分精炼，故可以利用关键词以很小的计算代价进行文本相似性的度量。因此在文献检索、自动文摘、文本分类、文本聚类等方面有着重要的应用。现有的关键词提取方法主要分为3类：(1)基于统计特征的方法，根据词语出现的频率或者位置确定候选词的权重，筛选出权重较大者作为关键词。该方法虽然操作简单，但是会忽略掉在文中分布较小、位置较偏但是对于文章具有关键意义的词语；(2)基于词语网络的方法，根据一定的规则将文档映射成词语网络，利用该网络计算词语的关键度。该方法主要利用高频词的共现关系构建词语网络，同样不能提取出对文档重要但频率不高的词语；(3)基于语义的方法，从语义角度判断词语的重要性，提取出关键词。但是目前该方法仅仅采用同义词与近义词匹配，然而表达同一主题的关键词，大多不是同义词或近义词，使同主题的词语大部分未能得到语义关联，导致该方法不能发挥应有作用。
技术实现思路
针对现有技术存在的不足和缺陷，本专利技术实施例提供一种基于深度学习的医学文献中关键词筛选方法及装置。一方面，本专利技术实施例提出一种基于深度学习的医学文献中关键词筛选方法，包括：S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标...

【技术保护点】
1.一种基于深度学习的医学文献中关键句筛选方法，其特征在于，包括：S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中，得到所述待处理的医学文献中的关键句。

【技术特征摘要】
1.一种基于深度学习的医学文献中关键句筛选方法，其特征在于，包括：S1、对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵；S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中，得到所述待处理的医学文献中的关键句。2.根据权利要求1所述的方法，其特征在于，所述Bilstm-CRF模型的第二层是双向LSTM层，第三层是线性层，第四层是CRF层。3.根据权利要求2所述的方法，其特征在于，所述对待处理的医学文献进行分句，对分句进行分词，包括：依据标点符号对所述待处理的医学文献进行分句，基于分词算法与医学词库对分句进行分词。4.根据权利要求3所述的方法，其特征在于，所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码，生成分句的词向量矩阵，包括：按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码，并对标识编码后的分句分词进行填零扩充，使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等；基于填零扩充的结果生成所述词向量矩阵。5.一种基于深度学习的医学文献中关键句筛选装置，其特征在于，包括：生成单元，用于对待处理的医学文献进行分句，对分句进行分词，通过按照分词在所述...

【专利技术属性】
技术研发人员：赵荣生，宋再伟，林巧楠，周旻，
申请(专利权)人：北京大学第三医院，北京诺道认知医学科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人