一种医学文档专业词汇自动化标注方法技术

技术编号:21714519 阅读:29 留言:0更新日期:2019-07-27 19:14
本发明专利技术涉及一种医学文档专业词汇自动化标注方法,包括:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合,作为词的编码向量;将分词后的医学文档文本的词标注分类得到标注数据集;对每一个词输出一个多维向量作为词的空间表示;获取增强后的标注数据集;进行训练建模,并最终输出标注结果。本发明专利技术设计合理,其采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。

A Method of Automatic Vocabulary Annotation for Medical Documentation Specialty

【技术实现步骤摘要】
一种医学文档专业词汇自动化标注方法
本专利技术属于机器学习
,尤其是一种医学文档专业词汇自动化标注方法。
技术介绍
随着医疗研究社区的发展,每年都会有越来越多的论文发表出来。人们越来越需要寻找对于论文的改进方法,并自动理解这些论文中的关键思想。然而,由于各种各样的领域和极其有限的注释资源,对科学信息的提取相对较少。同时,随着人们对于医疗资源的需求、相应的医学文档及病例数量激增,导致研究人员和医护人员需要快速对于病人的过去的医疗资料进行整理。从病人病例中可以快速帮助医护人员作出判断的往往是一些专业上的词汇或关键词,人工整理这些词汇和关键词需要非常多的时间,由于人力限制,不可能很快地完成大量病例、医疗资料的整理工作。综上所述,随着对于医疗资源需求的上升,如何自动对专业词汇或关键词进行标注以提升医护人员对于病例、医疗资料的处理速度并帮助他们更好地为病人治疗是目前迫切需要解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种医学文档专业词汇自动化标注方法,其采用半监督学习算法对数据量进行扩充,克服了以往医疗文本标注数据量不足导致的模型性能较差的问题,并最终提高了在文本中识别专业词汇和关键词的准确性。本专利技术解决其技术问题是采取以下技术方案实现的:一种医学文档专业词汇自动化标注方法,包括以下步骤:步骤1、对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;步骤2、使用biLSTM建模文本,得到词的字母级特征向量;步骤3、使用word2vec建模文本,得到词的单词级特征向量;步骤4、基于文本语言语用特点,得到词的语言特征向量;步骤5、将步骤2、步骤3及步骤4得到词的字母级特征向量、单词级特征向量和语言特征向量进行融合,作为词的编码向量;步骤6、将分词后的医学文档文本的词标注为如下四类医学实体:疾病名称、疾病症状、治疗手段和药物名称,每一类实体用IOBES表示词在该实体中的具体位置,得到标注数据集;步骤7、将步骤1得到的文本以及步骤5得到的词的编码向量作为biLSTM的输入,对每一个词输出一个多维向量作为词的空间表示;步骤8、使用标签传播算法扩展标注数据集得到增强后的标注数据集;步骤9、将步骤7的多维向量作为词的空间表示作为词的向量,将步骤8得到的增强后的标注数据集输入条件随机场进行训练建模,并最终输出标注结果。进一步,所述步骤1的具体实现方法为:首先对输入的医学文档进行分词,形成一个数组,存储文本中的每个词和标点符号,然后去除停用词,最后提取词干和词形还原,得到单词的基本形式,并构成未标注的单词数组。进一步,所述步骤2的具体实现方法为:使用biLSTM对预处理后的医学文档文本的字母级特征进行编码,使用每个单词的首五个字母进行编码,最终得出长度为5d的字母级特征向量。进一步,所述步骤3的具体实现方法为:使用Google的Word2Vec算法对预处理后的医学文档文本的单词级特征进行编码,最终得到长度为d的针对每个单词的单词级特征向量。进一步,所述步骤4的具体实现方法为:根据文本语言语用特点,采用手工定义方法,对预处理后的医学文档文本定义如下特征:首字母大小写、单词全部小写、单词全部大写、词性和语法结构,形成长度为21的特征向量,每个特征用0或1来表示。进一步,所述步骤5的具体实现方法为:将字母级特征向量、单词级特征向量和语言特征向量连接在一起,形成一个长度为5d+d+21的对于每个词的综合的特征向量。进一步,所述步骤6的标注数据集为包括20个类别的组合标签。进一步,所述步骤7的具体实现方法为:利用步骤5得到的三种特征形成的组合特征向量,并将整个词语数组的所有特征向量进行排布,形成训练数据矩阵,该矩阵的行的数量是词语数组中的词的数量,矩阵的列数是5d+d+21;使用biLSTM,通过向前和向后计算过程的隐藏层作为输入传递给线性层,该线性层将维度投影到标签类型空间的大小为20,并用作CRF层的输入。进一步,所述步骤8的具体实现方法为:首先,基于单词所对应的特征向量构建图,并作为图中的节点,使用特征向量之间的相似度定义他们的距离以及权重wuv,图中节点的总数等于未标记数据和已标记数据之和;然后,使用标签传播算法通过优化最小化Kullback-Leibler距离的目标函数,使相邻节点之间的标签分布尽可能彼此相似,最终使得所有图中节点对应的词获得标注,得到增强后的数据集。进一步,所述步骤9的具体实现方法为:将步骤7得到的多维的词的空间表示作为词的向量,biLSTM最终会输出一个标注矩阵P,该P标注矩阵包括对于各个标签的概率分布,将其倒入CRF层中,得出一个标注序列y,计算序列y的得分φ(y;x,θ),再计算标注序列y在所有标注序列中出现的概率Pθ(y|x),最后使用反向传播对于目标函数log-进行最大化,以完成监督学习,同时该CRF模型作为最终的结果输出。本专利技术的优点和积极效果是:1、本专利技术将医疗文献中的关键词分为疾病名称(disease)、症状(symptom)、治疗手段(treatment-method)和药物名称(Drug-name)这四种类别,并基于半监督学习标注方法对于医学文档或者病例进行专业词汇上的标注,可在人力物力消耗极低的情况下,为医护人员或学者快速地理解文本中的内容,更好地作出医疗决策或研究。2、本专利技术采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。附图说明图1为本专利技术的处理流程图。具体实施方式以下结合附图对本专利技术实施例做进一步详述。本专利技术的设计思想:利用机器学习算法和技术,并基于半监督学习标注方法对于医学文档或者病例进行专业词汇上的标注。本专利技术构建了一个三层的分层的神经网络来对文本进行标记:(1)文本中的单词使用三种方式进行向量化的特征提取,BiLSTM提取基于字母的特征,Word2Vec对单词做词嵌入,以及基于语法结构的特征提取。(2)BiLSTM提取在同一个句子中,围绕在单词周围的上下文信息,并进行编码。(3)CRF标记层联合使用CRF目标函数对单词以及标记标签建模,并作出最终的标签判断。基于上述设计思想,本专利技术的医学文档专业词汇自动化标注方法,如图1所示,包括以下步骤:步骤1:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本。在本步骤中,输入为医学文档,输出为单词数组。数据预处理方法为:对医学文档首先进行分词,形成一个数组,存储文本中的每个词和标点符号,然后去除停用词,如is”、“but”、“shall”、“by”,之后提取词干和词形还原,得到单词的基本形式。例如,running,ran,runs,进行提取词干后,得到run单词,词形还原基本类似,能把任何形式的词汇还原为一般形式,经过数据预处理得到由一般形式构成的未标注的单词数组。步骤2:使用BiLSTM建模文本,得到词的字母级特征向量。本步骤的输入为进行数据预处理后的词语数组,输出为基于字母特征的特征向量,长度为5d。本专利技术使用biLSTM对于字母特征进行编码,称之为Character-BasedEmbedding。词的字母级特征由BiLSTM的向前传播和向本文档来自技高网...

【技术保护点】
1.一种医学文档专业词汇自动化标注方法,其特征在于包括以下步骤:步骤1、对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;步骤2、使用biLSTM建模文本,得到词的字母级特征向量;步骤3、使用word2vec建模文本,得到词的单词级特征向量;步骤4、基于文本语言语用特点,得到词的语言特征向量;步骤5、将步骤2、步骤3及步骤4得到词的字母级特征向量、单词级特征向量和语言特征向量进行融合,作为词的编码向量;步骤6、将分词后的医学文档文本的词标注为如下四类医学实体:疾病名称、疾病症状、治疗手段和药物名称,每一类实体用IOBES表示词在该实体中的具体位置,得到标注数据集;步骤7、将步骤1得到的文本以及步骤5得到的词的编码向量作为biLSTM的输入,对每一个词输出一个多维向量作为词的空间表示;步骤8、使用标签传播算法扩展标注数据集得到增强后的标注数据集;步骤9、将步骤7的多维向量作为词的空间表示作为词的向量,将步骤8得到的增强后的标注数据集输入条件随机场进行训练建模,并最终输出标注结果。

【技术特征摘要】
1.一种医学文档专业词汇自动化标注方法,其特征在于包括以下步骤:步骤1、对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;步骤2、使用biLSTM建模文本,得到词的字母级特征向量;步骤3、使用word2vec建模文本,得到词的单词级特征向量;步骤4、基于文本语言语用特点,得到词的语言特征向量;步骤5、将步骤2、步骤3及步骤4得到词的字母级特征向量、单词级特征向量和语言特征向量进行融合,作为词的编码向量;步骤6、将分词后的医学文档文本的词标注为如下四类医学实体:疾病名称、疾病症状、治疗手段和药物名称,每一类实体用IOBES表示词在该实体中的具体位置,得到标注数据集;步骤7、将步骤1得到的文本以及步骤5得到的词的编码向量作为biLSTM的输入,对每一个词输出一个多维向量作为词的空间表示;步骤8、使用标签传播算法扩展标注数据集得到增强后的标注数据集;步骤9、将步骤7的多维向量作为词的空间表示作为词的向量,将步骤8得到的增强后的标注数据集输入条件随机场进行训练建模,并最终输出标注结果。2.根据权利要求1所述的一种医学文档专业词汇自动化标注方法,其特征在于:所述步骤1的具体实现方法为:首先对输入的医学文档进行分词,形成一个数组,存储文本中的每个词和标点符号,然后去除停用词,最后提取词干和词形还原,得到单词的基本形式,并构成未标注的单词数组。3.根据权利要求1所述的一种医学文档专业词汇自动化标注方法,其特征在于:所述步骤2的具体实现方法为:使用biLSTM对预处理后的医学文档文本的字母级特征进行编码,使用每个单词的首五个字母进行编码,最终得出长度为5d的字母级特征向量。4.根据权利要求1所述的一种医学文档专业词汇自动化标注方法,其特征在于:所述步骤3的具体实现方法为:使用Google的Word2Vec算法对预处理后的医学文档文本的单词级特征进行编码,最终得到长度为d的针对每个单词的单词级特征向量。5.根据权利要求1所述的一种医学文档专业词汇自动化标注方法,其特征在于:所述步骤4的具体实现方法为:根据文本语言语用特点,采用手工定义方法,对预处理...

【专利技术属性】
技术研发人员:王嫄高铭王栋赵婷婷赵青陈亚瑞史艳翠孔娜王洁
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1