一种医学文档专业词汇自动化标注方法技术

技术编号：21714519 阅读：29 留言：0更新日期：2019-07-27 19:14

本发明专利技术涉及一种医学文档专业词汇自动化标注方法，包括：对输入的医学文档进行数据预处理，得到预处理后的医学文档文本；获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合，作为词的编码向量；将分词后的医学文档文本的词标注分类得到标注数据集；对每一个词输出一个多维向量作为词的空间表示；获取增强后的标注数据集；进行训练建模，并最终输出标注结果。本发明专利技术设计合理，其采用半监督学习算法对大量未标注数据进行标注，成功地克服了现有医疗行业标注数据过少的缺陷，有效地提高了模型能够使用的数据量，并大幅提升算法对于关键词和专业词汇的标注准确率，可广泛用于医疗文献处理中。

A Method of Automatic Vocabulary Annotation for Medical Documentation Specialty

全部详细技术资料下载

【技术实现步骤摘要】
一种医学文档专业词汇自动化标注方法
本专利技术属于机器学习
，尤其是一种医学文档专业词汇自动化标注方法。
技术介绍
随着医疗研究社区的发展，每年都会有越来越多的论文发表出来。人们越来越需要寻找对于论文的改进方法，并自动理解这些论文中的关键思想。然而，由于各种各样的领域和极其有限的注释资源，对科学信息的提取相对较少。同时，随着人们对于医疗资源的需求、相应的医学文档及病例数量激增，导致研究人员和医护人员需要快速对于病人的过去的医疗资料进行整理。从病人病例中可以快速帮助医护人员作出判断的往往是一些专业上的词汇或关键词，人工整理这些词汇和关键词需要非常多的时间，由于人力限制，不可能很快地完成大量病例、医疗资料的整理工作。综上所述，随着对于医疗资源需求的上升，如何自动对专业词汇或关键词进行标注以提升医护人员对于病例、医疗资料的处理速度并帮助他们更好地为病人治疗是目前迫切需要解决的问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足，提出一种医学文档专业词汇自动化标注方法，其采用半监督学习算法对数据量进行扩充，克服了以往医疗文本标注数据量不足导致的模型性能较差的问题，并最终提高了在文本中识别专业词汇和关键词的准确性。本专利技术解决其技术问题是采取以下技术方案实现的：一种医学文档专业词汇自动化标注方法，包括以下步骤：步骤1、对输入的医学文档进行数据预处理，得到预处理后的医学文档文本；步骤2、使用biLSTM建模文本，得到词的字母级特征向量；步骤3、使用word2vec建模文本，得到词的单词级特征向量；步骤4、基于文本语言语用特点，得到词的语言特征向量；步骤5、...

【技术保护点】
1.一种医学文档专业词汇自动化标注方法，其特征在于包括以下步骤：步骤1、对输入的医学文档进行数据预处理，得到预处理后的医学文档文本；步骤2、使用biLSTM建模文本，得到词的字母级特征向量；步骤3、使用word2vec建模文本，得到词的单词级特征向量；步骤4、基于文本语言语用特点，得到词的语言特征向量；步骤5、将步骤2、步骤3及步骤4得到词的字母级特征向量、单词级特征向量和语言特征向量进行融合，作为词的编码向量；步骤6、将分词后的医学文档文本的词标注为如下四类医学实体：疾病名称、疾病症状、治疗手段和药物名称，每一类实体用IOBES表示词在该实体中的具体位置，得到标注数据集；步骤7、将步骤1得到的文本以及步骤5得到的词的编码向量作为biLSTM的输入，对每一个词输出一个多维向量作为词的空间表示；步骤8、使用标签传播算法扩展标注数据集得到增强后的标注数据集；步骤9、将步骤7的多维向量作为词的空间表示作为词的向量，将步骤8得到的增强后的标注数据集输入条件随机场进行训练建模，并最终输出标注结果。

【技术特征摘要】
1.一种医学文档专业词汇自动化标注方法，其特征在于包括以下步骤：步骤1、对输入的医学文档进行数据预处理，得到预处理后的医学文档文本；步骤2、使用biLSTM建模文本，得到词的字母级特征向量；步骤3、使用word2vec建模文本，得到词的单词级特征向量；步骤4、基于文本语言语用特点，得到词的语言特征向量；步骤5、将步骤2、步骤3及步骤4得到词的字母级特征向量、单词级特征向量和语言特征向量进行融合，作为词的编码向量；步骤6、将分词后的医学文档文本的词标注为如下四类医学实体：疾病名称、疾病症状、治疗手段和药物名称，每一类实体用IOBES表示词在该实体中的具体位置，得到标注数据集；步骤7、将步骤1得到的文本以及步骤5得到的词的编码向量作为biLSTM的输入，对每一个词输出一个多维向量作为词的空间表示；步骤8、使用标签传播算法扩展标注数据集得到增强后的标注数据集；步骤9、将步骤7的多维向量作为词的空间表示作为词的向量，将步骤8得到的增强后的标注数据集输入条件随机场进行训练建模，并最终输出标注结果。2.根据权利要求1所述的一种医学文档专业词汇自动化标注方法，其特征在于：所述步骤1的具体实现方法为：首先对输入的医学文档进行分词，形成一个数组，存储文本中的每个词和标点符号，然后去除停用词，最后提取词干和词形还原，得到单词的基本形式，并构成未标注的单词数组。3.根据权利要求1所述的一种医学文档专业词汇自动化标注方法，其特征在于：所述步骤2的具体实现方法为：使用biLSTM对预处理后的医学文档文本的字母级特征进行编码，使用每个单词的首五个字母进行编码，最终得出长度为5d的字母级特征向量。4.根据权利要求1所述的一种医学文档专业词汇自动化标注方法，其特征在于：所述步骤3的具体实现方法为：使用Google的Word2Vec算法对预处理后的医学文档文本的单词级特征进行编码，最终得到长度为d的针对每个单词的单词级特征向量。5.根据权利要求1所述的一种医学文档专业词汇自动化标注方法，其特征在于：所述步骤4的具体实现方法为：根据文本语言语用特点，采用手工定义方法，对预处理...

【专利技术属性】
技术研发人员：王嫄，高铭，王栋，赵婷婷，赵青，陈亚瑞，史艳翠，孔娜，王洁，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人