基于长短期记忆网络的医疗文本术语自动识别方法及系统技术方案

技术编号：19778319 阅读：148 留言：0更新日期：2018-12-15 11:19

本发明专利技术公开了一种基于长短期记忆网络的医疗文本术语自动识别方法及系统，为了实现从医学文本中自动抽取医学术语类实体而设计。本发明专利技术基于长短期记忆网络的医疗文本术语自动识别方法包括，将医学文本语句中每个文字使用预训练的字向量表示，得到训练数据；将训练数据输入至双向长短记忆网络中，得到医学文本语句中每个文字概率最大的标签类别；将每个文字概率最大的标签类别此输出结果输入到条件随机场中，使用维特比算法计算联合概率最大的标注序列。本发明专利技术融合了双向长短时记忆网络和条件随机场各自的优势，能有效提升字标注的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于长短期记忆网络的医疗文本术语自动识别方法及系统
本专利技术涉及机器学习领域，具体涉及一种基于长短期记忆网络的医疗文本术语自动识别方法及系统。
技术介绍
传统的医学术语识别系统可分为基于词库匹配的术语识别系统和基于机器学习的医学术语自动识别系统。基于词库匹配的医学术语自动识别系统具有精确率高、识别速度快的优点，但对医学规模和质量有着很高的要求，且对未登录字典的术语无法识别，即召回率往往不足。基于传统机器学习方法的医学术语自动识别系统，可以从训练数据中学习医学术语的上下文信息，根据上下文信息来识别医学术语，避免了字典匹配对未登录字典术语无法识别的状况，大大地提高了召回率，但精确率往往较低。鉴于上述，本设计人，积极加以研究创新，以期创设一种基于长短期记忆网络的医疗文本术语自动识别方法及系统，使其更具有产业上的利用价值。
技术实现思路
为解决上述技术问题，本专利技术的目的是提供一种高精确率，高召回率的基于长短期记忆网络的医疗文本术语自动识别方法及系统。本专利技术基于长短期记忆网络的医疗文本术语自动识别方法，包括，将医学文本语句中每个文字使用预训练的字向量表示，得到训练数据；将训练数据输入至双向长短记忆网络中，得到医学文本语句中每个文字概率最大的标签类别；将每个文字概率最大的标签类别此输出结果输入到条件随机场中，使用维特比算法计算联合概率最大的标注序列。进一步地，用word2vec的文本向量训练方式得到字向量，生成的字向量矩阵L为n×m维矩阵，其中n代表字典中的字数，m代表每个字向量的维数，通常m在100到300之间取值。本专利技术基于长短期记忆网络的医疗文本术语自...

【技术保护点】
1.一种基于长短期记忆网络的医疗文本术语自动识别方法，其特征在于，包括，将医学文本语句中每个文字使用预训练的字向量表示，得到训练数据；将训练数据输入至双向长短记忆网络中，得到医学文本语句中每个文字概率最大的标签类别；将每个文字概率最大的标签类别此输出结果输入到条件随机场中，使用维特比算法计算联合概率最大的标注序列。

【技术特征摘要】
1.一种基于长短期记忆网络的医疗文本术语自动识别方法，其特征在于，包括，将医学文本语句中每个文字使用预训练的字向量表示，得到训练数据；将训练数据输入至双向长短记忆网络中，得到医学文本语句中每个文字概率最大的标签类别；将每个文字概率最大的标签类别此输出结果输入到条件随机场中，使用维特比算法计算联合概率最大的标注序列。2.根据权利要求1所述的基于长短期记忆网络的医疗文本术语自动识别方法，其特征在于，用word2vec的文本向量训练方式得到字向量，生成的字向量矩阵L为n×m维矩阵，其中n代表字典中的字数，m代表每个字向量的维数，通常m在100到300之间取值。3.一种基于长短期记忆网络的医疗文本术语自动识别系统，其特征在于，包括：字向量模型单元，用...

【专利技术属性】
技术研发人员：赵孟海，严志华，
申请(专利权)人：上海金仕达卫宁软件科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人