基于RWLSTM模型融合的医疗命名实体识别系统及方法技术方案

技术编号:34272874 阅读:21 留言:0更新日期:2022-07-24 16:27
本发明专利技术涉及基于RWLSTM模型融合的医疗命名实体识别系统及方法,由数据预处理模块,对用户问句分词、实体标注、词典构建;文本编码模块,将文本转化为可理解的数据类型和计算单元;模型建模模块,根据任务构建模型的框架;实体提取模块,对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;词典构建模块,构建医疗病历的命名实体语料词典。将电子医疗病历文本进行数据预处理,中文分词模块对文本进行分词,实体标注模块对文本进行标注,再对一些错误和无用的数据进行剔除;通过数据预处理模块对电子病历进行数据清洗,有效减少了模型训练时间成本;解决了医疗领域的电子病历领域命名实体识别问题。电子病历领域命名实体识别问题。电子病历领域命名实体识别问题。

Medical named entity recognition system and method based on rwlstm model fusion

【技术实现步骤摘要】
基于RWLSTM模型融合的医疗命名实体识别系统及方法


[0001]本专利技术涉及一种基于RWLSTM模型融合的医疗命名实体识别系统及方法。

技术介绍

[0002]目前,人工智能技术高速发展,迫切需要利用现有的技术真正的解决人类社会现实生活中的问题,才能真正从技术之中获益。电子病历产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含大量与患者健康状况密切相关的医疗知识,因而对其识别和抽取是信息抽取和自然语言处理研究在医疗领域的重要扩展。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确,实体的类型是否标注正确。然而,语言内容的底层结构不一定是连续的,可能是复合的。这就导致了链式模型在处理语言结构的不适用性。在汉语命名实体识别任务中,单词歧义仍然存在。在无法提取上下文信息的情况下,识别具有重叠歧义字符串或多义的命名实体更具挑战性。由于命名实体识别上几乎所有以前的模型都是特定于语言,所以致力于通过探索神经网络的有线模式来构建一个能够处理更长文本序列的模型。与英语相比,汉语命名实体识别任务更加复杂,由于分词等因素影响其难度较大;并且目前的命名实体无论是英文或者中文语境中都是在通用语料库上进行,对于一些专业领域基本上没有应用,例如医疗领域。
[0003]命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、二者混合的方法等,基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于词典和词典的建立;基于规则和词典的方法是命名实体识别中最早使用的方法。
[0004]基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以在较短时间内完成;基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Fields,CRF)等。

技术实现思路

[0005]本专利技术的目的是克服现有技术存在的不足,提供一种基于RWLSTM模型融合的医疗命名实体识别系统及方法。
[0006]本专利技术的目的通过以下技术方案来实现:
[0007]基于RWLSTM模型融合的医疗命名实体识别系统,特点是:包含数据预处理模块、文本编码模块、模型建模模块、实体提取模块以及词典构建模块;
[0008]所述数据预处理模块,对用户问句分词、实体标注、词典构建;
[0009]所述文本编码模块,将文本转化为可理解的数据类型和计算单元;
[0010]所述模型建模模块,根据任务构建模型的框架;
[0011]所述实体提取模块,对通过构建模型的运算且经过特征提取之后的信息进行实体
提取并进行分类;
[0012]所述词典构建模块,构建医疗病历的命名实体语料词典。
[0013]进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述数据预处理模块包含中文分词模块、实体标注模块和数据清洗模块,所述中文分词模块,用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述实体标注模块,用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;所述数据清洗模块,对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。
[0014]进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述文本编码模块,将数据预处理模块处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词表示;最后,将采用单词表示与词典相结合,生成综合的单词表示向量。
[0015]进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述模型建模模块包含预训练模块和特征提取模块;所述预训练模块,词向量在进入特征提取之前,将字符级单词向量序列与词典相结合生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块,预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。
[0016]进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述实体提取模块,将经过预训练模块和特征提取模块后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。
[0017]进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别系统,其中,所述词典构建模块,包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。
[0018]本专利技术基于RWLSTM模型融合的医疗命名实体识别方法,包括以下步骤:
[0019]首先,将电子病历的文本进行数据预处理;
[0020]然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;
[0021]之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
[0022]其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;
[0023]最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。
[0024]更进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别方法,其中,由数据预处理模块,对电子病历文本进行中文分词以及命名实体标注;由文本编码模块,对文本数据采用BiLSTM编码;由模型建模模块,将词向量输入预训练模块形成上下文相关的词向量,然后再进入特征提取模块进行词向量的特征提取;由实体提取模块,将提取的特征转化成实体序列;由词典构建模块,从网络上爬取相关信息和相关公开数据集提供最初的电子病
历文本数据。
[0025]更进一步地,上述的基于RWLSTM模型融合的医疗命名实体识别方法,其中,由数据预处理模块的中文分词模块,对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块的实体标注模块,对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;
[0026]由文本编码模块将文本数据采用BiLSTM编码处理成可理解和处理的编码序列;其采用记忆门,遗忘门来计算词向量,并对文本序列的前后词信息及其特征进行捕捉,以此来学习实体的边界和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:包含数据预处理模块(1)、文本编码模块(2)、模型建模模块(3)、实体提取模块(4)以及词典构建模块(5);所述数据预处理模块(1),对用户问句分词、实体标注、词典构建;所述文本编码模块(2),将文本转化为可理解的数据类型和计算单元;所述模型建模模块(3),根据任务构建模型的框架;所述实体提取模块(4),对通过构建模型的运算且经过特征提取之后的信息进行实体提取并进行分类;所述词典构建模块(5),构建医疗病历的命名实体语料词典。2.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述数据预处理模块(1)包含中文分词模块(101)、实体标注模块(102)和数据清洗模块(103),所述中文分词模块(101),用于电子病历中文本中文分词,将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述实体标注模块(102),用于实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;所述数据清洗模块(103),对实体标注后的数据进行重新检查其标注的正确性和有效性,剔除实体标注错误的数据。3.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述文本编码模块(2),将数据预处理模块(1)处理后的文本数据采用BiLSTM编码,提供丰富的单词边界信息;然后,将前向和后向嵌入连接起来作为字符级单词向量表示;最后,将字符级单词向量序列与词典相结合,生成综合的单词表示向量。4.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述模型建模模块(3)包含预训练模块(301)和特征提取模块(302);所述预训练模块(301),词向量在进入特征提取之前,将文本编码后结合词典模块的生成综合的单词表示向量采用RWLSTM预训练模型训练生成上下文相关的词向量;所述特征提取模块(302),预训练模型生成的上下文相关的词向量进行运算,从词向量提取实体类别和实体边界的特征。5.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述实体提取模块(4),将经过预训练模块(301)和特征提取模块(302)后的数据进行实体提取,利用条件随机场将一个序列经过运算映射成另外一个序列,在命名实体识别中,经过条件随机场得到的序列即为命名实体的标签,标签包含实体边界和实体类别信息。6.根据权利要求1所述的基于RWLSTM模型融合的医疗命名实体识别系统,其特征在于:所述词典构建模块(5),包含公开数据集和网络爬取符合要求的数据,词典构建保持实体类别数量的相对平衡。7.利用权利要求1所述的系统实现基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:包括以下步骤:首先,将电子病历的文本进行数据预处理;然后,将数据预处理之后的文本数据进行BiLSTM编码,并将生成的字符级词向量序列与词典相结合,以综合的单词表示向量后进入RWLSTM预训练模型模块进行训练,生成上下文相关的词向量;之后,将词向量输入到特征提取模块进行特征提取,提取到实体边界特征和类别特征,特征在数学上的表示均是高维向量;
其次,将特征向量输入实体提取模块,提取文本的实体;实体提取模块输入每一个实体类别的概率,概率最高的类别即是最终的输出结果;最后,将实体和实体类别输出,作为最终输出,作为医生诊断依据。8.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1),对电子病历文本进行中文分词以及命名实体标注;由文本编码模块(2),对文本序列采用BiLSTM编码;由模型建模模块(3),将词向量输入预训练模块形成上下文相关的词向量,然后再由特征提取模块进行词向量的特征提取;由实体提取模块(4),将提取的特征转化成实体序列;由词典构建模块(5),从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。9.根据权利要求7所述的基于RWLSTM模型融合的医疗命名实体识别方法,其特征在于:由数据预处理模块(1)的中文分词模块(101),对电子病历中文本中文分词,将文本中的词语进行切分出,采用分词工具,得到一串词汇序列;数据预处理模块(1)的实体标注模块(102),对实体标注,采用实体标注的工具将切分好的词语标注实体标签,以便在实体分类时依据实体标签判断实体的类型;由文本编码模块(2)将文本数据采用BiLSTM编码处理成可理解和处理的编码序列;其采用记忆门...

【专利技术属性】
技术研发人员:奚雪峰陈杰杨阳左严崔志明
申请(专利权)人:江苏新希望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1