一种医疗实体识别方法及装置制造方法及图纸

技术编号:35449722 阅读:10 留言:0更新日期:2022-11-03 12:04
本发明专利技术涉及一种医疗实体识别方法,包括:获取待识别的实体,通过特殊符号将实体和实体标签进行标注,根据实体和实体标签构建文本生成模型的输出模板;构建文本生成模型的输入和输出;输入为待识别文本序列和第一矩阵,第一矩阵为对待识别文本预处理后所得到的;输出为识别结果和第二矩阵,第二矩阵为对识别结果预处理后所得到的,识别结果根据输出模板进行展示;通过编码器对第一矩阵进行编码,得到待识别文本序列的编码表示;通过解码器对编码表示进行计算,得到解码表示;根据编码表示和解码表示,对文本生成模型进行训练,得到最终解码表示。表示。表示。

【技术实现步骤摘要】
一种医疗实体识别方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种医疗实体识别方法及装置。

技术介绍

[0002]医疗实体识别通常使用序列标注的方法,为每个字符定义BME标签,分 别表示该类实体的开头、实体中间位置和实体末尾的字符,O标签代表非实体 内部的字符;然后训练神经网络模型拟合每个元素的标签,最后针对预测结 果进行后处理,将BME标签进行合并,得到最终的抽取结果。
[0003]现有技术存在的问题为:使用序列标注方法时,文本粒度必须为字符, 而且该方法无法处理非连续医疗实体和嵌套医疗实体的识别任务。

技术实现思路

[0004]本专利技术的目的是提供一种医疗实体识别方法及装置,以解决现有技术中 所存在的使用序列标注方法时,文本粒度必须为字符,而且该方法无法处理 非连续医疗实体和嵌套医疗实体的识别任务的问题,
[0005]本专利技术第一方面提供了一种医疗实体识别方法,所述方法包括:
[0006]获取待识别的实体,通过特殊符号将所述实体和实体标签进行标注,根据 所述实体和实体标签构建文本生成模型的输出模板;
[0007]构建所述文本生成模型的输入和输出;所述输入为待识别文本序列和第 一矩阵,所述第一矩阵为对所述待识别文本预处理后所得到的;所述输出为识 别结果和第二矩阵,所述第二矩阵为对所述识别结果预处理后所得到的,所 述识别结果根据所述输出模板进行展示;
[0008]通过编码器对所述第一矩阵进行编码,得到待识别文本序列的编码表示; 通过解码器对所述编码表示进行计算,得到解码表示;
[0009]根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到 最终解码表示。
[0010]在一种可能的实现方式中,根据下列方法确定第一矩阵:
[0011]对待识别文本序列经过预训练语言模型BART进行预处理,得到第一矩阵。
[0012]在一种可能的实现方式中,所述通过编码器对所述待识别文本序列进行 编码,得到待识别文本序列的编码表示具体包括:
[0013]通过公式计算待识别文本序列中的每个字的编码表示;
[0014]其中,表示第n层中第t个字的编码表示,
[0015]在一种可能的实现方式中,所述根据所述编码表示和所述解码表示,对所 述文本生成模型进行训练,得到最终解码表示具体包括:
[0016]通过第一函数,对每个字解码表示进行计算,得到生成概率;
[0017]对解码表示进行矩阵变换,得到第一矩阵转换结果;
[0018]对编码表示进行矩阵变换,得到第二矩阵转换结果;
[0019]根据第一矩阵转换结果和第二矩阵转换结果,计算拷贝机制的分数;
[0020]根据第一矩阵转换结果和第二矩阵转换结果,计算平衡因子;
[0021]根据平衡因子、分数和生成概率,计算融合打分;
[0022]根据融合打分,确定最大概率对应的字作为生成结果;
[0023]依次将每个字的生成结果进行组合,得到最终解码表示;
[0024]根据特殊符号,提取识别结果。
[0025]在一种可能的实现方式中,所述通过第一函数,对每个字所述解码表示 进行计算,得到生成概率具体包括:
[0026]通过第一函数,对解码表示进行线性变化,得到线性变化结果;
[0027]根据所述线性变化结果,计算概率分布。
[0028]在一种可能的实现方式中,所述通过编码器对所述第一矩阵进行编码,得 到待识别文本序列的编码表示;通过解码器对所述编码表示进行计算,得到解 码表示具体包括:
[0029]编码表示通过公式计算;
[0030]其中,表示第n层中第t个字序列的编码表示,最顶层的编码表示h
N
,h
N
表 示第n层中所有字的编码表示,v
t
表示t时刻编码器的输入;
[0031]解码表示通过公式计算;
[0032]其中,h
N
表示编码器得到的隐状态,为第n层中第t个字序列的解码表示, u
t
表示t时刻解码器的输入。
[0033]第二方面,本专利技术提供了一种医疗实体识别装置,所述装置包括:
[0034]获取模块,所述获取模块用于获取待识别的实体,通过特殊符号将所述实 体和实体标签进行标注;
[0035]输出模板构建模块,所述输出模板构建模块用于根据所述实体和实体标 签构建文本生成模型的输出模板;
[0036]输入输出构建模块,所述输入输出构建模块用于构建所述文本生成模型 的输入和输出;所述输入为待识别文本序列和第一矩阵,所述第一矩阵为对所 述待识别文本预处理后所得到的;所述输出为识别结果和第二矩阵,所述第二 矩阵为对所述识别结果预处理后所得到的,所述识别结果根据所述输出模板 进行展示;
[0037]编解码模块,所述编解码模块用于通过编码器对所述第一矩阵进行编码, 得到待识别文本序列的编码表示;通过解码器对所述编码表示进行计算,得到 解码表示;
[0038]模型训练模块,所述模型训练模块用于根据所述编码表示和所述解码表 示,对所述文本生成模型进行训练,得到最终解码表示。
[0039]第三方面,本专利技术提供了一种芯片系统,包括处理器,所述处理器与存 储器的耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被 所述处理器执行时实现第一方面任一项所述的医疗实体识别方法。
[0040]第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存 储介质上存储有计算机程序,计算机程序被处理器执行第一方面任一项所述 的医疗实体识别方法。
[0041]第五方面,本专利技术提供了一种计算机程序产品,当所述计算机程序产品 在计算机
上运行时,使得所述计算机执行如第一方面任一项所述的医疗实体 识别方法。
[0042]通过应用本专利技术提供的实体识别方法,通过构建模板,将实体识别建模 为文本生成任务,打破了使用序列标注任务进行识别的壁垒,同时该方法还 融合了指针网络中的拷贝机制,能够直接将原句子中的实体拷贝到模板中, 可以解决实体识别中的非连续医疗实体和嵌套医疗实体任务。
附图说明
[0043]图1为本专利技术实施例一提供的医疗实体识别方法流程示意图;
[0044]图2为原句和结果示意图;
[0045]图3为图1中的步骤140的流程图;
[0046]图4为本专利技术实施例二提供的医疗实体识别装置结构示意图;
[0047]图5为本专利技术实施例三提供的芯片系统结构示意图;
[0048]图6为本专利技术实施例四提供的计算机可读存储介质示意图;
[0049]图7为本专利技术实施例五提供的计算机程序产品示意图。
具体实施方式
[0050]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0051]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗实体识别方法,其特征在于,所述方法包括:获取待识别的实体,通过特殊符号将所述实体和实体标签进行标注,根据所述实体和实体标签构建文本生成模型的输出模板;构建所述文本生成模型的输入和输出;所述输入为待识别文本序列和第一矩阵,所述第一矩阵为对所述待识别文本预处理后所得到的;所述输出为识别结果和第二矩阵,所述第二矩阵为对所述识别结果预处理后所得到的,所述识别结果根据所述输出模板进行展示;通过编码器对所述第一矩阵进行编码,得到待识别文本序列的编码表示;通过解码器对所述编码表示进行计算,得到解码表示;根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到最终解码表示。2.根据权利要求1所述的方法,其特征在于,根据下列方法确定第一矩阵:对待识别文本序列经过预训练语言模型BART进行预处理,得到第一矩阵。3.根据权利要求1所述的方法,其特征在于,所述通过编码器对所述待识别文本序列进行编码,得到待识别文本序列的编码表示具体包括:通过公式计算待识别文本序列中的每个字的编码表示;其中,表示第n层中第t个字的编码表示,4.根据权利要求1所述的方法,其特征在于,所述根据所述编码表示和所述解码表示,对所述文本生成模型进行训练,得到最终解码表示具体包括:通过第一函数,对每个字解码表示进行计算,得到生成概率;对解码表示进行矩阵变换,得到第一矩阵转换结果;对编码表示进行矩阵变换,得到第二矩阵转换结果;根据第一矩阵转换结果和第二矩阵转换结果,计算拷贝机制的分数;根据第一矩阵转换结果和第二矩阵转换结果,计算平衡因子;根据平衡因子、分数和生成概率,计算融合打分;根据融合打分,确定最大概率对应的字作为生成结果;依次将每个字的生成结果进行组合,得到最终解码表示;根据特殊符号,提取识别结果。5.根据权利要求4所述的方法,其特征在于,所述通过第一函数,对每个字所述解码表示进行计算,得到生成概率具体包括:通过第一函数,对解码表示进行线性变化,得到线性变化结果;根据所述线性变化结果,计算概率分布。6.根据权利要求1所述的方法,其特征在于,所述通过编码器对所述第一矩阵进行编码,得到待识别文本序列的编码表示;...

【专利技术属性】
技术研发人员:王亦宁刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1