医疗命名实体识别模型训练方法、装置、设备及介质制造方法及图纸

技术编号:37042388 阅读:10 留言:0更新日期:2023-03-29 19:21
本公开提供了基于半监督的医疗命名实体识别模型训练方法、装置、设备及介质。该方法包括构造大量未标注分类训练数据;将分类训练数据输入包括第一编码模块和第一损失函数模块的二分类模型进行训练;基于第一损失函数模块的结果,多次训练二分类模型以优化第一编码模块的第一编码参数集;生成少量经标注训练数据,标注是针对数据中的医疗命名实体的标注;将经标注训练数据输入包括第二编码模块和第二损失函数模块的命名实体识别模型进行训练,其中第二编码模块使用优化后的第一编码参数集作为第二编码模块的第二编码参数集的初始值;以及基于第二损失函数模块的结果,使用经标注训练数据训练命名实体识别模型以获得优化后的第二编码参数集。化后的第二编码参数集。化后的第二编码参数集。

【技术实现步骤摘要】
医疗命名实体识别模型训练方法、装置、设备及介质


[0001]本公开涉及数据处理领域,更具体地,涉及基于半监督的医疗命名实体识别模型训练方法、装置、设备及介质。

技术介绍

[0002]医疗文本中通常具有医疗命名实体,因此医疗文本通常可以作为构建医疗信息系统的核心数据。在这种情况下,如何对医疗文本的结构化、标准化处理成为了构建医疗领域数据处理的基础。
[0003]随着大数据和人工智能技术的迅速发展以及相关应用的日趋成熟,医疗数据分析技术有了新的进步。诸如医疗健康信息抽取和知识发现等技术成为了医疗领域数据处理的重要的研究方向。针对这些技术,如何从医疗文本数据中识别医疗命名实体变得十分重要。
[0004]由于医疗文本数据通常具有多源异构性、复杂性和海量性等特性,因此在面对不同的临床和用户的信息需求的情况下,如何快速准确地对医疗文本数据进行医疗命名实体识别面临着巨大挑战。现有的医疗命名实体识别方法是利用针对医疗领域的自然语言处理应用。一方面,在这样的方法中所采用的传统的机器学习模型通常需要大量的人工标注数据才能训练出较好的效果。另一方面,相比于一般领域的命名实体,对医疗命名实体识别的标注通常更加困难。主要原因是:(1)医疗领域包含大量的实体概念,实体识别任务繁重;(2)实体概念上下文约束较多,相同实体词在不同上下文实体类型可能不同;(3)实体间的长度可能存在巨大的差异,对于一些疾病名称和药品名称,实体的长度可能会很长,甚至某些实体可能包含10个以上的字符,而又存在部分实体仅包含1个字符;(4)实体间还存在包含和交叉的情况。因此,在现有技术中,需要很高的人工成本并且对大量的数据进行标注才能对机器学习模型进行训练以实现具有较好效果的医疗命名实体识别。
[0005]因此,需要一种新的医疗命名实体识别方法来解决上述技术问题。

技术实现思路

[0006]针对上述问题,本公开提供了一种基于半监督的医疗命名实体识别模型训练方法、装置、设备及介质,该方法通过使用大量的未标注的分类训练数据来对二分类模型进行训练以获得良好的分类模型参数,并将该分类模型参数用于医疗命名实体识别模型,从而实现在仅使用少量经标注的数据对命名实体识别模型进行训练的情况下就可以获得具有良好识别效果的命名实体识别模型,从而节省了人工成本。
[0007]根据本公开的一方面提供了一种基于半监督学习的医疗命名实体识别模型训练方法,包括:获取第一文本数据集,对所述第一文本数据集中的每个文本数据执行第一预处理以构造第一数量的未标注的分类训练数据;将所述第一数量的分类训练数据输入二分类模型进行训练以获得训练后的二分类模型,其中所述二分类模型包括第一编码模块和第一损失函数模块;基于所述第一损失函数模块的结果,多次使用所述第一数量的分类训练数据训练所述二分类模型以优化所述第一编码模块的第一编码参数集;获取第二文本数据
集,对所述第二文本数据集中的每个文本数据执行第二预处理以生成第二数量的经标注的训练数据,其中所述标注是针对所述第二文本数据集中的每个文本数据的医疗命名实体的标注,所述第一数量大于所述第二数量;将所述第二数量的经标注的训练数据输入命名实体识别模型进行训练以获得训练后的命名实体识别模型,所述命名实体识别模型包括第二编码模块和第二损失函数模块,其中所述第二编码模块使用优化后的第一编码参数集作为所述第二编码模块的第二编码参数集的初始值;以及基于所述第二损失函数模块的结果,多次使用所述第二数量的经标注的训练数据训练所述命名实体识别模型以获得优化后的第二编码参数集。
[0008]根据本公开的一些实施例,所述二分类模型基于所述分类训练数据是否包含医疗命名实体进行分类。
[0009]根据本公开的一些实施例,对所述第一文本数据集中的每个文本数据执行第一预处理以构造第一数量的未标注的分类训练数据包括:获取医疗命名实体知识概念图谱,其中所述医疗命名实体知识概念图谱具有预定义的医疗命名实体;将所述医疗命名实体知识概念图谱与所述第一文本数据集中的每个文本数据进行最大文本匹配,以确定所述第一文本数据集中的每个文本数据是否包含一个或多个医疗命名实体;基于所述第一文本数据集中的包含一个或多个医疗命名实体的文本数据构造所述第一数量的未标注的分类训练数据。
[0010]根据本公开的一些实施例,基于所述第一文本数据集中的包含一个或多个医疗命名实体的文本数据构造所述第一数量的未标注的分类训练数据包括:针对所述第一文本数据集中的包含医疗命名实体的第一文本数据,确定所述第一文本数据包含L个医疗命名实体,其中L大于等于1;对所述第一文本数据进行拆分以生成L个未标注的分类训练数据,其中每个分类训练数据包含一个医疗命名实体;以及基于所述第一文本数据集中的包含医疗命名实体的每个文本数据,构造第一数量的未标注的分类训练数据。
[0011]根据本公开的一些实施例,所述第一损失函数模块的结果包括:所述第一数量的未标注的分类训练数据包括医疗命名实体的概率;以及基于所述第一损失函数模块的结果,多次使用所述第一数量的分类训练数据训练所述二分类模型以优化所述第一编码模块的第一编码参数集包括:多次使用所述第一数量的分类训练数据训练所述二分类模型以提高所述概率;当所述概率超过预定阈值时,将当前的第一编码参数集作为所述优化后的第一编码参数集。
[0012]根据本公开的一些实施例,对所述第二文本数据集中的每个文本数据执行第二预处理以生成第二数量的经标注的训练数据包括:基于预定的词汇划分规则,将所述第二文本数据集中的每个文本数据划分为一个或多个词汇;将划分后的所述第二文本数据集中的每个文本数据与医疗知识数据库进行最大文本匹配,以生成第二数量的经粗略标注的训练数据;接收针对所述第二数量的经粗略标注的训练数据的标注信息,其中所述标注信息包括针对所述第二数量的经粗略标注的训练数据中的字符的特定标签;以及基于所述标注信息生成所述第二数量的经标注的训练数据。
[0013]根据本公开的一些实施例,所述特定标签包括:针对非医疗命名实体中的每个字符的第一标签;针对医疗命名实体中的开始字符的第二标签;针对医疗命名实体中的中间字符的第三标签;以及针对医疗命名实体中的结尾字符的第四标签。
[0014]根据本公开的一些实施例,所述第二损失函数模块包括条件随机场模型结构,其中所述随机场模型结构基于预定约束条件对所述第二编码模块的输出结果进行约束。
[0015]根据本公开的一些实施例,所述预定约束条件包括:所述训练数据中的每个实体的开始标签被约束为第一标签或第二标签;在所述第二标签后的下一标签被约束为第三标签或第四标签;以及在所述第三标签后的下一标签被约束为第三标签或第四标签。
[0016]根据本公开的一些实施例,所述第一编码模块对分类训练数据进行编码以输出所述分类训练数据的向量化表示;以及所述第二编码模块对训练数据进行编码以输出所述训练数据的向量化表示。
[0017]根据本公开的一些实施例,所述第一编码模块与所述第二编码模块包括相同的深度模型结构,其中所述深度模型结构包括B本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的医疗命名实体识别模型训练方法,包括:获取第一文本数据集,对所述第一文本数据集中的每个文本数据执行第一预处理以构造第一数量的未标注的分类训练数据;将所述第一数量的分类训练数据输入二分类模型进行训练以获得训练后的二分类模型,其中所述二分类模型包括第一编码模块和第一损失函数模块;基于所述第一损失函数模块的结果,多次使用所述第一数量的分类训练数据训练所述二分类模型以优化所述第一编码模块的第一编码参数集;获取第二文本数据集,对所述第二文本数据集中的每个文本数据执行第二预处理以生成第二数量的经标注的训练数据,其中所述标注是针对所述第二文本数据集中的每个文本数据的医疗命名实体的标注,所述第一数量大于所述第二数量;将所述第二数量的经标注的训练数据输入命名实体识别模型进行训练以获得训练后的命名实体识别模型,所述命名实体识别模型包括第二编码模块和第二损失函数模块,其中所述第二编码模块使用优化后的第一编码参数集作为所述第二编码模块的第二编码参数集的初始值;以及基于所述第二损失函数模块的结果,多次使用所述第二数量的经标注的训练数据训练所述命名实体识别模型以获得优化后的第二编码参数集。2.根据权利要求1所述的方法,其中,所述二分类模型基于所述分类训练数据是否包含医疗命名实体进行分类。3.根据权利要求2所述的方法,其中,对所述第一文本数据集中的每个文本数据执行第一预处理以构造第一数量的未标注的分类训练数据包括:获取医疗命名实体知识概念图谱,其中所述医疗命名实体知识概念图谱具有预定义的医疗命名实体;将所述医疗命名实体知识概念图谱与所述第一文本数据集中的每个文本数据进行最大文本匹配,以确定所述第一文本数据集中的每个文本数据是否包含一个或多个医疗命名实体;基于所述第一文本数据集中的包含一个或多个医疗命名实体的文本数据构造所述第一数量的未标注的分类训练数据。4.根据权利要求3所述的方法,其中,基于所述第一文本数据集中的包含一个或多个医疗命名实体的文本数据构造所述第一数量的未标注的分类训练数据包括:针对所述第一文本数据集中的包含医疗命名实体的第一文本数据,确定所述第一文本数据包含L个医疗命名实体,其中L大于等于1;对所述第一文本数据进行拆分以生成L个未标注的分类训练数据,其中每个分类训练数据包含一个医疗命名实体;以及基于所述第一文本数据集中的包含医疗命名实体的每个文本数据,构造第一数量的未标注的分类训练数据。5.根据权利要求3所述的方法,其中,所述第一损失函数模块的结果包括:所述第一数量的未标注的分类训练数据包括医疗命名实体的概率;以及基于所述第一损失函数模块的结果,多次使用所述第一数量的分类训练数据训练所述二分类模型以优化所述第一编码模块的第一编码参数集包括:
多次使用所述第一数量的分类训练数据训练所述二分类模型以提高所述概率;当所述概率超过预定阈值时,将当前的第一编码参数集作为所述优化后的第一编码参数集。6.根据权利要求1所述的方法,其中,对所述第二文本数据集中的每个文本数据执行第二预处理以生成第二数量的经标注的训练数据包括:基于预定的词汇划分规则,将所述第二文本数据集中的每个文本数据划分为一个或多个词汇;将划分后的所述第二文本数据集中的每个文本数据与医疗知识数据库进行最大文本匹配,以生成第二数量的经粗略标注的训练数据;接收针对所述第二数量的经粗略标注的训练数据的标注信息,其中所述标注信息包括针对所述第二数量的经粗略标注的训练数据中的字符的特定标签;以及基于所述标注信息生成所述第二数量的经标注的训练数据。7.根据权利要求6所述的方法,其中,所述特定标签包括:针对非医疗命名实体中的每个字符的第一标签;针对医疗命名实体中的开始字符的第二标签;针对医疗命名实体中的中间字符的第三标签;以及针对医疗命名实体中的结尾字符的第四标签。8.根据权利要求7所述的方法,其中,所述第二损失函数模块包括条件随机场模型结构,其中所述随机场模型结构基于预定约束条件对所述第二编码模块的输出结果进行约束。9.根据权利要求8所述的方法,其中,所述预定约束条件包括:所述训练数据中的每个实体的开始标签被约束为第一标签或第二标签;在所述第二标签后的下一标签被约束为第三标签或第四标签;以及在所述第三标签后的下一标签被约束为第三标签或第四标签。10.根据权利要求1所述的方法,其中,所述第一编码模块对分类训练数据进行编码以输出所述分类训练数据的向量化表示;以及所述第二编码模块对训练数据进行编码以输出所述训练数据的向量化表示。11.根据权利要求10所述的方法,其中,所述第一编码模块与所述第二编码模块包括相同的深度模型结构,其中所述深度模型结构包括BILSTM、LISTM、textCNN、TRANSFORMER或BERT中的至少一个。12.根据权利要求11所述的方法,其中,所述第一编码参数集和所述第二编码参数集的参数总量取决于所述深度模型结构的输入向量的维度以及隐藏层的维度。13.根据权利要求12所述的方法,其中,当所述深度模型结构的输入向量的维度为n以及隐藏层的维度m时,所述参数总量为8(m2+2m+mn)。14.一种基于半监督学习的医疗命名实体识别方法,包括:将无标注的文本数据输入训练后的命名实体识别模型以识别所述文本数据中的医疗命名实体,其中,所述训练后的命名实体识别模型是基于权利要求1

13中任一项所述的基于半监督学习的医疗命名实体识别模型训练方法获得的。
15.一种基于半监督学习的医疗命名实体识别模型训练装置,包括:分类训练数据构造单元,被配置为获取第一文本数据集,对所述第一文本数据集中的每个文本数据执行第一预处理以构造第一数量的未标注的分类训练数据;二分类模型训练单元,被配置为将所述第一数量的分类训练数据输入二分类模型进行训练以获得训练后的二分类模型...

【专利技术属性】
技术研发人员:刘京华左塞
申请(专利权)人:北京壹永科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1