训练数据确定方法、装置和计算机设备制造方法及图纸

技术编号:38266012 阅读:13 留言:0更新日期:2023-07-27 10:23
本申请涉及一种训练数据确定方法、装置、计算机设备和可读存储介质,该方法包括:获取原始病历数据集和预设的医疗标注数据集;根据原始病历数据集和医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型;将医疗非标注数据集输入初步训练语言模型,输出医疗非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度;若各匹配度均大于预设匹配度,则将医疗非标注数据集确定为初步训练语言模型的训练数据集。采用本方法能够解决医疗命名实体识别任务中可用电子病历不足导致的模型得不到充分训练的问题。导致的模型得不到充分训练的问题。导致的模型得不到充分训练的问题。

【技术实现步骤摘要】
训练数据确定方法、装置和计算机设备


[0001]本申请涉及人工智能处理领域,特别是涉及一种训练数据确定方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]利用自然语言处理技术分析医疗文本是医疗领域研究的重要方向,无论是信息抽取、信息检索以及医疗领域问答系统的构建等都离不开命名实体识别(Named Entity Recognition,NER)技术的支持。
[0003]NER是信息提取的一个子任务,是用于提取文本中的命名实体,并确定命名实体的实体类别的一种文本识别技术,在各领域有着广泛应用。以NER应用在医疗领域为例进行说明,NER是构建医学知识图谱、医学大数据的基础,是实现病历智能解析以及医学智能化的重要基础。
[0004]目前,医疗命名实体识别任务主要通过预训练语言模型实现。预训练语言模型需要使用大量标注好的数据集对模型进行训练。然而,传统方式采用电子病历数据集作为训练数据集,会使得模型得不到充分训练而训练效果差,导致命名实体识别结果准确性低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种提高医疗命名实体识别结果准确性的训练数据确定方法、装置、计算机设备、存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种训练数据确定方法,所述方法包括:
[0007]获取原始病历数据集和预设的医疗标注数据集;
[0008]根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型;
>[0009]将所述医疗非标注数据集输入所述初步训练语言模型,输出所述医疗非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度;
[0010]若各所述匹配度均大于预设匹配度,则将所述医疗非标注数据集确定为所述初步训练语言模型的训练数据集。
[0011]在其中一个实施例中,所述根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型,包括:
[0012]对所述原始病历数据集进行同义词替换,得到更新后的原始病历数据集;
[0013]根据所述更新后的原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型。
[0014]在其中一个实施例中,所述根据所述更新后的原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型,包括:
[0015]确定所述更新后的原始病历数据集的第一字符平均长度和所述医疗标注数据集的第二字符平均长度;
[0016]若所述第一字符平均长度大于所述第二字符平均长度,则根据所述第一字符平均长度和所述第二字符平均长度的比值,确定所述医疗标注数据集每轮采样的采样次数;
[0017]按照所述每轮采样的采样次数对所述医疗标注数据集进行采样,得到每轮采样的采样数据;
[0018]对所述每轮采样的采样数据分别进行拼接,得到至少一个字符长度为所述第一字符平均长度的第一拼接数据组成的第一拼接数据集;
[0019]根据所述第一拼接数据集和所述更新后的原始病历数据集对所述预训练语言模型进行更新,得到初步训练语言模型。
[0020]在其中一个实施例中,所述将医疗非标注数据集输入所述初步训练语言模型,输出所述医疗文本非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度,包括:
[0021]确定所述更新后的原始病历数据集的第一字符平均长度;
[0022]将所述医疗非标注数据集中各医疗非标注数据进行拼接,得到第二拼接数据;
[0023]对所述第二拼接数据进行切割,得到至少一个字符长度为所述第一字符平均长度的切割数据;
[0024]将各所述切割数据输入初步训练语言模型,输出所述医疗文本非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度。
[0025]在其中一个实施例中,所述方法还包括:
[0026]根据所述训练数据集对所述初步训练语言模型进行训练,当所述初步训练语言模型输出的每个字符与每个字符对应的实体类别标签之间的匹配度的均值为预设阈值时,得到训练好的目标训练语言模型。
[0027]在其中一个实施例中,所述方法还包括:
[0028]获取待识别医疗文本;
[0029]将所述待识别医疗文本输入所述目标训练语言模型,输出所述待识别医疗文本中各字符的目标实体类别标签,以及各所述字符和各自对应的实体类别标签之间的目标匹配度。
[0030]第二方面,本申请还提供了一种训练数据确定装置,所述装置包括:
[0031]获取模块,用于获取原始病历数据集和预设的医疗标注数据集;
[0032]第一训练模块,用于根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型;
[0033]输入输出模块,用于将医疗非标注数据集输入所述初步训练语言模型,输出所述医疗非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度;
[0034]第一确定模块,用于若各所述匹配度均大于预设匹配度,则将所述医疗非标注数据集确定为所述初步训练语言模型的训练数据集。
[0035]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0036]获取原始病历数据集和预设的医疗标注数据集;
[0037]根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型;
[0038]将所述医疗非标注数据集输入所述初步训练语言模型,输出所述医疗非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度;
[0039]若各所述匹配度均大于预设匹配度,则将所述医疗非标注数据集确定为所述初步训练语言模型的训练数据集。
[0040]在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0041]对所述原始病历数据集进行同义词替换,得到更新后的原始病历数据集;
[0042]根据所述更新后的原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型。
[0043]在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0044]确定所述更新后的原始病历数据集的第一字符平均长度和所述医疗标注数据集的第二字符平均长度;
[0045]若所述第一字符平均长度大于所述第二字符平均长度,则根据所述第一字符平均长度和所述第二字符平均长度的比值,确定所述医疗标注数据集每轮采样的采样次数;
[0046]按照所述每轮采样的采样次数对所述医疗标注数据集进行采样,得到每轮采样的采样数据;
[0047]对所述每轮采样的采样数据分别进行拼接,得到至少一个字符长度为所述第一字符平均长度的第一拼接数据组成的第一拼接数据集;
[0048]根据所述第一拼接数据集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种训练数据确定方法,其特征在于,所述方法包括:获取原始病历数据集和预设的医疗标注数据集;根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型;将所述医疗非标注数据集输入所述初步训练语言模型,输出所述医疗非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度;若各所述匹配度均大于预设匹配度,则将所述医疗非标注数据集确定为所述初步训练语言模型的训练数据集。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型,包括:对所述原始病历数据集进行同义词替换,得到更新后的原始病历数据集;根据所述更新后的原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述更新后的原始病历数据集和所述医疗标注数据集对预训练语言模型进行训练,得到初步训练语言模型,包括:确定所述更新后的原始病历数据集的第一字符平均长度和所述医疗标注数据集的第二字符平均长度;若所述第一字符平均长度大于所述第二字符平均长度,则根据所述第一字符平均长度和所述第二字符平均长度的比值,确定所述医疗标注数据集每轮采样的采样次数;按照所述每轮采样的采样次数对所述医疗标注数据集进行采样,得到每轮采样的采样数据;对所述每轮采样的采样数据分别进行拼接,得到至少一个字符长度为所述第一字符平均长度的第一拼接数据组成的第一拼接数据集;根据所述第一拼接数据集和所述更新后的原始病历数据集对所述预训练语言模型进行更新,得到初步训练语言模型。4.根据权利要求1所述的方法,其特征在于,所述将医疗非标注数据集输入所述初步训练语言模型,输出所述医疗文本非标注数据集中每个字符与每个字符对应的实体类别标签之间的匹配度,包括:确定所述原始病历数据集的所述第一字符平均长度;将所述医疗非标注数据集中...

【专利技术属性】
技术研发人员:梁素改王升升
申请(专利权)人:杭州市第七人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1