System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别是涉及医疗领域标注数据的获取方法、装置、电子设备,以及计算机可读存储介质。
技术介绍
1、在医疗知识问答模型的训练过程中,医学实体识别技术与医疗领域文本分类是两个至关重要的技术任务。医学实体识别任务旨在辨识问题中涉及的重要医学实体,例如病变部位、疾病、药物等,为后续问题处理提供关键信息。医疗领域文本分类则可以将文本分类至指定的医学科目类别或更进一步的科目知识类别等医学子领域,以确保医疗知识问答模型能够以高准确性和专业性提供答案。而实现医学实体识别任务的实体识别模型,以及,实现医学文本分类任务的文本分类模型的训练,需要医学领域文本的标注数据。标注数据质量直接影响实体识别和文本分类的准确度。
2、然而,由于医学领域的特殊性,数据标注需要较高的专业度,通常标注样本需要医学领域专业人士处理,标注数据获取难度大。现有技术中,标注数据数量稀少,直接导致基于已标注数据训练得到的实体识别模型和文本分类模型准确度降低。
3、可见,现有技术中,医疗领域标注数据的获取方法亟待改进。
技术实现思路
1、本申请实施例提供一种医疗领域标注数据的获取方法、装置电子设备及存储介质,可以高效、高质量生成医疗领域的标注数据,为医疗领域实体识别模型、文本分类模型等提供训练数据支撑。
2、第一方面,本申请实施例提供了一种医疗领域标注数据的获取方法,包括:
3、获取由已标注数据组成的第一数据集和由待标注数据组成的第二数据集,其中,所述已标注数据为:标注有
4、基于所述第一数据集中的已标注数据,训练预设的实体识别模型;
5、采用训练得到的所述实体识别模型对所述第二数据集中各待标注数据进行实体识别,得到每条所述待标注数据对应的标注结果预测值;
6、基于预设医学术语数据库对所述标注结果预测值进行校准处理,得到每条所述待标注数据对应的校准结果;
7、基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作,以将所述第二数据集中的待标注数据转化为所述第一数据集中的已标注数据;
8、跳转至执行下一轮所述基于所述第一数据集中的已标注数据,训练预设的实体识别模型的步骤至所述基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作的步骤,直至满足结束标注条件,输出所述第一数据集中的已标注数据。
9、第二方面,本申请实施例提供了一种医疗领域标注数据的获取装置,包括:
10、已标注数据和待标注数据获取模块,用于获取由已标注数据组成的第一数据集和由待标注数据组成的第二数据集,其中,所述已标注数据为:标注有实体类别标签的医疗领域文本;
11、实体识别模型训练模块,用于基于所述第一数据集中的已标注数据,训练预设的实体识别模型;
12、预标注模块,用于采用训练得到的所述实体识别模型对所述第二数据集中各待标注数据进行实体识别,得到每条所述待标注数据对应的标注结果预测值;
13、标注结果校准模块,用于基于预设医学术语数据库对所述标注结果预测值进行校准处理,得到每条所述待标注数据对应的校准结果;
14、已标注数据生成模块,用于基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作,以将所述第二数据集中的待标注数据转化为所述第一数据集中的已标注数据;
15、数据集更新模块,用于跳转至执行下一轮调用所述实体识别模型训练模块至所述已标注数据生成模块,直至满足结束标注条件,输出所述第一数据集中的已标注数据。
16、第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的医疗领域标注数据的获取方法。
17、第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的医疗领域标注数据的获取方法的步骤。
18、本申请实施例公开的医疗领域标注数据的获取方法,通过获取由已标注数据组成的第一数据集和由待标注数据组成的第二数据集,其中,所述已标注数据为:标注有实体类别标签的医疗领域文本;基于所述第一数据集中的已标注数据,训练预设的实体识别模型;采用训练得到的所述实体识别模型对所述第二数据集中各待标注数据进行实体识别,得到每条所述待标注数据对应的标注结果预测值;基于预设医学术语数据库对所述标注结果预测值进行校准处理,得到每条所述待标注数据对应的校准结果;基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作,以将所述第二数据集中的待标注数据转化为所述第一数据集中的已标注数据;跳转至执行下一轮所述基于所述第一数据集中的已标注数据,训练预设的实体识别模型的步骤至所述基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作的步骤,直至满足结束标注条件,输出所述第一数据集中的已标注数据。本方法充分利用专业医学知识进行监督,实现了在标注数据有限、资源有限的情况下扩充高质量数据集,为医疗领域实体识别、文本分类提供充足、准确的训练数据,无需手动标注,提升了标注数据的效率,降低了标注成本。
19、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
本文档来自技高网...【技术保护点】
1.一种医疗领域标注数据的获取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述实体识别模型为包括多个不同分支实体识别模型的模型决策树模型,所述采用训练得到的所述实体识别模型对所述第二数据集中各待标注数据进行实体识别,得到每条所述待标注数据对应的标注结果预测值,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设医学术语数据库对所述标注结果预测值进行校准处理,得到每条所述待标注数据对应的校准结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述预设医学术语数据库中包括:不同医学科目类别的科目名称关键词,以及,每个所述医学科目类别下各科目知识类别的科目知识关键词,所述根据匹配得到的所述关键词对所述标注结果预测值和/或所述待标注数据进行校准处理,得到所述待标注数据对应的指示校准成功的校准结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据匹配得到的关键词对应的医学科目类别和科目知识类别的一致性,确定待校准的所述预测实体,作为目标预测实体,包括:
6.根据权利要求4所述
7.根据权利要求4所述的方法,其特征在于,所述根据所述校准待标注数据和所述标注结果校准值,生成已标注数据之后,还包括:
8.根据权利要求1所述的方法,其特征在于,所述基于所述校准结果,对所述第一数据集和所述第二数据集执行更新操作,包括:
9.一种医疗领域标注数据的获取装置,其特征在于,所述装置包括:
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至8任意一项所述的医疗领域标注数据的获取方法。
11.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至8任意一项所述的医疗领域标注数据的获取方法的步骤。
...【技术特征摘要】
1.一种医疗领域标注数据的获取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述实体识别模型为包括多个不同分支实体识别模型的模型决策树模型,所述采用训练得到的所述实体识别模型对所述第二数据集中各待标注数据进行实体识别,得到每条所述待标注数据对应的标注结果预测值,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于预设医学术语数据库对所述标注结果预测值进行校准处理,得到每条所述待标注数据对应的校准结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述预设医学术语数据库中包括:不同医学科目类别的科目名称关键词,以及,每个所述医学科目类别下各科目知识类别的科目知识关键词,所述根据匹配得到的所述关键词对所述标注结果预测值和/或所述待标注数据进行校准处理,得到所述待标注数据对应的指示校准成功的校准结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据匹配得到的关键词对应的医学科目类别和科目知识类别的一致性,确定待校准的所述预测实体,作为...
【专利技术属性】
技术研发人员:张隆基,任梦星,刘迎建,彭菲,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。