基于标签知识库的医疗文本标注方法及装置制造方法及图纸

技术编号:39069511 阅读:21 留言:0更新日期:2023-10-12 20:01
本申请提供了一种基于标签知识库的医疗文本标注方法及装置,通过预先建立的标签知识库,对获取的待标注医疗文本进行自动预标注,得到带有第一标签标注和/或第一关系标预标注文本;并支持对所述预标注文本进行人工审核调整操作以生成第二标签标注和/或第二关系标注;最后根据所述预标注文本的第一标签标注和/或第一关系标注以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注得到标注文本;本申请基于标签知识库,采用预标注加人工审核操作的方案,完成对医疗文本的快速高质量标注工作,省去了人工对待标注文本每字每句的一一标注的工作,极大的提高科研人员的阅读速度和效率,避免遗漏。避免遗漏。避免遗漏。

【技术实现步骤摘要】
基于标签知识库的医疗文本标注方法及装置


[0001]本申请涉及医疗大数据
,尤其涉及一种基于标签知识库的医疗文本标注技术。

技术介绍

[0002]日益增长的医疗文本数据给整个行业的发展带来了巨大的机遇和挑战,绝大部分的医疗文本数据属于半结构化或者非结构化的数据,只有将半结构化或非结构化的数据转化为计算机可以处理的结构化数据,才能够对其进行一系列的科研应用,而对文本信息的标注正是对其进行结构化处理的基础。通过文本标注得到的熟语料是一种非常重要的资源,是命名实体识别、关系自动抽取等相关研究的基础,特别是在针对医疗数据文本的自然语言处理的模型训练时,需要提供足够多的、高质量的人工预先标注的医疗数据样本。
[0003]而传统的医疗数据标注采用单人手动标注的方式,不仅费时费力,而且医疗数据的样本标注质量完全取决于单个数据标注员的个人素质与细心程度,容易错标或遗漏数据。

技术实现思路

[0004]本申请的一个目的是提供一种基于标签知识库的医疗文本标注方法及装置,旨在减少医疗数据文本人工标注的工作量,提高标注效率和准确率。
[0005]为实现上述目的,根据本申请的一方面,本申请的一些实施例提供了一种基于标签知识库的医疗文本标注方法,所述方法包括:获取待标注医疗文本;基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;根据对所述预标注文本的确认操作,得到标注文本;或者,获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
[0006]可选地,在上述实施例的基础上,所述方法还包括:预构建标签知识库;构建方法包括:基于用户设定的标签名称值生成标签名称,并基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则;基于用户设定的关系名称值生成关系名称,并基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则;基于设定的所述标签名称及所述一级标注规则、设定的所述关系名称及所述一级关系标注规则,构建所述标签知识库。
[0007]可选地,在上述实施例的基础上,所述基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本包括:导入所述待标注医疗文本,基于正则表达式为所述待标注医疗文本分词得到分词文本;将所述分词文本与所述标签知识库的所述一级标注规则和/或所述一级关系标注规则进行匹配,生成带有第一标签标注和/或第一关系标注的预标注文本。
[0008]可选地,在上述实施例的基础上,所述调整操作包括:对所述预标注文本进行第二标签标注和/或第二关系标注的新增操作;和/或,对第一标签标注和/或第一关系标注删除或更换操作,生成第二标签标注和/或第二关系标注;和/或,对所述第一标签标注的范围进行调整生成所述第二标签标注的操作;和/或,对所述第一关系标注的起点或终点进行调整生成所述第二关系标注的操作。
[0009]可选地,在上述实施例的基础上,对所述预标注文本进行第二标签标注的新增操作,包括:通过确定用户通过鼠标选中的文本内容和范围,获取到选中文字在当前文本中的起点位置和终点位置;提供第一标签选项对所述选中文字进行第二标签标注,并保存到第一标签所对应的数组中;按数组的起点位置和终点位置对整个文档进行分割和渲染。
[0010]可选地,在上述实施例的基础上,对所述预标注文本进行第二关系标注的新增操作,包括:选中一个第一标签标注或者第二标签标注,通过鼠标引导一条关系线,所述关系线的起点为选中的第一标签标注或者第二标签标注的中点,所述关系线终点为鼠标的当前位置;在鼠标经过其它第一标签标注或者其它第二标签标注时,判断两个标签之间是否存在关系,如果存在关系,则高亮显示终点标签,并在两个标签之间连接产生关系线,所述关系线上显示标注关系名称。
[0011]可选地,在上述实施例的基础上,所述方法还包括:进一步判断两个标签是否跨行;若跨行,则在关系线的起点和终点之间添加用于标识对应关联关系的第一标记点和第二标记点,第一标记点在起点行的关系线的最后边,第二标记点在终点行的关系线的最左边;获取起点行的标签到终点行的标签的中间的关系线数量以及高度信息,跨行绘制两个标签之间关系线。
[0012]可选地,在上述实施例的基础上,所述方法还包括:根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库。
[0013]可选地,在上述实施例的基础上,所述根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库,包括:根据所述第二标签标注和/或第二关系标注,生成二级标注规则和/或二级关系标注规则;统计所述第二标签标注和/或第二关系标注的纳入次数和/或纳入比例;当达到预设次数和/或预设比例时,将所述二级标注规则和/或二级关系标注规则升级为一级标注规则和/或一级关系标注规则,并利用所述标签知识库中的一级标注规则和/或一级关系标注规则对所述待标注医疗文本进行自动预标注,得到预标注文本;或者,为所述二级标注规则和/或二级关系标注规则设置可信度,当达到预设次数和/或比例时,调整所述二级标注规则和/或二级关系标注规则的可信度,当可信度达到预设值时,将所述标签知识库中的二级标注规则和/或二级关系标注规则与一级标注规则和/或一级关系标注规则一同对所述待标注医疗文本进行自动预标注,得到预标注文本。
[0014]根据本申请的另一方面,本申请还提供了一种基于标签知识库的医疗文本标注装置,包括:获取模块,用于获取待标注医疗文本;自动预标注模块,用于基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;确认模块,用于根据对所述预标注文本的确认操作,得到标注文本;主动标注模块,用于获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;处理模块,用于根据所述预标注文本的第一标签标注和/或第一关系标注,以
及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本。
[0015]本申请的上述技术方案,通过预先建立的标签知识库,对获取的待标注医疗文本进行自动预标注,得到带有第一标签标注和/或第一关系标注的预标注文本;并支持对所述预标注文本进行人工审核调整操作以生成第二标签标注和/或第二关系标注;最后根据所述预标注文本的第一标签标注和/或第一关系标注以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注得到标注文本。本申请基于标签知识库,采用预标注加人工审核操作的方案,完成对医疗文本的快速高质量标注工作,省去了人工对待标注文本每字每句的一一标注的工作,极大地提高科研人员的阅读速度和效率,避免遗漏。
附图说明
[0016]图1为本申请实施例提供的基于标签知识库的医疗文本标注方法的流程示意图;图2为本申请实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签知识库的医疗文本标注方法,其特征在于,所述方法包括:获取待标注医疗文本;基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本,所述预标注文本带有第一标签标注和/或第一关系标注;其中,标签知识库包含一级标注规则和/或一级关系标注规则以及基于调整操作生成的第二标签标注和/或第二关系标注,以及二级标注规则和/或二级关系标注规则;根据对所述预标注文本的确认操作,得到标注文本;或者,获取对所述预标注文本的调整操作,生成第二标签标注和/或第二关系标注;根据所述预标注文本的第一标签标注和/或第一关系标注,以及对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注,得到标注文本;根据对所述预标注文本的调整操作生成的第二标签标注和/或第二关系标注更新所述标签知识库;根据所述第二标签标注和/或第二关系标注,生成二级标注规则和/或二级关系标注规则;统计所述第二标签标注和/或第二关系标注的纳入次数和/或纳入比例;当达到预设次数和/或预设比例时,将所述二级标注规则和/或二级关系标注规则升级为一级标注规则和/或一级关系标注规则,并利用所述标签知识库中的一级标注规则和/或一级关系标注规则对所述待标注医疗文本进行自动预标注,得到预标注文本;或者,为所述二级标注规则和/或二级关系标注规则设置可信度,当达到预设次数和/或比例时,调整所述二级标注规则和/或二级关系标注规则的可信度,当可信度达到预设值时,将所述标签知识库中的二级标注规则和/或二级关系标注规则与一级标注规则和/或一级关系标注规则一同对所述待标注医疗文本进行自动预标注,得到预标注文本。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:预构建标签知识库;构建方法包括:基于用户设定的标签名称值生成标签名称,并基于用户设定的至少一个标注样例和/或标签标注设置提取一级标注规则;基于用户设定的关系名称值生成关系名称,并基于用户设定的至少一个关系标注样例和/或关系标注设置提取一级关系标注规则;基于设定的所述标签名称及所述一级标注规则、设定的所述关系名称及所述一级关系标注规则,构建所述标签知识库。3.根据权利要求2所述的方法,其特征在于,所述基于预设的标签知识库对所述待标注医疗文本进行自动预标注,得到预标注文本包括:导入所述待标注医疗文本,基于正则表达式为所述待标注医疗文本分词得到分词文本;将所述分词文本与所述标签知识库的所述一级标注规则和/或所述一级关系...

【专利技术属性】
技术研发人员:黄主斌王春旭贺晓培
申请(专利权)人:上海柯林布瑞信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1