医疗事实的验证方法和装置制造方法及图纸

技术编号:24456177 阅读:11 留言:0更新日期:2020-06-10 15:37
本公开涉及基于自然语言处理的医疗数据处理领域。本公开的实施例公开了医疗事实的验证方法和装置。该方法包括:获取医疗事实的描述文本;从医学文档中筛选出与医疗事实的描述文本关联的关联段落;将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,其中判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整。该方法降低了医疗事实的验证成本。

Verification methods and devices of medical facts

【技术实现步骤摘要】
医疗事实的验证方法和装置
本公开的实施例涉及数据处理
,具体涉及基于自然语言处理的医疗数据处理
,尤其涉及医疗事实的验证方法和装置。
技术介绍
医疗事实验证是对给出的医疗事实进行真实性或可靠性验证的技术。例如,一条医疗事实为<肾结石,症状,腹水>,验证技术可以通过大量医学知识来判定该医疗事实的置信程度,并给出支撑证据。医疗事实验证技术可以用于辅助构建医疗知识图谱。随着人工智能与深度学习技术的深入研究,自然语言处理相关的技术得到突飞猛进的发展。基于自然语言处理技术的信息抽取方法通常需要在大规模的标注数据上进行训练。在医疗事实验证领域,大规模样本数据的标注对专业知识的要求较高,标注的成本较高,因而很难获得大量的标注样本,因而难以应用深度学习模型来提升医疗信息抽取效果。
技术实现思路
本公开的实施例提出了医疗事实的验证方法和装置、电子设备和计算机可读介质。第一方面,本公开的实施例提供了一种医疗事实的验证方法,包括:获取医疗事实的描述文本;从医学文档中筛选出与医疗事实的描述文本关联的关联段落;将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,其中判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整。在一些实施例中,上述将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,包括:利用已训练的判别模型,从关联段落中筛选出与医疗事实的描述文本的相关度最高的目标关联段落,响应于确定目标关联段落与医疗事实的描述文本之间的相关度达到预设的阈值,确定医疗事实为正确的描述。在一些实施例中,上述将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,还包括:响应于确定利用已训练的判别模型确定出的关联段落与医疗事实的描述文本的相关度均未达到预设的阈值,确定医疗事实为错误的描述。在一些实施例中,上述已训练的判别模型是按照如下方式训练得出的:从同一医学文档中抽取相邻的两个段落作为医疗文本段落对的正样本,从不同的两个医学文档中分别抽取一个段落作为医疗文本段落对的负样本;基于医疗文本段落对的正样本和负样本对已构建的初始判别模型进行预训练;获取包含真实性标注信息的医疗事实样本集,真实性标注信息包括用于标注医疗事实样本是否为正确描述的标注信息;基于医疗事实样本集对预训练后的判别模型进行迭代调整,得到已训练的判别模型。在一些实施例中,上述真实性标注信息还包括在医疗事实样本为正确描述时作为医疗事实样本的支撑证据的医学文档段落;以及医疗事实的验证结果包括医疗事实是否为正确的描述的验证结果以及医疗事实为正确的描述时作为医疗事实的支撑证据的医学文档段落。第二方面,本公开的实施例提供了一种医疗事实的验证装置,包括:获取单元,被配置为获取医疗事实的描述文本;筛选单元,被配置为从医学文档中筛选出与医疗事实的描述文本关联的关联段落;判别单元,被配置为将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,其中判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整。在一些实施例中,上述判别单元被配置为按照如下方式对医疗事实进行验证:利用已训练的判别模型,从关联段落中筛选出与医疗事实的描述文本的相关度最高的目标关联段落,响应于确定目标关联段落与医疗事实的描述文本之间的相关度达到预设的阈值,确定医疗事实为正确的描述。在一些实施例中,上述判别单元被进一步配置为按照如下方式对医疗事实进行验证:响应于确定利用已训练的判别模型确定出的关联段落与医疗事实的描述文本的相关度均未达到预设的阈值,确定医疗事实为错误的描述。在一些实施例中,上述装置还包括训练单元,被配置为按照如下方式生成已训练的判别模型:从同一医学文档中抽取相邻的两个段落作为医疗文本段落对的正样本,从不同的两个医学文档中分别抽取一个段落作为医疗文本段落对的负样本;基于医疗文本段落对的正样本和负样本对已构建的初始判别模型进行预训练;获取包含真实性标注信息的医疗事实样本集,真实性标注信息包括用于标注医疗事实样本是否为正确描述的标注信息;基于医疗事实样本集对预训练后的判别模型进行迭代调整,得到已训练的判别模型。在一些实施例中,上述真实性标注信息还包括在医疗事实样本为正确描述时作为医疗事实样本的支撑证据的医学文档段落;以及医疗事实的验证结果包括医疗事实是否为正确的描述的验证结果以及医疗事实为正确的描述时作为医疗事实的支撑证据的医学文档段落。第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的医疗事实的验证方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如第一方面提供的医疗事实的验证方法。本公开的上述实施例的医疗事实的验证方法及装置,通过获取医疗事实的描述文本,从医学文档中筛选出与医疗事实的描述文本关联的关联段落,将医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到医疗事实的验证结果,其中判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整,实现了通过基于少量标注样本训练得到的医疗事实判别模型对医疗事实的精准验证,降低了采用深度学习方法进行医疗事实验证的样本标注成本,从而降低了医疗事实的验证成本。并且,本方案中的判别模型可以对广泛的医学文档进行学习,因而可以应用于大量广泛的医疗事实的验证,可以帮助提升医疗信息抽取的效率和准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的实施例可以应用于其中的示例性系统架构图;图2是根据本公开的医疗事实的验证方法的一个实施例的流程图;图3是判别模型的训练方法的一个流程示意图;图4是判别模型的一个结构示意图;图5是根据本公开的医疗事实的验证装置的一个实施例的结构示意图;图6是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的医疗事实的验证方法或医疗事实的验证装本文档来自技高网...

【技术保护点】
1.一种医疗事实的验证方法,包括:/n获取医疗事实的描述文本;/n从医学文档中筛选出与所述医疗事实的描述文本关联的关联段落;/n将所述医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到所述医疗事实的验证结果,其中所述判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整。/n

【技术特征摘要】
1.一种医疗事实的验证方法,包括:
获取医疗事实的描述文本;
从医学文档中筛选出与所述医疗事实的描述文本关联的关联段落;
将所述医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到所述医疗事实的验证结果,其中所述判别模型基于从医学文档中抽取的医疗文本段落对进行预训练,并在预训练后利用包含真实性标注信息的医疗事实样本集进行迭代调整。


2.根据权利要求1所述的方法,其中,所述将所述医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到所述医疗事实的验证结果,包括:
利用所述已训练的判别模型,从所述关联段落中筛选出与所述医疗事实的描述文本的相关度最高的目标关联段落,响应于确定所述目标关联段落与所述医疗事实的描述文本之间的相关度达到预设的阈值,确定所述医疗事实为正确的描述。


3.根据权利要求2所述的方法,其中,所述将所述医疗事实的描述文本以及对应的关联段落输入已训练的判别模型进行真实性判别,得到所述医疗事实的验证结果,还包括:
响应于确定利用所述已训练的判别模型确定出的所述关联段落与所述医疗事实的描述文本的相关度均未达到所述预设的阈值,确定所述医疗事实为错误的描述。


4.根据权利要求1-3任一项所述的方法,其中,所述已训练的判别模型是按照如下方式训练得出的:
从同一医学文档中抽取相邻的两个段落作为医疗文本段落对的正样本,从不同的两个医学文档中分别抽取一个段落作为医疗文本段落对的负样本;
基于医疗文本段落对的正样本和负样本对已构建的初始判别模型进行预训练;
获取包含真实性标注信息的医疗事实样本集,所述真实性标注信息包括用于标注医疗事实样本是否为正确描述的标注信息;
基于所述医疗事实样本集对预训练后的判别模型进行迭代调整,得到所述已训练的判别模型。


5.根据权利要求4所述的方法,其中,所述真实性标注信息还包括在所述医疗事实样本为正确描述时作为所述医疗事实样本的支撑证据的医学文档段落;以及
所述医疗事实的验证结果包括所述医疗事实是否为正确的描述的验证结果以及所述医疗事实为正确的描述时作为所述医疗事实的支撑证据的医学文档段落。


6.一种医疗事实的验证装置,包括:
获取单元,被配置为获取医疗事实的描述文本;
筛选单元,被配置为从医学文档中筛选出与所述医疗事实的描述文本关联的关...

【专利技术属性】
技术研发人员:方舟李双婕史亚冰蒋烨
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1