医疗实体标注方法、装置、设备及存储介质制造方法及图纸

技术编号:38724494 阅读:7 留言:0更新日期:2023-09-08 23:17
本发明专利技术涉及数字医疗领域的人工智能技术,揭露了一种医疗实体标注方法,包括:获取原始医疗问诊对话文本集合,对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合,基于预设的神经网络构建原始联合标注模型,利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型,利用所述标准联合标注模型对所述问诊训练数据集合进行循环质检处理,得到质检标注结果。本发明专利技术还涉及区块链技术,所述质检标注结果可存储在区块链的节点中。本发明专利技术还提出一种医疗实体标注装置、电子设备以及可读存储介质。本发明专利技术可以提高医疗实体标注的效率。疗实体标注的效率。疗实体标注的效率。

【技术实现步骤摘要】
医疗实体标注方法、装置、设备及存储介质


[0001]本专利技术涉及数字医疗及人工智能
,尤其涉及一种医疗实体标注方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着计算力和数据量的大幅度提升,人工智能技术获得进一步的发展,应用人工智能解决医疗领域问题已成为了热点,例如,通过人工智能对医疗场景中的对话进行实体标注,从而辅助医生问诊。
[0003]现有技术中,医疗问诊文本数据结构化标注是个专业性强、复杂、繁琐的工作,需要耗费大量的人力。并且由于用户对病症的表述相对比较口语化,这也在一定程度上增加了标注的复杂性。当标注问题复杂,标注人员较多时,标注的一致性也难以保证。因此亟需一种能够保证标注一致性的同时,提高标注准确性及效率的方法。

技术实现思路

[0004]本专利技术提供一种医疗实体标注方法、装置、电子设备及可读存储介质,其主要目的在于可以提高医疗实体标注的效率。
[0005]为实现上述目的,本专利技术提供的一种医疗实体标注方法,包括:
[0006]获取原始医疗问诊对话文本集合,对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合;
[0007]基于预设的神经网络构建原始联合标注模型;
[0008]利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型;
[0009]利用所述标准联合标注模型对所述问诊训练数据集合进行循环质检处理,得到质检标注结果。
[0010]可选地,所述对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合,包括:
[0011]将所述原始医疗问诊对话文本集合中包含预设关键词的文本分类为有效文本,以及将所述原始医疗问诊对话文本集合中不包含预设关键词的文本分类为无效文本;
[0012]对所述有效文本进行实体预标注,汇总所有实体预标注后的有效文本及无效文本,得到问诊训练数据集合。
[0013]可选地,所述对所述有效文本进行实体预标注,包括:
[0014]对所述有效文本进行分词,得到分词结果,对所述分词结果进行频率统计并挑选出预设频率对应的分词作为医疗实体词;
[0015]获取预构建的医疗补充词,基于所述医疗实体词及所述医疗补充词构建医疗标注库;
[0016]利用所述医疗标注库对所述有效文本进行实体标注,得到原始标注有效文本,利
用接收到的标注修改指令对所述原始标注有效文本进行修正,得到标准标注有效文本。
[0017]可选地,所述基于预设的神经网络构建原始联合标注模型,包括:
[0018]将预构建的语义表征模型作为共享编码层;
[0019]在所述共享编码层后串联一个全连接层,以及在所述共享编码层后串联一个预构建的实体抽取模型;
[0020]汇总所述共享编码层、所述全连接层及所述实体抽取模型得到原始联合标注模型,其中,共享编码层与全连接层串联用于文本分类,共享编码层与实体抽取模型串联用于实体标注及抽取。
[0021]可选地,所述利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型,包括:
[0022]利用所述原始联合标注模型的共享编码层对所述问诊训练数据集合中的训练文本进行特征编码,得到特征向量;
[0023]利用所述共享编码层后的全连接层对所述特征向量进行文本分类,得到文本分类结果,并基于所述文本分类结果计算第一损失;
[0024]利用所述共享编码层后的实体抽取模型对所述特征向量进行实体标签预测,得到预测实体,基于所述预测实体计算第二损失;
[0025]对所述第一损失及所述第二损失进行加权联合,得到训练总损失,在所述训练总损失不满足预设的损失阈值时,调整所述原始联合标注模型中的模型参数,并返回所述利用所述共享编码层后的全连接层对所述特征向量进行文本分类的步骤,直至所述训练总损失满足所述损失阈值时,停止训练,得到所述标准联合标注模型。
[0026]可选地,所述利用所述标准联合标注模型对所述问诊训练数据集合进行循环质检处理,得到质检标注结果,包括:
[0027]利用所述标准联合标注模型输出对所述问诊训练数据的实体预测结果;
[0028]计算所述实体预测结果的预测准确率,在所述预测准确率小于预设的质检阈值时,接收用户输入的质检修改指令对所述实体预测结果进行修正,得到修正标注数据;
[0029]将所述修正标注数据作为问诊训练数据,并返回所述利用所述标准联合标注模型输出对所述问诊训练数据的实体预测结果的步骤,进行迭代,直至将预测准确率大于等于所述质检阈值时的实体预测结果作为质检标注结果。
[0030]可选地,所述利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型之后,所述方法还包括:基于所述标准联合标注模型及获取的医疗业务对话集合构建医疗实体标注平台。
[0031]为了解决上述问题,本专利技术还提供一种医疗实体标注装置,所述装置包括:
[0032]实体预标注模块,用于获取原始医疗问诊对话文本集合,对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合;
[0033]模型构建模块,用于基于预设的神经网络构建原始联合标注模型;
[0034]模型训练模块,用于利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型;
[0035]实体标注模块,用于利用所述标准联合标注模型对所述问诊训练数据集合进行循环质检处理,得到质检标注结果。
[0036]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0037]存储器,存储至少一个计算机程序;及
[0038]处理器,执行所述存储器中存储的计算机程序以实现上述所述的医疗实体标注方法。
[0039]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的医疗实体标注方法。
[0040]本专利技术通过文本分类及实体预标注处理,可以统一标注标准,确保标注的一致性。并且通过联合训练的标准联合标注模型对问诊训练数据集合进行循环质检,可以提高医疗实体标注的准确率,同时仅需在循环质检时少量进行人工标注,大大提高了实体标注的效率。因此本专利技术提出的医疗实体标注方法、装置、电子设备及计算机可读存储介质,可以提高医疗实体标注的效率。
附图说明
[0041]图1为本专利技术一实施例提供的医疗实体标注方法的流程示意图;
[0042]图2为本专利技术一实施例提供的医疗实体标注装置的功能模块图;
[0043]图3为本专利技术一实施例提供的实现所述医疗实体标注方法的电子设备的结构示意图。
[0044]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗实体标注方法,其特征在于,所述方法包括:获取原始医疗问诊对话文本集合,对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合;基于预设的神经网络构建原始联合标注模型;利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型;利用所述标准联合标注模型对所述问诊训练数据集合进行循环质检处理,得到质检标注结果。2.如权利要求1所述的医疗实体标注方法,其特征在于,所述对所述原始医疗问诊对话文本集合中的文本进行文本分类及实体预标注处理,得到问诊训练数据集合,包括:将所述原始医疗问诊对话文本集合中包含预设关键词的文本分类为有效文本,以及将所述原始医疗问诊对话文本集合中不包含预设关键词的文本分类为无效文本;对所述有效文本进行实体预标注,汇总所有实体预标注后的有效文本及无效文本,得到问诊训练数据集合。3.如权利要求2所述的医疗实体标注方法,其特征在于,所述对所述有效文本进行实体预标注,包括:对所述有效文本进行分词,得到分词结果,对所述分词结果进行频率统计并挑选出预设频率对应的分词作为医疗实体词;获取预构建的医疗补充词,基于所述医疗实体词及所述医疗补充词构建医疗标注库;利用所述医疗标注库对所述有效文本进行实体标注,得到原始标注有效文本,利用接收到的标注修改指令对所述原始标注有效文本进行修正,得到标准标注有效文本。4.如权利要求1中所述的医疗实体标注方法,其特征在于,所述基于预设的神经网络构建原始联合标注模型,包括:将预构建的语义表征模型作为共享编码层;在所述共享编码层后串联一个全连接层,以及在所述共享编码层后串联一个预构建的实体抽取模型;汇总所述共享编码层、所述全连接层及所述实体抽取模型得到原始联合标注模型,其中,共享编码层与全连接层串联用于文本分类,共享编码层与实体抽取模型串联用于实体标注及抽取。5.如权利要求4所述的医疗实体标注方法,其特征在于,所述利用所述问诊训练数据集合对所述原始联合标注模型进行联合训练,得到标准联合标注模型,包括:利用所述原始联合标注模型的共享编码层对所述问诊训练数据集合中的训练文本进行特征编码,得到特征向量;利用所述共享编码层后的全连接层对所述特征向量进行文本分类,得到文本分类结果,并基于所述文本分类结果计算第一损失;利用所述共享编码层后的实体抽取模型对所述特征向量进行实体标签预测,得到预测实体...

【专利技术属性】
技术研发人员:原丽娜刘道云
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1