数据处理方法技术

技术编号:39833646 阅读:10 留言:0更新日期:2023-12-29 16:16
本公开提供了数据处理方法

【技术实现步骤摘要】
数据处理方法、装置、设备、计算机可读存储介质及产品


[0001]本公开涉及数据处理中的
AI
医疗,尤其涉及一种数据处理方法

装置

设备

计算机可读存储介质及产品


技术介绍

[0002]市面上的药品说明书专业性很强,其中往往包括大量的专用词汇

对于用户来说药品说明书较为晦涩难懂,导致用户无法准确地基于药品说明书确定药品的用法用量

[0003]因此,如何将晦涩难懂

专业性较强的药品说明书转换为通俗易懂的文本以供用户查看,成为了亟待解决的问题


技术实现思路

[0004]本公开提供了一种用于将专业性较强的药品说明书转换为通俗易懂的文本的数据处理方法

装置

设备

计算机可读存储介质及产品

[0005]根据本公开的第一方面,提供了一种获取预设的训练数据集,其中,所述训练数据集中包括多组训练数据,所述训练本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,包括:获取预设的训练数据集,其中,所述训练数据集中包括多组训练数据,所述训练数据包括药品说明书

基于通俗语言提取的药品说明书关联的知识内容以及转换文本,所述知识内容为采用思维链方式从药品说明书中提取的,所述训练数据集是基于预设的微调模板构建的;基于所述训练数据集对预设的生成对抗网络中的生成网络以及判别网络进行交替训练,直至所述生成对抗网络满足预设的目标结束条件,将所述生成网络确定为文本转换模型
。2.
根据权利要求1所述的方法,所述基于所述训练数据集对预设的生成对抗网络中的生成网络以及判别网络进行交替训练,直至所述生成对抗网络满足预设的目标结束条件,包括:基于所述训练数据集对预设的生成网络进行训练,直至所述生成网络满足预设的第一结束条件;基于所述训练数据集中的转换文本以及满足所述第一结束条件的生成网络根据所述训练数据集中的药品说明书输出的输出文本,对所述判别网络进行训练,直至所述判别网络满足预设的第二结束条件;若所述判别网络不满足预设的目标结束条件,则返回执行所述基于所述训练数据集对预设的生成网络进行训练的步骤;若所述判别网络满足所述目标结束条件,则将生成网络确定为文本转换模型
。3.
根据权利要求2所述的方法,所述基于所述训练数据集对预设的生成网络进行训练,直至所述生成网络满足预设的第一结束条件,包括:将所述训练数据集中的药品说明书以及知识内容输入至所述生成网络中,得到所述生成网络的输出文本;基于预设的损失函数对所述输出文本以及所述训练数据集中的转换文本进行数据处理,确定所述生成网络的损失值;若基于所述损失值或所述生成模型当前的模型训练信息确定所述生成网络满足预设的第一结束条件,则基于所述训练数据集中的转换文本以及所述生成网络输出的输出文本对所述判别网络进行训练;若基于所述损失值或所述生成模型当前的模型训练信息确定所述生成网络不满足预设的第一结束条件,则根据损失值对所述生成网络进行参数调整,返回执行所述将所述训练数据集中的药品说明书以及知识内容输入至所述生成网络中,得到所述生成网络的输出文本的步骤
。4.
根据权利要求2所述的方法,所述基于所述训练数据集中的转换文本以及满足所述第一结束条件的生成网络根据所述训练数据集中的药品说明书输出的输出文本,对所述判别网络进行训练,直至所述判别网络满足预设的第二结束条件,包括:将所述训练数据集中的转换文本以及满足所述第一结束条件的生成网络根据所述训练数据集中的药品说明书输出的输出文本输入至所述判别网络中,得到所述判别网络输出的判别结果,所述判别结果包括所述输出文本以及所述转换文本的信息来源渠道;若基于判别结果或所述判别模型当前的模型训练信息确定所述生成网络满足预设的
第二结束条件,则检测所述判别网络是否满足预设的目标结束条件;若基于判别结果或所述判别模型当前的模型训练信息确定所述生成网络不满足预设的第二结束条件,则基于所述判别结果对所述判别网络的参数进行调整操作,返回执行所述将所述训练数据集中的转换文本以及所述生成网络生成的输出文本输入至所述判别网络中的步骤
。5.
根据权利要求2所述的方法,所述检测所述判别网络是否满足预设的目标结束条件,包括:确定所述判别网络输出的判别结果的准确率;若所述准确率低于预设阈值,则判定所述判别网络满足预设的目标结束条件;或者,若所述生成对抗网络交替训练的次数达到预设的次数阈值,则判定所述判别网络满足预设的目标结束条件;或者,若所述生成对抗网络交替训练的训练时长达到预设的时长阈值,则判定所述判别网络满足预设的目标结束条件
。6.
根据权利要求1‑5任一项所述的方法,所述获取预设的训练数据集,包括:获取待处理数据集以及预设的微调模板,其中,所述待处理数据集中包括多个药品说明书,所述微调模板中包括基于思维链方式进行知识内容提取的第一子模板以及基于药品说明书进行转换文本提取的第二子模板;基于所述微调模板对所述待处理数据集中的各药品说明书进行内容提取操作,获得所述训练数据集
。7.
一种数据处理方法,用于构建权利要求1‑6任一项所述的生成对抗网络,包括:分别对预先设置的两个大型语言模型进行初始化操作;将所述两个大型语言模型分别确定为生成网络以及判别网络,基于所述生成网络以及所述判别网络构建所述生成对抗网络
。8.
一种数据处理方法,包括:获取数据处理请求,其中,所述数据处理请求中包括待转换说明书;将所述待转换说明书输入至预设的文本转换模型中,获得所述文本转换模型输出转换文本,所述转换文本用于采用通俗语言描述所述待转换说明书;其中,所述文本转换模型是基于权利要求1‑6中任一项所述的满足预设的目标结束条件的生成对抗网络中的生成网络
。9.
一种数据处理装置,包括:获取模块,用于获取预设的训练数据集,其中,所述训练数据集中包括多组训练数据,所述训练数据包括药品说明书

基于通俗语言提取的药品说明书关联的知识内容以及转换文本,所述知识内容为采用思维链方式从药品说明书中提取的,所述训练数据集是基于预设的微调模板构建的;训练模块,用...

【专利技术属性】
技术研发人员:祁一帆陈程彭继东
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1