一种基于大语言模型的跨领域数据匹配方法组成比例

技术编号:43431320 阅读:28 留言:0更新日期:2024-11-27 12:41
本发明专利技术公开了一种基于大语言模型的跨领域数据匹配方法,包括以下步骤:输入源数据和目标数据,且两者分别来自患者信息和药物数据;分别从源数据和目标数据中提取实体对,所述源数据中的实体对具有标签的,即被标记为匹配或者不匹配,目标数据中的实体对不具有标签;主动候选源数据生成;上下文演示选择;将每个实体对的域信息注入到预定义格式中,将提示发送给大语言模型进行处理,大语言模型根据接收到的提示返回特定实体对的结果。本申请探索了大语言模型执行跨域实体解析的上下文学习能力。本申请提高了大语言模型在跨域实体解析任务中的性能,能选择更有价值的演示并构建更高质量的提示。

【技术实现步骤摘要】

本专利技术属于医疗信息,尤其涉及一种基于大语言模型的跨领域数据匹配方法


技术介绍

1、实体解析(er),也称为实体匹配或数据匹配,是识别表示同一现实世界实体的记录的过程,尽管不同数据源中实体的表示或描述方式存在差异。这一过程在数据集成中至关重要,广泛应用于各个领域。在医疗健康信息管理领域中,在电子病历、临床试验、药物研发等场景下,实体匹配有助于整合患者信息、药物数据,促进医疗资源的合理分配和研究协作。

2、现有的实体解析方法使用基于深度学习的方法和预训练的语言模型(plm)(如bert)来自动训练有效的分类器,这需要大量的标记训练数据,而测试数据(即目标数据)和训练数据(即源数据)通常来自同一领域,即实体描述的内容相似,实体属性的结构相同。

3、然而,在医疗健康信息管理中,源数据和目标数据通常来自不同的领域。例如,患者信息、药物数据这两个领域的实体信息之间存在显著差异,不仅在实体描述的内容上,而且在实体属性的结构上。这也被称为跨领域实体解析任务,近年来越来越受到关注。

4、跨域实体解析提出了许多新的挑战,其中最值得注意本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的跨领域数据匹配方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的跨领域数据匹配方法,其特征在于,有标签的源数据表示为,其中为源数据集中所有实体对的集合,为源数据实体对,为所有实体对的标签集合;无标签的目标数据表示为,其中为源数据集中所有实体对的集合,为目标数据实体对,为待判断的标签信息。

3.根据权利要求2所述的基于大语言模型的跨领域数据匹配方法,其特征在于,步骤S3包括:使用不确定性采样来选择候选源数据,所述不确定性抽样的策略为熵,熵的计算公式如下:

4.根据权利要求3所述的基于大语言模型的跨领域数据匹...

【技术特征摘要】

1.一种基于大语言模型的跨领域数据匹配方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的跨领域数据匹配方法,其特征在于,有标签的源数据表示为,其中为源数据集中所有实体对的集合,为源数据实体对,为所有实体对的标签集合;无标签的目标数据表示为,其中为源数据集中所有实体对的集合,为目标数据实体对,为待判断的标签信息。

3.根据权利要求2所述的基于大语言模型的跨领域数据匹配方法,其特征在于,步骤s3包括:使用不确定性采样来选择候选源数据,所述不确定性抽样的策略为熵,熵的计算公式如下:

4.根据权利要求3所述的基于大语言模型的跨领域数据匹配方法,其特征在于,所述计算每个实体对的匹配概率,从而计算实体对的不确定度,包括:

5.根据权利要求4所述的基于大语言模型的跨领域数据匹配方法,其特征在于,对于给定的实体对, 首先将每个实体的属性值对序列化为令牌序列,表示为:

6.根据权利要求5所述的基于大语言模型的跨领域数据匹配方法,其特征在于,给定源数据以及目标数据中的实体对,对于,定义源数据中每个记录对大语言模型...

【专利技术属性】
技术研发人员:赵翔张梓恒黄宏斌唐九阳曾维新李璇
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1