【技术实现步骤摘要】
本专利技术属于医疗信息,尤其涉及一种基于大语言模型的跨领域数据匹配方法。
技术介绍
1、实体解析(er),也称为实体匹配或数据匹配,是识别表示同一现实世界实体的记录的过程,尽管不同数据源中实体的表示或描述方式存在差异。这一过程在数据集成中至关重要,广泛应用于各个领域。在医疗健康信息管理领域中,在电子病历、临床试验、药物研发等场景下,实体匹配有助于整合患者信息、药物数据,促进医疗资源的合理分配和研究协作。
2、现有的实体解析方法使用基于深度学习的方法和预训练的语言模型(plm)(如bert)来自动训练有效的分类器,这需要大量的标记训练数据,而测试数据(即目标数据)和训练数据(即源数据)通常来自同一领域,即实体描述的内容相似,实体属性的结构相同。
3、然而,在医疗健康信息管理中,源数据和目标数据通常来自不同的领域。例如,患者信息、药物数据这两个领域的实体信息之间存在显著差异,不仅在实体描述的内容上,而且在实体属性的结构上。这也被称为跨领域实体解析任务,近年来越来越受到关注。
4、跨域实体解析提出了许多新的
...【技术保护点】
1.一种基于大语言模型的跨领域数据匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型的跨领域数据匹配方法,其特征在于,有标签的源数据表示为,其中为源数据集中所有实体对的集合,为源数据实体对,为所有实体对的标签集合;无标签的目标数据表示为,其中为源数据集中所有实体对的集合,为目标数据实体对,为待判断的标签信息。
3.根据权利要求2所述的基于大语言模型的跨领域数据匹配方法,其特征在于,步骤S3包括:使用不确定性采样来选择候选源数据,所述不确定性抽样的策略为熵,熵的计算公式如下:
4.根据权利要求3所述的基于大语
...【技术特征摘要】
1.一种基于大语言模型的跨领域数据匹配方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型的跨领域数据匹配方法,其特征在于,有标签的源数据表示为,其中为源数据集中所有实体对的集合,为源数据实体对,为所有实体对的标签集合;无标签的目标数据表示为,其中为源数据集中所有实体对的集合,为目标数据实体对,为待判断的标签信息。
3.根据权利要求2所述的基于大语言模型的跨领域数据匹配方法,其特征在于,步骤s3包括:使用不确定性采样来选择候选源数据,所述不确定性抽样的策略为熵,熵的计算公式如下:
4.根据权利要求3所述的基于大语言模型的跨领域数据匹配方法,其特征在于,所述计算每个实体对的匹配概率,从而计算实体对的不确定度,包括:
5.根据权利要求4所述的基于大语言模型的跨领域数据匹配方法,其特征在于,对于给定的实体对, 首先将每个实体的属性值对序列化为令牌序列,表示为:
6.根据权利要求5所述的基于大语言模型的跨领域数据匹配方法,其特征在于,给定源数据以及目标数据中的实体对,对于,定义源数据中每个记录对大语言模型...
【专利技术属性】
技术研发人员:赵翔,张梓恒,黄宏斌,唐九阳,曾维新,李璇,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。