当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向零样本的文本检索方法、电子设备、介质技术

技术编号:46591845 阅读:0 留言:0更新日期:2025-10-10 21:25
本发明专利技术公开了一种面向零样本的文本检索方法、电子设备、介质,包括:获取K个源域文本数据集和一个目标域文本数据集;均匀切分每个源域数据集为数据块,构建源域数据选择子空间;从每个源域数据集随机选一个数据块,计算其在目标域上的检索准确率,将此数据块及其准确率作为一个评估数据对存入评估集合;在子空间中找到当前准确率最高的评估对作为父节点,以此扩展出K个子节点,随机选取一个子节点,计算其准确率,更新评估集合。根据评估结果通过前向扩展、回溯或剪枝动态调整选择子空间。迭代优化完成后,取评估集合中准确率最高的数据块作为训练数据训练文本检索模型。使用训练好的模型在目标域数据集上执行文本检索任务。

【技术实现步骤摘要】

本专利技术属于信息检索与机器学习,尤其涉及一种面向零样本的文本检索方法、电子设备、介质


技术介绍

1、零样本文本检索要求模型在没有目标领域标注数据的情况下,通过源领域数据训练后直接适配目标任务。传统方法直接使用所有源数据训练模型,但源数据分布差异可能导致负迁移,降低模型在目标领域上的适应性。

2、现有方法一般基于域相似性指标或强化学习技术需全量评估源数据,然后确定最终选的数据用于模型训练。该过程计算成本高,尤其当源数据规模达百万级时,该类方法难以实施。


技术实现思路

1、针对现有技术不足,本专利技术提供了一种面向零样本的文本检索方法、电子设备、介质。

2、第一方面,本专利技术实施例提供了一种面向零样本的文本检索方法,所述方法包括:

3、获取k个源域文本数据集以及一目标域文本数据集;

4、将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择子空间;

5、从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域文本数据集上的检索准本文档来自技高网...

【技术保护点】

1.一种面向零样本的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择空间的过程包括:

3.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域文本数据集上的检索准确率,将该数据块及其对应的检索准确率作为评估数据对添加至评估结果集合中的过程包括:

4.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,基于该父节点扩展出包括K个子节点的源域数据选择...

【技术特征摘要】

1.一种面向零样本的文本检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择空间的过程包括:

3.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域文本数据集上的检索准确率,将该数据块及其对应的检索准确率作为评估数据对添加至评估结果集合中的过程包括:

4.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,基于该父节点扩展出包括k个子节点的源域数据选择子空间的过程包括:

5.根据权利要求1或3所述的一种面向零样本的文本检索方法,其特征在于,从源域数据选择子空间选择一子节点,获取该子节点包含的数据块对应的检索准确率,得到该子节点对应的评估数据并更新评估结果集合的...

【专利技术属性】
技术研发人员:寿黎但喻琳珠李环陈珂骆歆远
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1