【技术实现步骤摘要】
本专利技术属于信息检索与机器学习,尤其涉及一种面向零样本的文本检索方法、电子设备、介质。
技术介绍
1、零样本文本检索要求模型在没有目标领域标注数据的情况下,通过源领域数据训练后直接适配目标任务。传统方法直接使用所有源数据训练模型,但源数据分布差异可能导致负迁移,降低模型在目标领域上的适应性。
2、现有方法一般基于域相似性指标或强化学习技术需全量评估源数据,然后确定最终选的数据用于模型训练。该过程计算成本高,尤其当源数据规模达百万级时,该类方法难以实施。
技术实现思路
1、针对现有技术不足,本专利技术提供了一种面向零样本的文本检索方法、电子设备、介质。
2、第一方面,本专利技术实施例提供了一种面向零样本的文本检索方法,所述方法包括:
3、获取k个源域文本数据集以及一目标域文本数据集;
4、将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择子空间;
5、从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域
...【技术保护点】
1.一种面向零样本的文本检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择空间的过程包括:
3.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域文本数据集上的检索准确率,将该数据块及其对应的检索准确率作为评估数据对添加至评估结果集合中的过程包括:
4.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,基于该父节点扩展出包括K个
...【技术特征摘要】
1.一种面向零样本的文本检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,将每一源域文本数据集均匀切分为若干个数据块,根据数据块构建源域数据选择空间的过程包括:
3.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,从每一源域文本数据集中随机选取一数据块,获取该数据块在目标域文本数据集上的检索准确率,将该数据块及其对应的检索准确率作为评估数据对添加至评估结果集合中的过程包括:
4.根据权利要求1所述的一种面向零样本的文本检索方法,其特征在于,基于该父节点扩展出包括k个子节点的源域数据选择子空间的过程包括:
5.根据权利要求1或3所述的一种面向零样本的文本检索方法,其特征在于,从源域数据选择子空间选择一子节点,获取该子节点包含的数据块对应的检索准确率,得到该子节点对应的评估数据并更新评估结果集合的...
【专利技术属性】
技术研发人员:寿黎但,喻琳珠,李环,陈珂,骆歆远,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。