当前位置: 首页 > 专利查询>浙江大学专利>正文

基于知识融合的多未知领域文本分类方法、设备、介质技术

技术编号:42464597 阅读:20 留言:0更新日期:2024-08-21 12:51
本发明专利技术公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2<supgt;n</supgt;‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种基于知识融合的多未知领域文本分类方法、设备、介质


技术介绍

1、多未知领域文本分类是自然语言处理中的一项挑战性任务。给定训练样本均未标注领域信息和标签的文本数据集和一些相关领域的已训练的文本分类模型,多未知领域文本分类的目的是从这些已训练模型中选择部分模型,其能在给定数据上训练出表现优异的新的分类模型。

2、传统方法一般会通过人工专家给数据集打标签的方式,然后利用附标签的数据来训练一个新模型,但这样的做法成本高且效率低。近期,许多研究已在探索通过复用已训练模型使用无标注数据训练一个新模型,而无需人工标注。其中,具有代表性的知识融合方法通过集成多个特定领域的“教师模型”来训练一个统一的“学生模型”,其能够对新的多领域数据集进行综合处理。然而,知识融合过程的有效性很大程度上取决于选择合适的教师模型,而样本未被标注领域信息使得模型选择相当复杂。传统的知识融合方法需要人工选择教师模型,甚至是穷举所有组合,这些做法在实际情况中不仅人力成本高,而且可能无法实施。


技术实现思路...

【技术保护点】

1.一种基于知识融合的多未知领域文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,基于预先训练好的n个教师模型构建2n-1个教师模型组合包括:

3.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,对每一个仅包含一个教师模型的教师模型组合进行第一采样的过程包括:

4.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,基于当前的观测信息选择教师模型组合的过程包括:

5.根据权利要求4所述的一种基于知识融合的多未知领域文本分类方...

【技术特征摘要】

1.一种基于知识融合的多未知领域文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,基于预先训练好的n个教师模型构建2n-1个教师模型组合包括:

3.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,对每一个仅包含一个教师模型的教师模型组合进行第一采样的过程包括:

4.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,基于当前的观测信息选择教师模型组合的过程包括:

5.根据权利要求4所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,基于更新的均值和协方差计算每一教师模型组合的效用值的过程包括:

6.根据权利要求1所述的一种基于知识融合的多未知领域文本分类方法,其特征在于,若被选择的教师模型组合为没有被采样且包含两个及以上教师...

【专利技术属性】
技术研发人员:寿黎但喻琳珠李环陈珂骆歆远张帅陈刚
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1