【技术实现步骤摘要】
本专利技术涉及计算机,具体是涉及应用于自然语言处理的跨域分类方法、系统、设备及介质。
技术介绍
1、文本分类是自然语言处理中的一个重要任务,采用跨域适应可以帮助文本分类模型更好地处理不同领域的文本数据,但是在机器学习算法中通常出现训练数据(即源域数据)和测试数据(即目标域数据)具有不同分布的情况,此时将文本分类模型在源域上进行训练之后直接应用到目标域,容易导致文本分类模型在目标域上的泛化能力较差。
技术实现思路
1、本专利技术提供应用于自然语言处理的跨域分类方法、系统、设备及介质,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
2、第一方面,提供一种应用于自然语言处理的跨域分类方法,所述方法包括:
3、获取源域数据集和目标域数据集,所述源域数据集包括携带分类标签的多个源文本序列,所述目标域数据集包括未携带分类标签的多个目标文本序列;
4、获取文本分类模型,其包括特征提取器和分类器;
5、基于给定的协作学习策略以
...【技术保护点】
1.一种应用于自然语言处理的跨域分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签,再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。
3.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述分布偏移包括边缘分布偏移和条件分布偏移;所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移,确定最终损失函数包括:
4.根据权利要求3所述的应
...【技术特征摘要】
1.一种应用于自然语言处理的跨域分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签,再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。
3.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述分布偏移包括边缘分布偏移和条件分布偏移;所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移,确定最终损失函数包括:
4.根据权利要求3所述的应用于自然语言处理的跨域分类方法,其特征在于,所述特征对齐损失函数的表达式为:
5.根据权利要求4所述的应用于自然语言处理的跨域分类方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。