当前位置: 首页 > 专利查询>汕头大学专利>正文

应用于自然语言处理的跨域分类方法、系统、设备及介质技术方案

技术编号:42492353 阅读:25 留言:0更新日期:2024-08-21 13:09
本发明专利技术公开应用于自然语言处理的跨域分类方法、系统、设备及介质,其中所述方法包括:获取源域数据集和目标域数据集,所述源域数据集包括携带分类标签的多个源文本序列,所述目标域数据集包括未携带分类标签的多个目标文本序列;获取文本分类模型,其包括特征提取器和分类器;基于协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移,确定最终损失函数;基于所述源域数据集、所述目标域数据集、所述最终损失函数和所述协作学习策略,通过随机梯度下降法对所述文本分类模型进行训练,且在训练完毕时输出每个目标文本序列对应的预测分类标签。本发明专利技术可减少不同数据域之间存在的特征分布差异性,提高模型的跨域适应能力和泛化性能。

【技术实现步骤摘要】

本专利技术涉及计算机,具体是涉及应用于自然语言处理的跨域分类方法、系统、设备及介质


技术介绍

1、文本分类是自然语言处理中的一个重要任务,采用跨域适应可以帮助文本分类模型更好地处理不同领域的文本数据,但是在机器学习算法中通常出现训练数据(即源域数据)和测试数据(即目标域数据)具有不同分布的情况,此时将文本分类模型在源域上进行训练之后直接应用到目标域,容易导致文本分类模型在目标域上的泛化能力较差。


技术实现思路

1、本专利技术提供应用于自然语言处理的跨域分类方法、系统、设备及介质,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。

2、第一方面,提供一种应用于自然语言处理的跨域分类方法,所述方法包括:

3、获取源域数据集和目标域数据集,所述源域数据集包括携带分类标签的多个源文本序列,所述目标域数据集包括未携带分类标签的多个目标文本序列;

4、获取文本分类模型,其包括特征提取器和分类器;

5、基于给定的协作学习策略以及所述源域数据集和所本文档来自技高网...

【技术保护点】

1.一种应用于自然语言处理的跨域分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签,再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。

3.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述分布偏移包括边缘分布偏移和条件分布偏移;所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移,确定最终损失函数包括:

4.根据权利要求3所述的应用于自然语言处理的跨...

【技术特征摘要】

1.一种应用于自然语言处理的跨域分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述协作学习策略为控制所述文本分类模型在每次训练时预测每个目标文本序列对应的分类标签,再连同每个源文本序列对应的分类标签对所述文本分类模型进行下一次训练。

3.根据权利要求1所述的应用于自然语言处理的跨域分类方法,其特征在于,所述分布偏移包括边缘分布偏移和条件分布偏移;所述基于给定的协作学习策略以及所述源域数据集和所述目标域数据集之间的分布偏移,确定最终损失函数包括:

4.根据权利要求3所述的应用于自然语言处理的跨域分类方法,其特征在于,所述特征对齐损失函数的表达式为:

5.根据权利要求4所述的应用于自然语言处理的跨域分类方...

【专利技术属性】
技术研发人员:佟禹陈颖麦旭鹏
申请(专利权)人:汕头大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1