语句语义模型的训练方法、识别方法、系统、设备及介质技术方案

技术编号:41012979 阅读:22 留言:0更新日期:2024-04-18 21:49
本发明专利技术公开了一种语句语义模型的训练方法、识别方法、系统、设备及介质,其中,该训练方法通过获取原始的语句数据集和当前的锚点队列;根据当前的锚点队列,对语句数据集进行降维处理,得到孪生向量集;对孪生向量集进行特征编码处理,得到编码特征集;根据同卵特征子集和异卵特征子集,对当前的锚点队列进行更新,得到更新后的锚点队列;根据锚点特征子集、同卵特征子集、异卵特征子集和更新后的锚点队列,对初始化的语句语义模型进行参数更新,得到训练好的语句语义模型。该训练方法可以更有效地捕获句子表示学习的细粒度语义,有效减少模型陷入次优状态的情况,提高模型对语句的识别准确度。本发明专利技术涉及人工智能技术领域。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是一种语句语义模型的训练方法、识别方法、系统、设备及介质


技术介绍

1、随着神经网络在新算法和计算技术的发展,普通的句子表征方法成为自然语言处理中各种下游任务的有前途的工具。主要包括信息检索、语义匹配和机器翻译等下游任务,这些任务对于提高智能系统的性能至关重要,但在准确捕捉语义相似性等方面仍存在某些限制。为了克服这些限制并提高句子表示方法的有效性,人们开始尝试使用基于数据增强的对比学习的方式来解开冗余的句子表征。

2、目前,传统的基于数据增强的对比学习的方式主要分为显式数据增强和隐式数据增强这两种;显式数据增强主要有随机插入、替换同义词和删除语句中的单词;而隐式数据增强侧重于在句子嵌入空间中生成正样本。这些方式虽然可以有效增强句子的语义,但同时,这些方式有可能会导致语义改变,使得增强后的语句相较于原始语句产生了句意偏差;还有,这些方式有可能扭曲信噪对比学习估计(infonce),使得模型难以捕捉句子表示中的微妙语义差异,容易陷入次优状态,从而使得模型识别准确度往往不尽人意。

3、因此,现有技术存在的问题本文档来自技高网...

【技术保护点】

1.一种语句语义模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的训练方法,其特征在于,所述根据当前的所述锚点队列,对所述语句数据集进行降维处理,得到孪生向量集,包括:

3.根据权利要求2所述的训练方法,其特征在于,所述对所述孪生向量集进行特征编码处理,得到编码特征集,包括:

4.根据权利要求3所述的训练方法,其特征在于,所述根据所述同卵特征子集和所述异卵特征子集,对当前的所述锚点队列进行更新,得到更新后的所述锚点队列,包括:

5.根据权利要求1所述的训练方法,其特征在于,所述根据所述锚点特征子集、所述同卵特征子集、所述异卵特征子...

【技术特征摘要】

1.一种语句语义模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的训练方法,其特征在于,所述根据当前的所述锚点队列,对所述语句数据集进行降维处理,得到孪生向量集,包括:

3.根据权利要求2所述的训练方法,其特征在于,所述对所述孪生向量集进行特征编码处理,得到编码特征集,包括:

4.根据权利要求3所述的训练方法,其特征在于,所述根据所述同卵特征子集和所述异卵特征子集,对当前的所述锚点队列进行更新,得到更新后的所述锚点队列,包括:

5.根据权利要求1所述的训练方法,其特征在于,所述根据所述锚点特征子集、所述同卵特征子集、所述异卵特征子集和更新后的所述锚...

【专利技术属性】
技术研发人员:李双印肖庆发程乐
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1