System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于混合领域的成分句法分析方法、装置及介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>西湖大学专利>正文

用于混合领域的成分句法分析方法、装置及介质制造方法及图纸

技术编号:40452581 阅读:7 留言:0更新日期:2024-02-22 23:10
本申请提供了一种用于混合领域的成分句法分析方法、装置及介质,所述成分句法分析方法包括:利用至少包含第一领域和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务对预训练语言模型进行训练,以得到第一语言模型,其中,第一训练数据集中的训练数据具有针对各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务对训练好的第一语言模型进行补充训练以得到成分句法分析器,并用于第一领域和第二领域的文本序列的成分句法分析。本申请在部分领域标注数据缺乏甚至缺失的情况下,仍能使成分句法分析器具有较好的领域泛化能力,且具有较高的成分句法解析精确度。

【技术实现步骤摘要】

本申请属于自然语言处理领域,尤其涉及一种用于混合领域的成分句法分析方法、装置及介质


技术介绍

1、成分句法分析是自然语言处理中的一项重要任务,其目标是将句子分解为成分(如主语、谓语、宾语等),并描述它们之间的句法关系。成分句法分析可以帮助计算机更好地理解人类语言输入,并在各种自然语言处理应用中发挥重要作用,如机器翻译、文本摘要、问答系统等。

2、现有的成分句法分析器例如可以利用特定领域的文本数据,以成分句法分析任务为目标,对预训练语言模型(pre-trained language model)进行训练,然后再利用该领域的人工标注的数据进行模型微调(fine-tune),从而得到最终用于成分句法分析的模型。然而,当能够用于模型微调的其他领域的标注数据较少时,微调训练后得到的成分句法分析器的领域泛化通常较差。

3、由此可见,现有技术尚未能解决在特定领域的人工标注数据较少甚至缺失的情况下,训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度的问题。


技术实现思路

1、针对上述问题,提出了本申请以解决现有技术存在的上述问题。

2、本申请的目的在于提供一种用于混合领域的成分句法分析方法、装置及介质,其能够在特定领域的人工标注数据较少甚至缺失的情况下,使得训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度。

3、根据本公开的第一方案,提供了一种用于混合领域的成分句法分析方法,其包括:利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务,对预训练语言模型进行训练,以得到训练好的第一语言模型,其中,所述第一训练数据集中的训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器;利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。

4、根据本申请的第二方案,提供了一种用于混合领域的成分句法分析的装置,所述装置包括处理器,其配置为执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

5、根据本申请的第三方案,提供了一种非暂时性计算机可读介质,其上存储有指令,其中当由处理器执行时,所述指令执行根据本申请各个实施例的用于混合领域的成分句法分析方法的步骤。

6、本申请通过利用第一领域的训练数据和第二领域的训练数据,在多个领域上对预训练语言模型进行联合训练以融合多领域的知识,以实现通过联合学习的方式来获得具有领域泛化性的文本上下文表示,进而能够在特定领域的人工标注数据较少甚至缺失的情况下,使得训练得到的成分句法分析器仍然具有较好的领域泛化能力和较高的成分句法解析精确度。

本文档来自技高网...

【技术保护点】

1.一种用于混合领域的成分句法分析方法,其特征在于,包括:

2.如权利要求1所述的成分句法分析方法,其特征在于,所述第二领域的训练数据多于所述第一领域的训练数据。

3.如权利要求1所述的成分句法分析方法,其特征在于,所述至少利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器进一步包括:

4.如权利要求1-3中任一项所述的成分句法分析方法,其特征在于,所述与成分句法分析任务相关联的至少一种文本序列处理任务包括目标文本序列预测任务、词性标签预测任务、命名实体标签预测任务和语义角色标签预测任务中的一种或其组合;

5.如权利要求4所述的成分句法分析方法,其特征在于,

6.如权利要求1-3中任一项所述的成分句法分析方法,其特征在于,所述成分句法分析方法进一步包括:

7.如权利要求1或2所述的成分句法分析方法,其特征在于,

8.如权利要求1或3所述的成分句法分析方法,其特征在于,

9.一种用于混合领域的成分句法分析的装置,其特征在于,所述装置包括处理器,其配置为执行如权利要求1-8中任一项所述的用于混合领域的成分句法分析方法的步骤。

10.一种非暂时性计算机可读介质,其上存储有指令,其中当由处理器执行时,所述指令执行如权利要求1-8中任一项所述的用于混合领域的成分句法分析方法的步骤。

...

【技术特征摘要】

1.一种用于混合领域的成分句法分析方法,其特征在于,包括:

2.如权利要求1所述的成分句法分析方法,其特征在于,所述第二领域的训练数据多于所述第一领域的训练数据。

3.如权利要求1所述的成分句法分析方法,其特征在于,所述至少利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器进一步包括:

4.如权利要求1-3中任一项所述的成分句法分析方法,其特征在于,所述与成分句法分析任务相关联的至少一种文本序列处理任务包括目标文本序列预测任务、词性标签预测任务、命名实体标签预测任务和语义角色标签预测任务中的一种或其组合;

5.如权...

【专利技术属性】
技术研发人员:白雪峰张岳
申请(专利权)人:西湖大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1