自然语言处理模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:37625190 阅读:10 留言:0更新日期:2023-05-18 12:16
本公开实施例涉及一种自然语言处理模型的训练方法、装置、设备及存储介质。自然语言处理模型的训练方法,包括:获取训练数据,所述训练数据中包括至少一个页面的可扩展标记语言XML数据;从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息;基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,得到可用于提取页面特征的自然语言处理模型。采用本公开实施例方案提供的训练方法训练的自然语言处理模型具有提取页面特征的能力,进而为页面分析提供依据。进而为页面分析提供依据。进而为页面分析提供依据。

【技术实现步骤摘要】
自然语言处理模型的训练方法、装置、设备及存储介质


[0001]本公开实施例涉及人工智能
,尤其涉及一种自然语言处理模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中,自然语言处理模型(比如,预训练语言模型,也称Bert模型)可以用于提取自然语言中的语义和语法特征,从而为下游任务,比如情感分析、问答系统等提供分析依据。但是,自然语言处理模型无法提取页面中的特征,不能为页面分析提供依据。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种自然语言处理模型的训练方法、装置、设备及存储介质。
[0004]第一方面,本公开实施例提供一种自然语言处理模型的训练方法,包括:
[0005]获取训练数据,所述训练数据中包括至少一个页面的可扩展标记语言XML数据;
[0006]从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息;
[0007]基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,得到可用于提取页面特征的自然语言处理模型。
[0008]可选地,所述从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息,包括:
[0009]提取所述控件的如下至少一种信息:
[0010]所述控件的样式信息、所述控件中的内容的类型以及已在所述XML数据中包括的用于描述所述控件的文本。
[0011]可选地,所述基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,包括:
[0012]针对每个页面,将所述页面上包括的多个控件的信息衔接在一起,生成用于描述所述页面的语句;
[0013]基于各页面对应的所述语句,训练预设的自然语言处理模型。
[0014]可选地,所述将所述页面上包括的多个控件的信息衔接在一起,生成用于描述所述页面的语句,包括:
[0015]基于所述页面上包括的多个控件在所述页面上的排布顺序,依次将所述多个控件的信息衔接在一起,生成用于描述所述页面的语句。
[0016]可选地,所述基于各页面对应的所述语句,训练预设的自然语言处理模型,包括:
[0017]将各页面对应的语句衔接在一起,生成目标语句;
[0018]基于所述目标语句训练预设的自然语言处理模型。
[0019]可选地,所述基于所述目标语句训练预设的自然语言处理模型,包括:
[0020]基于词汇表对所述目标语句进行编码处理,得到所述目标语句对应的向量;
[0021]基于所述向量训练所述自然语言处理模型;
[0022]所述词汇表中包括控件的信息与编码方式之间的对应关系。
[0023]可选地,所述自然语言处理模型包括预训练语言模型Bert;
[0024]所述基于所述向量训练所述自然语言处理模型,包括:
[0025]基于所述向量对Bert模型进行完型填空MLM训练和/或预测上下句NSP训练。
[0026]第二方面,本公开实施例提供一种自然语言处理模型的训练装置,包括:
[0027]数据获取单元,用于获取训练数据,所述训练数据中包括至少一个页面的可扩展标记语言XML数据;
[0028]控件信息提取单元,用于从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息;
[0029]模型训练单元,用于基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,得到可用于提取页面特征的自然语言处理模型。
[0030]可选地,所述控件信息提取单元从所述至少一个页面的XML数据中提取控件的信息包括:
[0031]所述控件的样式信息、所述控件中的内容的类型以及已在所述XML数据中包括的用于描述所述控件的文本中的至少一种。
[0032]可选地,所述模型训练单元包括:
[0033]控件信息衔接子单元,用于针对每个页面,将所述页面上包括的多个控件的信息衔接在一起,生成用于描述所述页面的语句;
[0034]训练子单元,用于基于各页面对应的所述语句,训练预设的自然语言处理模型。
[0035]可选地,所述控件信息衔接子单元基于所述页面上包括的多个控件在所述页面上的排布顺序,依次将所述多个控件的信息衔接在一起,生成用于描述所述页面的语句。
[0036]可选地,所述训练子单元包括:
[0037]目标语句衔接模块,用于将各页面对应的语句衔接在一起,生成目标语句;
[0038]模型训练模块,用于基于所述目标语句训练预设的自然语言处理模型。
[0039]可选地,所述训练模块包括:
[0040]向量生成子模块,用于基于词汇表对所述目标语句进行编码处理,得到所述目标语句对应的向量;
[0041]模型训练子模块,用于基于所述向量训练所述自然语言处理模型;
[0042]所述词汇表中包括控件的信息与编码方式之间的对应关系。
[0043]可选地,所述自然语言处理模型包括预训练语言模型Bert;
[0044]所述模型训练子模块基于所述向量对Bert模型进行完型填空MLM训练和/或预测上下句NSP训练。
[0045]第三方面,本公开实施例提供一种计算设备,包括:
[0046]存储器和处理器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,可以实现上述第一方面的方法。
[0047]本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
[0048]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0049]本公开实施例提供的分方案,在获取包括至少一个页面的可扩展标记语言XML数据后,提取XML数据中控件的信息,随后再基于页面中控件的信息训练预设的自然语言处理模型,使得训练得到的自然语言处理模型具有提取页面特征的能力,进而为页面分析提供依据。
附图说明
[0050]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0051]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0052]图1是本公开实施例提供的一种自然语言处理模型的训练方法流程图;
[0053]图2是本公开实施例提供的一种训练自然语言处理模型的方法流程图;
[0054]图3是本公开实施例提供的一种自然语言处理模型的训练装置的结构示意图;
[0055]图4是本公开实施例中的一种计算设备的结构示意图。
具体实施方式
[0056]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理模型的训练方法,其特征在于,包括:获取训练数据,所述训练数据中包括至少一个页面的可扩展标记语言XML数据;从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息;基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,得到可用于提取页面特征的自然语言处理模型。2.根据权利要求1所述的方法,其特征在于,所述从所述至少一个页面的XML数据中提取所述至少一个页面上的控件的信息,包括:提取所述控件的如下至少一种信息:所述控件的样式信息、所述控件中的内容的类型以及已在所述XML数据中包括的用于描述所述控件的文本。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述至少一个页面上的控件的信息,训练预设的自然语言处理模型,包括:针对每个页面,将所述页面上包括的多个控件的信息衔接在一起,生成用于描述所述页面的语句;基于各页面对应的所述语句,训练预设的自然语言处理模型。4.根据权利要求3所述的方法,其特征在于,所述将所述页面上包括的多个控件的信息衔接在一起,生成用于描述所述页面的语句,包括:基于所述页面上包括的多个控件在所述页面上的排布顺序,依次将所述多个控件的信息衔接在一起,生成用于描述所述页面的语句。5.根据权利要求3所述的方法,其特征在于,所述基于各页面对应的所述语句,训练预设的自然语言处理模型,包括:将各页面对应的语句衔接在一起,生成目标语句;基于所述目标语句训练预设的自然语言处理模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述目标语句训练预设的自然语言处理模型,包括:基于词汇表对所述目标语句进行编码处理,得到所述目标语句对应的向量;基于所述向量训练所述自然语言处理模型;所述词汇表中包括控件的信息与编码方式之间的对应关系。7.根据权利要求6所述的方法,其特征在于,所述自然语言处理模型包括预训练语言模型Bert;所述基于所述向量训练所述自然语言处理模型,包括:基于所述向量对Bert模型进行完型填空MLM训练和/或预测上下句NSP训练。8.一种自然语言处理模型的训练装置,其特征在于,包括:数据获取单元,用于获取训练数据,所述训练数据中包括至少一个页面的可扩展标记语言XML数据;控件信息提取单元,用于从所...

【专利技术属性】
技术研发人员:蔡天勤潘昊璇朴菁菁
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1