句法语言模型的无监督训练方法及装置制造方法及图纸

技术编号：41320601 阅读：3 留言：0更新日期：2024-05-13 15:00

本说明书实施例提供一种句法语言模型的无监督训练方法及装置，在训练方法中，首先将输入文本输入组合模型进行句法推导，得到最佳句法树。之后，可以对该最佳句法树进行全部层级的遍历，得到文本片段序列。接着可以将文本片段序列中各文本片段的内部表征一起输入生成模型，得到针对各文本片段预测的各动作类别。最后，可以分别基于生成模型输出的动作类别和基于组合模型确定的各文本片段的外部表征，计算第一预测损失和第二预测损失，并基于第一预测损失和第二预测损失的综合损失，调整组合模型和生成模型的参数。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及自然语言处理，尤其涉及一种句法语言模型的无监督训练方法及装置。

技术介绍

1、句法语言模型是自然语言处理(nlp)领域的一种生成式语言模型，它关注于语言结构，特别是句子成分级别的显式组合。与传统的统计语言模型不同，句法语言模型不仅考虑词汇的分布，还考虑词汇之间的句法关系。因此，它具有传统语言模型所不具备的多粒度句法成分级别的表征，可以作为符号接口在诸多下游应用，如文本摘要、机器翻译、问答系统等任务中表现出更好的性能。

2、然而传统的训练句法语言模型的方法都需要依赖人工标注的句法树，昂贵且领域适配能力差，且无法在普通文本上进行预训练，因此，需要提供一种更高效地句法语言模型的训练方案。

技术实现思路

1、本说明书一个或多个实施例描述了一种句法语言模型的无监督训练方法及装置，可以提升句法语言模型的训练效率，且可以节省训练开销。

2、第一方面，提供了一种句法语言模型的无监督训练方法，所述句法语言模型包括：生成模型和组合模型；所述方法包括：

3、将第一文本输入所述组合模型进行句法推导，得到当前最佳句法树，其中的每个节点代表一个文本片段，并具有相应的内部表征和外部表征；父节点代表的文本片段是语义切分得到的两个子节点代表的文本片段的组合；所述内部表征通过对对应文本片段的内部信息进行编码得到；所述外部表征通过结合对应文本片段的上下文信息进行编码得到；

4、对所述当前最佳句法树进行全部层级的遍历，得到文本片段序列；

<p>5、将所述文本片段序列中各文本片段的内部表征一起输入所述生成模型，得到针对所述各文本片段预测的各动作类别；所述动作类别选自组合和生成；

6、至少根据所述各动作类别以及动作标签序列，确定第一预测损失；所述动作标签序列基于所述各文本片段的起止位置而确定；

7、根据所述第一预测损失和第二预测损失的综合损失，调整所述生成模型和组合模型的参数；所述第二预测损失基于所述第一文本中各个词的外部表征计算得到。

8、第二方面，提供了一种句法语言模型的无监督训练装置，所述句法语言模型包括：生成模型和组合模型；所述装置包括：

9、输入单元，用于将第一文本输入所述组合模型进行句法推导，得到当前最佳句法树，其中的每个节点代表一个文本片段，并具有相应的内部表征和外部表征；父节点代表的文本片段是语义切分得到的两个子节点代表的文本片段的组合；所述内部表征通过对对应文本片段的内部信息进行编码得到；所述外部表征通过结合对应文本片段的上下文信息进行编码得到；

10、遍历单元，用于对所述当前最佳句法树进行全部层级的遍历，得到文本片段序列；

11、获取单元，还用于将所述文本片段序列中各文本片段的内部表征一起输入所述生成模型，得到针对所述各文本片段预测的各动作类别；所述动作类别选自组合和生成；

12、确定单元，用于至少根据所述各动作类别以及动作标签序列，确定第一预测损失；所述动作标签序列基于所述各文本片段的起止位置而确定；

13、调整单元，用于根据所述第一预测损失和第二预测损失的综合损失，调整所述生成模型和组合模型的参数；所述第二预测损失基于所述第一文本中各个词的外部表征计算得到。

14、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

15、第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，该处理器执行所述可执行代码时，实现第一方面的方法。

16、本说明书一个或多个实施例提供的句法语言模型的无监督训练方法及装置，提出用通过对最佳句法树进行遍历得到的文本片段序列替换原始输入文本，由此可以实现用并行的方式来训练句法语言模型。此外，本方案还提出，结合基于动作类别计算的自回归损失，以及基于各文本片段的外部表征计算的自编码损失，来联合训练组合模型和生成模型，由此节省训练资源。最后，本方案基于上述文本片段序列中各文本片段的起止位置，来确定动作标签序列，可以实现无监督训练句法语言模型，从而可以减少人工标注成本。

本文档来自技高网...

【技术保护点】

1.一种句法语言模型的无监督训练方法，所述句法语言模型包括：生成模型和组合模型；所述方法包括：

2.根据权利要求1所述的方法，其中，所述生成模型至少包括：类型模块；

3.根据权利要求2所述的方法，其中，所述生成模型还包括：输出模块，用于根据所述各动作类别和所述各隐向量，输出目标文本。

4.根据权利要求3所述的方法，其中，所述输出目标文本包括：

5.根据权利要求2所述的方法，其中，所述各文本片段的目标位置为所述各文本片段的终止位置。

6.根据权利要求1所述的方法，其中，所述进行句法推导包括：

7.根据权利要求1所述的方法，其中，任一文本片段对应的内部表征，为按照不同分割点对该文本片段进行切分后，针对各种切分方式计算的多个中间表征的加权求和；与任一种切分方式对应的中间表征，通过利用目标函数，基于该切分方式下的两个子片段的内部表征而计算得到。

8.根据权利要求1所述的方法，其中，所述动作标签序列通过以下步骤获得：

9.根据权利要求3所述的方法，其中，所述确定第一预测损失包括：

11.一种句法语言模型的无监督训练装置，所述句法语言模型包括：生成模型和组合模型；所述装置包括：

12.根据权利要求11所述的装置，其中，所述生成模型至少包括：类型模块；所述获取单元具体用于：

13.根据权利要求12所述的装置，所述生成模型还包括：输出模块；

14.根据权利要求13所述的装置，其中，所述获取单元具体包括：

15.根据权利要求12所述的装置，其中，所述各文本片段的目标位置为所述各文本片段的终止位置。

16.根据权利要求11所述的装置，其中，所述输入单元具体用于：

17.根据权利要求11所述的装置，其中，任一文本片段对应的内部表征，为按照不同分割点对该文本片段进行切分后，针对各种切分方式计算的多个中间表征的加权求和；与任一种切分方式对应的中间表征，通过利用目标函数，基于该切分方式下的两个子片段的内部表征而计算得到。

18.根据权利要求11所述的装置，还包括：

19.根据权利要求13所述的装置，其中，所述确定单元具体用于：

20.根据权利要求11所述的装置，还包括：

21.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项所述的方法。

22.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种句法语言模型的无监督训练方法，所述句法语言模型包括：生成模型和组合模型；所述方法包括：

2.根据权利要求1所述的方法，其中，所述生成模型至少包括：类型模块；

3.根据权利要求2所述的方法，其中，所述生成模型还包括：输出模块，用于根据所述各动作类别和所述各隐向量，输出目标文本。

4.根据权利要求3所述的方法，其中，所述输出目标文本包括：

5.根据权利要求2所述的方法，其中，所述各文本片段的目标位置为所述各文本片段的终止位置。

6.根据权利要求1所述的方法，其中，所述进行句法推导包括：

8.根据权利要求1所述的方法，其中，所述动作标签序列通过以下步骤获得：

9.根据权利要求3所述的方法，其中，所述确定第一预测损失包括：

10.根据权利要求1所述的方法，其中，所述第二预测损失通过以下步骤计算得到：

11.一种句法语言模型的无监督训练装置，所述句法语言模型包括：生成模型和组合模型；所述装置包括：

12....

【专利技术属性】
技术研发人员：胡翔，武威，屠可伟，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人