自然合理的多语言预训练模型生成语言约束方法技术

技术编号：40678944 阅读：13 留言：0更新日期：2024-03-18 19:18

本发明专利技术提出一种自然合理的多语言预训练模型生成语言约束方法，包括，获取不同语言的单语言词表；将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集；获取提示文本与生成时所需的语言；调用所述融合词表集中所需的语言对应的融合词表进行生成，输出生成的结果。通过本发明专利技术提出的方法，既防止了生成结果中出现不自然的多语言夹杂情况，又能够保留合理借用的其他语言专有词汇，不干扰模型在正常情况下的生成结果，从而使多语言模型在限定回答使用的语言的情况下也能生成自然合理的文本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机网络信息。

技术介绍

1、近年来，预训练语言模型过了长足的发展。目前的预训练模型可以同时很好的支持多种不同语言的对话。然而，在生成对话时，多语言预训练模型时常会在生成内容中将多种语言之间不合理的相互夹杂，降低生成结果的质量。而将生成的词汇限定在某种语言的词汇之内的方法，则会同时排除合理的相互词汇借用，同样无法完美的解决这个问题。

2、经过长年累月的技术发展，生成式ai目前已经具有很高的生成水平。在生成式ai的研究中，研究人员发现融合多种不同语言的数据，可以训练出能够兼顾多种语言，将不同语言之间的知识融会贯通，取得更好生成效果的预训练模型。

3、然而，多种语言混合训练也有自己的缺陷。在训练过程中，模型将多种语言的词汇一视同仁的理解他们的含义。因此在生成时，难免可能有多种语言夹杂出现的情况发生。

4、对默认使用多种语言进行生成的多语言预训练模型而言，限制其只使用一种语言进行生成，称为“约束式生成”(constrained generation)，由于预训练语言模型的黑盒特性，约束式生成任务往往十分困难。

5、一个简单的现有思路是可以通过将其他语言的词汇直接从词表中移除的方式来解决此问题。如在生成中文时，将由英文字母组成的词汇全部移除。这种方法在一部分情况下具有一定的效果，但日常使用某种语言时，有时在正常情况下也会夹杂其他语言的词汇。如iphone，macbook等专有词汇在中文中也经常被使用，因此直接移除其他语言的词汇可能会在这些情况下干扰预训练模型的正常生成，并不是最好的解决方法。

技术实现思路

1、本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本专利技术的目的在于提出一种自然合理的多语言预训练模型生成语言约束方法，用于使多语言模型在限定回答使用的语言的情况下也能生成自然合理的文本。

3、为达上述目的，本专利技术第一方面实施例提出了一种自然合理的多语言预训练模型生成语言约束方法，包括：

4、获取不同语言的单语言词表；

5、将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集；

6、获取提示文本与生成时所需的语言；

7、调用所述融合词表集中所需的语言对应的融合词表进行生成，输出生成的结果。

8、另外，根据本专利技术上述实施例的一种自然合理的多语言预训练模型生成语言约束方法还可以具有以下附加的技术特征：

9、进一步地，在本专利技术的一个实施例中，所述获取单语言词表，包括：

10、收集属于某一种语言的自然语言数据；

11、通过不断合并已有的词汇的方式训练该语言的自然词表，得到单语言词表。

12、进一步地，在本专利技术的一个实施例中，所述将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集，包括：

13、获取所述单语言词表中属于该语言的词汇的第一集合，生成格式词的第二集合，以及同属两个词表但不属于该语言的词汇的第三交集；

14、取所述第一集合、所述第二集合、所述第三交集的并集作为融合词表。

15、为达上述目的，本专利技术第二方面实施例提出了一种自然合理的多语言预训练模型生成语言约束装置，包括以下模块：

16、第一获取模块，用于获取不同语言的单语言词表；

17、融合模块，用于将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集；

18、第二获取模块，用于获取提示文本与生成时所需的语言；

19、生成模块，用于调用所述融合词表集中所需的语言对应的融合词表进行生成，输出生成的结果。

20、进一步地，在本专利技术的一个实施例中，所述第一获取模块，还用于：

21、收集属于某一种语言的自然语言数据；

22、通过不断合并已有的词汇的方式训练该语言的自然词表，得到单语言词表。

23、进一步地，在本专利技术的一个实施例中，所述融合模块，还用于：

24、获取所述单语言词表中属于该语言的词汇的第一集合，生成格式词的第二集合，以及同属两个词表但不属于该语言的词汇的第三交集；

25、取所述第一集合、所述第二集合、所述第三交集的并集作为融合词表。

26、为达上述目的，本专利技术第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的一种自然合理的多语言预训练模型生成语言约束方法。

27、为达上述目的，本专利技术第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种自然合理的多语言预训练模型生成语言约束方法。

28、本专利技术实施例提出的自然合理的多语言预训练模型生成语言约束方法，针对每种语言学习该语言的专属词表，并将这些词表与模型原本使用的词表相融合，可以在排除生成内容之间不合理的跨语言相互夹杂的同时，保留合理的相互词汇借用，从而使多语言模型在限定回答使用的语言的情况下也能生成自然合理的文本。

本文档来自技高网...

【技术保护点】

1.一种自然合理的多语言预训练模型生成语言约束方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述获取单语言词表，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集，包括：

4.一种自然合理的多语言预训练模型生成语言约束装置，其特征在于，包括以下模块：

5.根据权利要求4所述的装置，其特征在于，所述第一获取模块，还用于：

6.根据权利要求4所述的装置，其特征在于，所述融合模块，还用于：

7.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-3中任一所述的自然合理的多语言预训练模型生成语言约束方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的自然合理的多语言预训练模型生成语言约束方法。

【技术特征摘要】

1.一种自然合理的多语言预训练模型生成语言约束方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述获取单语言词表，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述单语言词表与多语言预训练模型的内置词表相融合，得到融合词表集，包括：

4.一种自然合理的多语言预训练模型生成语言约束装置，其特征在于，包括以下模块：

5.根据权利要求4所述的装置，其特征在于，所述第一获取模块，还用于：

<...

【专利技术属性】
技术研发人员：唐杰，邹旭，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人