System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 预训练掩码语言模型全流程自动纠偏方法、装置及介质制造方法及图纸_技高网

预训练掩码语言模型全流程自动纠偏方法、装置及介质制造方法及图纸

技术编号:41328711 阅读:6 留言:0更新日期:2024-05-13 15:06
本发明专利技术公开了一种预训练掩码语言模型全流程自动纠偏方法、装置及介质,属于人工智能下的自然语言处理分支领域。本发明专利技术从公共知识库中获取每个主题的短语,基于预训练掩码语言模型MLM筛选出与每个主题的种子短语最相似的多个短语,构成主题短语集合;基于包含多个掩码标记的提示和MLM,计算多token粒度的刻板印象短语的概率分布,并根据概率分布差异计算针对每个输入提示的损失,并获取最大化损失的有偏见的提示;通过最小化针对每个输入提示的损失,对MLM进行微调;利用微调后的MLM对输入的自然语言进行自动纠偏。本发明专利技术通过自动化的方式来一定程度减轻大型预训练掩码语言模型的偏见问题,降低人工纠正偏见的数据成本。

【技术实现步骤摘要】

本专利技术提出一种预训练掩码语言模型全流程自动纠偏方法、装置及介质,属于人工智能下的自然语言处理分支领域。


技术介绍

1、现有技术中与本专利技术最相近似的实现方案是发表于annual meeting of theassociation for computational linguistics 2022(acl’22)的《auto-debias:debiasing masked language models with automated biased prompts》[14],其大体流程框架如图1所示。

2、auto-debias针对的问题是英文掩码预训练语言模型中出现的性别/种族在职业、学科方面上的偏见现象,其解决方案是:

3、(1)首先auto-debias定义了“属性词-偏见词”对应关系,其中属性词c为性别或者种族相关词,且往往呈现m元组(此处是2元组)的形式,如“(he,she)”或者“(europeanamerican,african american)”;偏见词则是类似职业或者学科相关词,如“football”、“ceo”或者“math”、“biology”。随后auto-debias设计了一种提示(prompt)文本模板“[attribute][t][t][t][mask]”作为预训练掩码语言模型的输入。这里每个“[]”表示一个用来填词或词元的空位,实际最后填好的prompt输入文本中是不包含“[]”的。“[attribute]”用来填属性词;而“[mask]”则是用于填偏见词(一个“[mask]”仅能填一个词或词元):“[t]”则是预留的空位,用来在搜索过程中填入的prompt模板词。

4、(2)设m是mlm(masked language model)预训练模型,v是偏见词表。一个promptxprompt∈v*表示拥有包括一个“[attribute]”和一个“[mask]”的一连串词所组成的一段文本。比如,“[attribute]has a job as[mask]”就是一个完整的prompt,那么将属性词c填入prompt中(这里是“she”),得到的xprompt(c)为:xprompt(she)=she has a job as[mask].。再将xprompt(c)输入m中得到概率p([mask]=v|m,xprompt(c)),其中v∈v。

5、(3)进而对于整个偏见词表v,可以通过将一对偏见词“(he,she)”填入的方式得到输出p([mask]=v|m,xprompt(she))和p([mask]=v|m,xprompt(he));进而通过这两个概率求出jsd损失:其中kld表示kl散度。所以auto-debias的整个纠偏过程分为两步:1.搜索:通过beam search的方法搜索出jsd损失最大的500个prompt;2.纠偏:用这500个prompt作为训练数据,去训练该mlm,损失函数就是jsd,且训练目标就是最小化jsd。

6、现有技术的主要缺点有两条:(1)只能针对单个词纠偏,不能针对多个词构成的词组或是合成词进行纠偏;(2)纠偏所需要的词表依然需要纯人工构建,词表大小以及词表内容的生成无法自动化。


技术实现思路

1、本专利技术的目的是提出一种预训练掩码语言模型全流程自动纠偏方法、装置及介质,通过自动化的方式来一定程度减轻大型预训练掩码语言模型的性别、种族、民族在职业、学科等方面的偏见问题,进而降低人工纠正偏见的数据成本。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种预训练掩码语言模型全流程自动纠偏方法,包括以下步骤:

4、1)定义由多个主题组成的刻板印象,每个主题下具有多个种子短语;从公共知识库中获取每个主题的短语,基于预训练掩码语言模型mlm筛选出与每个主题的种子短语最相似的多个短语,构成主题短语集合;

5、2)基于包含多个掩码标记的提示和mlm,计算多token粒度的刻板印象短语的概率分布,并根据概率分布差异计算针对每个输入提示的损失,并获取最大化损失的有偏见的提示;

6、3)通过最小化针对每个输入提示的损失,对mlm进行微调;利用微调后的mlm对输入的自然语言进行自动纠偏。

7、进一步地,步骤1)中从公共知识库中获取每个主题的短语时,利用mlm过滤掉与刻板印象的种子短语具有语义相似性的超链接短语。

8、进一步地,步骤1)中基于mlm筛选出与每个主题的种子短语最相似的多个短语的步骤包括:

9、针对获取的每个主题的短语,利用mlm计算每个短语的嵌入;

10、根据每个短语的嵌入与每个种子短语的嵌入,计算每个主题下的短语与种子短语之间的余弦相似度;

11、根据余弦相似度的大小进行排序,选择每个主题中与种子短语最相似的topk个短语,再经过去重,得到主题短语集合。

12、进一步地,步骤1)中利用mlm计算每个短语的嵌入的式子为:

13、

14、其中,表示短语的嵌入,mcls表示利用mlm计算代表一个句子的分类嵌入,t表示一个句子模板,t表示句子模板集合。

15、进一步地,步骤2)中包含多个掩码标记的提示的表达式为:

16、

17、其中,x′prompt表示提示,[mask]表示掩码标记,x表示连接用短语,表示集合c中第k个元组的第m个短语,集合c为一个由m元组组成的属性词集合。

18、进一步地,步骤2)中计算多token粒度的刻板印象短语的概率分布的式子为:

19、

20、

21、其中,phi表示刻板印象的第i个主题的短语,n表示phi的最大长度,l表示每个phi的长度,m表示mlm,l表示掩码标记[mask]的数量。

22、进一步地,步骤2)中根据概率分布差异计算针对每个输入提示的损失的步骤包括:

23、首先计算概括分布的kld散度,根据kld散度计算概率分布的jsd散度,再计算jsd散度损失,式子为:

24、

25、其中,表示概率分布,是集合c中第k个元组的第m个短语。

26、然后根据概率分布差异计算针对每个输入提示的损失,式子为:

27、

28、进一步地,步骤2)中采用beam search来获取最大化损失的有偏见的提示。

29、一种计算机装置,包括存储器和处理器,在该存储器上存储有计算机程序,该处理器执行该程序时实现上述方法的步骤。

30、一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。

31、本专利技术取得的有益效果:

32、1.本专利技术优化prompt模板的结构,提出多标记去偏头,在模型去偏阶段中搜索有区别的提示,这些填空式提示在生成刻板印象短语方面与人口统计词汇(例如man/woman)存在最高的不一本文档来自技高网...

【技术保护点】

1.一种预训练掩码语言模型全流程自动纠偏方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1)中从公共知识库中获取每个主题的短语时,利用MLM过滤掉与刻板印象的种子短语具有语义相似性的超链接短语。

3.如权利要求1所述的方法,其特征在于,步骤1)中基于MLM筛选出与每个主题的种子短语最相似的多个短语的步骤包括:

4.如权利要求3所述的方法,其特征在于,步骤1)中利用MLM计算每个短语的嵌入的式子为:

5.如权利要求1所述的方法,其特征在于,步骤2)中包含多个掩码标记的提示的表达式为:

6.如权利要求5所述的方法,其特征在于,步骤2)中计算多token粒度的刻板印象短语的概率分布的式子为:

7.如权利要求6所述的方法,其特征在于,步骤2)中根据概率分布差异计算针对每个输入提示的损失的步骤包括:

8.如权利要求7所述的方法,其特征在于,步骤2)中采用Beam Search来获取最大化损失的有偏见的提示。

9.一种计算机装置,其特征在于,包括存储器和处理器,在该存储器上存储有计算机程序,该处理器执行该程序时实现权利要求1-8任一项所述方法的步骤。

10.一种计算机可读存储介质,其特征在于,存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种预训练掩码语言模型全流程自动纠偏方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,步骤1)中从公共知识库中获取每个主题的短语时,利用mlm过滤掉与刻板印象的种子短语具有语义相似性的超链接短语。

3.如权利要求1所述的方法,其特征在于,步骤1)中基于mlm筛选出与每个主题的种子短语最相似的多个短语的步骤包括:

4.如权利要求3所述的方法,其特征在于,步骤1)中利用mlm计算每个短语的嵌入的式子为:

5.如权利要求1所述的方法,其特征在于,步骤2)中包含多个掩码标记的提示的表达式为:

6.如权利要求5所述的方法,...

【专利技术属性】
技术研发人员:张潇丹石秉康刘总真吕红蕾王仕杰胡静远
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1