System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于bert模型的词语搭配提取方法及装置制造方法及图纸_技高网

一种基于bert模型的词语搭配提取方法及装置制造方法及图纸

技术编号:41241851 阅读:2 留言:0更新日期:2024-05-09 23:53
本发明专利技术涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明专利技术,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。

【技术实现步骤摘要】

本专利技术涉及文本处理,特别是指一种基于bert模型的词语搭配提取方法及装置


技术介绍

1、词语搭配自动提取是文本理解的基础性问题之一,在语言教学、搜索引擎、推荐系统中发挥着重要作用。举例来说,“我们要提高下次成绩”中“提高”和“成绩”之间就是搭配关系。

2、目前的词语搭配自动提取的主要方法包括下面三种:

3、1、分词后,基于词语共现统计。

4、2、构建语义知识库,通过特征匹配确定搭配关系。

5、3、使用句法语义依存模型进行提取。

6、但是,上述三种常用的方法依旧存在以下不足:

7、1、基于词语共现的方法,无法针对单句进行提取。

8、2、构建知识库和使用句法语法依存模型,需要大量的专家标注工作,来对模型进行训练,导致成本非常高,而用较少的样本对模型进行训练,会导致模型的准确率降低。


技术实现思路

1、为了解决现有技术中成本高、准确率不高的问题,本专利技术实施例提供了一种基于bert模型的词语搭配提取方法及装置。所述技术方案如下:

2、一方面,提供了一种基于bert模型的词语搭配提取方法,该方法由基于bert模型的词语搭配提取设备实现,该方法包括:

3、s1、获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型;

4、s2、获取待提取信息的输入句子,将所述输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;

5、s3、在所述attention矩阵中确定出满足预设条件的多个成词矩阵;

6、s4、根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。

7、可选地,所述s1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:

8、收集由文章构成的语料库;

9、对所述语料库中的文章进行分句处理,得到多个训练样本句子;

10、根据所述训练样本句子对初始的bert模型进行训练,得到训练好的bert模型。

11、可选地,所述attention矩阵是维度为n×n的矩阵,n为所述输入句子包括的字的个数;

12、所述attention矩阵中的元素(i,j)表示第j个字对于第i个字的语义相关强度,所述attention矩阵的对角线上的元素(i,i)表示每个字的自相关强度。

13、可选地,所述s3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:

14、s31、根据设定的成词矩阵长度,遍历attention矩阵,确定出长度与宽度均小于或等于所述成词矩阵长度的待定成词矩阵;

15、s32、对于任一待定成词矩阵,如果所述待定成词矩阵中的元素和值大于或等于预设第一阈值,且除去对角线上的元素之外的其它元素和值大于或等于第二阈值,则将所述待定成词矩阵,确定为满足预设条件的成词矩阵。

16、可选地,所述s4的根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系,包括:

17、s41、选取多个成词矩阵中的任意两个成词矩阵,分别用a以及b表示,成词矩阵a中的左上角元素表示为(a0,a0),所述成词矩阵a中的右下角元素表示为(as,as),成词矩阵b中的左上角元素表示为(b0,b0),所述成词矩阵b中的右下角元素表示为(bs,bs),a=a0,b=b0,z=0;

18、s42、计算z=att_matrix[a][b]+z;

19、s43、判断a是否小于as,如果是,则a=a+1,转去执行s42,如果不是则执行s44;

20、s44、b=b+1,判断b是否小于bs,如果是,则转去执行s42,如果不是,则执行s45;

21、s45、a=a0,b=b0,f=0;

22、s46、计算f=att_matrix[b][a]+f;

23、s47、判断a是否小于as,如果是,则a=a+1,转去执行s45,如果不是则执行s48;

24、s48、b=b+1,判断b是否小于bs,如果是,则转去执行s45,如果不是,则执行s49;

25、s49、计算z的平均值z’,计算f的平均值f’,比较z’与f’的大小,将较大的值确定为成词矩阵a与成词矩阵b的搭配程度分,如果成词矩阵a与成词矩阵b的搭配程度分大于或等于预设阈值,则确定成词矩阵a与成词矩阵b满足搭配关系,如果成词矩阵a与成词矩阵b的搭配程度分小于预设阈值,则确定成词矩阵a与成词矩阵b不满足搭配关系。

26、另一方面,提供了一种基于bert模型的词语搭配提取装置,该装置应用于基于bert模型的词语搭配提取方法,该装置包括:

27、训练模块,用于获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型;

28、获取模块,用于获取待提取信息的输入句子,将所述输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;

29、确定模块,用于在所述attention矩阵中确定出满足预设条件的多个成词矩阵;

30、计算模块,用于根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。

31、可选地,所述训练模块,用于:

32、收集由文章构成的语料库;

33、对所述语料库中的文章进行分句处理,得到多个训练样本句子;

34、根据所述训练样本句子对初始的bert模型进行训练,得到训练好的bert模型。

35、可选地,所述attention矩阵是维度为n×n的矩阵,n为所述输入句子包括的字的个数;

36、所述attention矩阵中的元素(i,j)表示第j个字对于第i个字的语义相关强度,所述attention矩阵的对角线上的元素(i,i)表示每个字的自相关强度。

37、可选地,所述确定模块,用于:

38、s31、根据设定的成词矩阵长度,遍历attention矩阵,确定出长度与宽度均小于或等于所述成词矩阵长度的待定成词矩阵;

39、s32、对于任一待定成词矩阵,如果所述待定成词矩阵中的元素和值大于或等于预设第一阈值,且除去对角线上的元素之外的其它元素和值大于或等于第二阈值,则将所述待定成词矩阵,确定为满足预设条件的成词矩阵。

40、可选地,所述计算模块,用于:

41、s41、选取多个成词矩阵中的任意两个成词矩阵,分别用a以及b表示,成词矩阵a中的左上角元素表示为(a0,a0),所述成词矩阵a中的右下角元素表示为(a本文档来自技高网...

【技术保护点】

1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述S1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为N×N的矩阵,N为所述输入句子包括的字的个数;

4.根据权利要求3所述的方法,其特征在于,所述S3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:

5.根据权利要求4所述的方法,其特征在于,所述S4的根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系,包括:

6.一种基于bert模型的词语搭配提取装置,其特征在于,所述装置用于一种基于bert模型的词语搭配提取方法,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述训练模块,用于:

8.根据权利要求6所述的装置,其特征在于,所述attention矩阵是维度为N×N的矩阵,N为所述输入句子包括的字的个数;

9.一种基于bert模型的词语搭配提取设备,其特征在于,所述基于bert模型的词语搭配提取设备包括:

10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至5任一项所述的方法。

...

【技术特征摘要】

1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述s1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为n×n的矩阵,n为所述输入句子包括的字的个数;

4.根据权利要求3所述的方法,其特征在于,所述s3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:

5.根据权利要求4所述的方法,其特征在于,所述s4的根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定...

【专利技术属性】
技术研发人员:王淼徐娟殷晓君
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1