一种基于bert模型的词语搭配提取方法及装置制造方法及图纸

技术编号:41241851 阅读:18 留言:0更新日期:2024-05-09 23:53
本发明专利技术涉及文本处理技术领域,特别是指一种基于bert模型的词语搭配提取方法及装置,方法包括:获取训练样本,基于训练样本对初始的bert模型进行训练,得到训练好的bert模型;获取待提取信息的输入句子,将输入句子输入到训练好的bert模型中,得到bert模型最上层的attention矩阵;在attention矩阵中确定出满足预设条件的多个成词矩阵;根据attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定多个成词矩阵之间的搭配关系。采用本发明专利技术,通过字与字之间的相关性先提取词语,再确定词语之间的搭配程度,进而提取词语搭配关系,节省了人力成本和时间成本,而且通过现有的bert模型可以高效率高质量的确定词语搭配程度,提高了提取词语搭配的效率。

【技术实现步骤摘要】

本专利技术涉及文本处理,特别是指一种基于bert模型的词语搭配提取方法及装置


技术介绍

1、词语搭配自动提取是文本理解的基础性问题之一,在语言教学、搜索引擎、推荐系统中发挥着重要作用。举例来说,“我们要提高下次成绩”中“提高”和“成绩”之间就是搭配关系。

2、目前的词语搭配自动提取的主要方法包括下面三种:

3、1、分词后,基于词语共现统计。

4、2、构建语义知识库,通过特征匹配确定搭配关系。

5、3、使用句法语义依存模型进行提取。

6、但是,上述三种常用的方法依旧存在以下不足:

7、1、基于词语共现的方法,无法针对单句进行提取。

8、2、构建知识库和使用句法语法依存模型,需要大量的专家标注工作,来对模型进行训练,导致成本非常高,而用较少的样本对模型进行训练,会导致模型的准确率降低。


技术实现思路

1、为了解决现有技术中成本高、准确率不高的问题,本专利技术实施例提供了一种基于bert模型的词语搭配提取方法及装置。所述技术方案如本文档来自技高网...

【技术保护点】

1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述S1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为N×N的矩阵,N为所述输入句子包括的字的个数;

4.根据权利要求3所述的方法,其特征在于,所述S3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:

5.根据权利要求4所述的方法,其特征在于,所述S4的根据所述attention矩...

【技术特征摘要】

1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述s1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:

3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为n×n的矩阵,n为所述输入句子包括的字的个数;

4.根据权利要求3所述的方法,其特征在于,所述s3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:

5.根据权利要求4所述的方法,其特征在于,所述s4的根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定...

【专利技术属性】
技术研发人员:王淼徐娟殷晓君
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1