一种基于bert模型的词语搭配提取方法及装置制造方法及图纸

技术编号：41241851 阅读：18 留言：0更新日期：2024-05-09 23:53

本发明专利技术涉及文本处理技术领域，特别是指一种基于bert模型的词语搭配提取方法及装置，方法包括：获取训练样本，基于训练样本对初始的bert模型进行训练，得到训练好的bert模型；获取待提取信息的输入句子，将输入句子输入到训练好的bert模型中，得到bert模型最上层的attention矩阵；在attention矩阵中确定出满足预设条件的多个成词矩阵；根据attention矩阵，计算多个成词矩阵之间的搭配程度分，根据计算得到的搭配程度分，确定多个成词矩阵之间的搭配关系。采用本发明专利技术，通过字与字之间的相关性先提取词语，再确定词语之间的搭配程度，进而提取词语搭配关系，节省了人力成本和时间成本，而且通过现有的bert模型可以高效率高质量的确定词语搭配程度，提高了提取词语搭配的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理，特别是指一种基于bert模型的词语搭配提取方法及装置。

技术介绍

1、词语搭配自动提取是文本理解的基础性问题之一，在语言教学、搜索引擎、推荐系统中发挥着重要作用。举例来说，“我们要提高下次成绩”中“提高”和“成绩”之间就是搭配关系。

2、目前的词语搭配自动提取的主要方法包括下面三种：

3、1、分词后，基于词语共现统计。

4、2、构建语义知识库，通过特征匹配确定搭配关系。

5、3、使用句法语义依存模型进行提取。

6、但是，上述三种常用的方法依旧存在以下不足：

7、1、基于词语共现的方法，无法针对单句进行提取。

8、2、构建知识库和使用句法语法依存模型，需要大量的专家标注工作，来对模型进行训练，导致成本非常高，而用较少的样本对模型进行训练，会导致模型的准确率降低。

技术实现思路

1、为了解决现有技术中成本高、准确率不高的问题，本专利技术实施例提供了一种基于bert模型的词语搭配提取方法及...

【技术保护点】

1.一种基于bert模型的词语搭配提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述S1的获取训练样本，基于所述训练样本对初始的bert模型进行训练，得到训练好的bert模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述attention矩阵是维度为N×N的矩阵，N为所述输入句子包括的字的个数；

4.根据权利要求3所述的方法，其特征在于，所述S3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述S4的根据所述attention矩...

【技术特征摘要】

1.一种基于bert模型的词语搭配提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述s1的获取训练样本，基于所述训练样本对初始的bert模型进行训练，得到训练好的bert模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述attention矩阵是维度为n×n的矩阵，n为所述输入句子包括的字的个数；

4.根据权利要求3所述的方法，其特征在于，所述s3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述s4的根据所述attention矩阵，计算多个成词矩阵之间的搭配程度分，根据计算得到的搭配程度分，确定...

【专利技术属性】
技术研发人员：王淼，徐娟，殷晓君，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人