【技术实现步骤摘要】
本专利技术涉及文本处理,特别是指一种基于bert模型的词语搭配提取方法及装置。
技术介绍
1、词语搭配自动提取是文本理解的基础性问题之一,在语言教学、搜索引擎、推荐系统中发挥着重要作用。举例来说,“我们要提高下次成绩”中“提高”和“成绩”之间就是搭配关系。
2、目前的词语搭配自动提取的主要方法包括下面三种:
3、1、分词后,基于词语共现统计。
4、2、构建语义知识库,通过特征匹配确定搭配关系。
5、3、使用句法语义依存模型进行提取。
6、但是,上述三种常用的方法依旧存在以下不足:
7、1、基于词语共现的方法,无法针对单句进行提取。
8、2、构建知识库和使用句法语法依存模型,需要大量的专家标注工作,来对模型进行训练,导致成本非常高,而用较少的样本对模型进行训练,会导致模型的准确率降低。
技术实现思路
1、为了解决现有技术中成本高、准确率不高的问题,本专利技术实施例提供了一种基于bert模型的词语搭配提取方法及
...【技术保护点】
1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述S1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为N×N的矩阵,N为所述输入句子包括的字的个数;
4.根据权利要求3所述的方法,其特征在于,所述S3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:
5.根据权利要求4所述的方法,其特征在于,所述S4的根据所述
...【技术特征摘要】
1.一种基于bert模型的词语搭配提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述s1的获取训练样本,基于所述训练样本对初始的bert模型进行训练,得到训练好的bert模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述attention矩阵是维度为n×n的矩阵,n为所述输入句子包括的字的个数;
4.根据权利要求3所述的方法,其特征在于,所述s3的在所述attention矩阵中确定出满足预设条件的多个成词矩阵,包括:
5.根据权利要求4所述的方法,其特征在于,所述s4的根据所述attention矩阵,计算多个成词矩阵之间的搭配程度分,根据计算得到的搭配程度分,确定...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。