一种基于掩码语言模型的文本三元组提取方法及装置制造方法及图纸

技术编号：33564840 阅读：12 留言：0更新日期：2022-05-26 23:03

本发明专利技术公开了一种基于掩码语言模型的文本三元组提取方法及装置，首先用自定义模板和自定义分隔符构造掩码语言模型的训练样本，包含实体类型预测的训练样本和关系类型预测的训练样本，并进行向量化表示，对掩码语言模型进行训练和预测，得到掩模位置上模型词中某个字符的置信度，选取各实体类型名称对应位置的置信度的最大值，该最大值为实体类型结果的置信度；将预测的实体和实体之间的关系形成三元组。本发明专利技术利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别，可在少量标注样本场景下的达到高准确率，减少了通常的用分类层进行多种类型识别时扩展性差的问题，同时用相同的方法进行关系识别，最终可得到三元组和事件单元。和事件单元。和事件单元。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于掩码语言模型的文本三元组提取方法及装置

[0001]本专利技术涉及文本三元组提取领域，尤其涉及一种基于掩码语言模型的文本三元组提取方法及装置。

技术介绍

[0002]在文本信息抽取的应用场景中，场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的现状，目前的技术针对少量标注样本的场景还没有成熟的方案，面对这样的现状，如何更有效的对实体和关系识别进行建模，是一个热门的研究方向。
[0003]目前的文本信息抽取方法中，基于模型训练的方法需要大量的标注样本，虽然有一些深度模型呈现准确度越来越高，需要的标注样本量越来越少的趋势，但仍然需要一定量的标注样本才能训练得到可用的模型，在获得样本前，无法开展工作，这样的过程相当于将开发成本转嫁到样本的标注上，整体开发效率仍然低下。将掩码语言模型的方法应用到实体识别时，遇到的最大问题是候选词过多，计算效率低。本专利技术基于掩码语言模型进行实体和关系识别，并得到三元组或事件单元，在少量样本的情形下达到高准确率。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足，提出一种基于掩码语言模型的文本三元组提取方法及装置。
[0005]本专利技术的目的是通过以下技术方案来实现的：第一方面，本专利技术提供了一种基于掩码语言模型的文本三元组提取方法，该方法包括以下步骤：（1）样本准备：获取文本S中的全部候选实体及其实体类型，将“文本S
‑
实体E
‑
实体类型T”作为一个样本，用候选实体的自定义模板将样...

【技术保护点】

【技术特征摘要】
1.一种基于掩码语言模型的文本三元组提取方法，其特征在于，该方法包括以下步骤：（1）样本准备：获取文本S中的全部候选实体及其实体类型，将“文本S
‑
实体E
‑
实体类型T”作为一个样本，用候选实体的自定义模板将样本整理成新的文本，将文本S与候选实体的自定义模板用自定义分隔符连接，并将多个候选实体的自定义模板合并连接为一条文本，从文本S中截取文本片段S2，文本片段S2为包含多个候选实体的片段，文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度，得到用于掩码语言模型训练的训练样本；（2）样本向量化表示：将训练样本转为文本向量，将实体类型T作为掩模，记录其在训练样本中的位置以及实体E的向量；（3）掩码语言模型训练：将文本向量输入语言表征模型，得到输出向量，将输出向量输入预训练语言模型，再从得到的语言模型向量中取出掩模对应位置的值，输入线性分类网络，得到掩模位置上为模型词表中某个字符的置信度，其长度为模型词表大小，与训练样本中实体E的向量比较，用交叉熵得到训练损失；（4）掩码语言模型预测：选取各实体类型名称对应位置的置信度，取最大值对应的实体类型名称，作为文本S2
‑
实体E对中实体E的类型，该最大值为实体类型结果的置信度；（5）关系识别：预设语料中标注了实体以及实体间的关系，对每一条文本，取出全部实体对，将“文本S
‑
实体E1
‑
实体E2
‑
关系类型R”作为一个样本，用实体对的自定义模板将样本整理成一个新的文本，将文本S与实体对的自定义模板用自定义分隔符连接，并将多个实体对的自定义模板合并连接为一条文本，从文本S中截取文本片段S3，文本片段S3为包含多个候选实体的片段，文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度，得到用于掩码语言模型训练的训练样本；将关系类型R作为掩模，采用步骤（2）
‑
（4）相同的方式进行掩码语言模型的训练和预测，得到预测的实体之间的关系类型；（6）将实体和实体之间的关系形成三元组。2.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。3.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法，其特征在于，步骤（1）中，所述候选实体的自定义模板包括“其中E是__的实体”、“E是_...

【专利技术属性】
技术研发人员：韩瑞峰，杨红飞，金霞，程东，
申请(专利权)人：杭州费尔斯通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人