一种基于掩码语言模型的文本三元组提取方法及装置制造方法及图纸

技术编号:33564840 阅读:12 留言:0更新日期:2022-05-26 23:03
本发明专利技术公开了一种基于掩码语言模型的文本三元组提取方法及装置,首先用自定义模板和自定义分隔符构造掩码语言模型的训练样本,包含实体类型预测的训练样本和关系类型预测的训练样本,并进行向量化表示,对掩码语言模型进行训练和预测,得到掩模位置上模型词中某个字符的置信度,选取各实体类型名称对应位置的置信度的最大值,该最大值为实体类型结果的置信度;将预测的实体和实体之间的关系形成三元组。本发明专利技术利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别,可在少量标注样本场景下的达到高准确率,减少了通常的用分类层进行多种类型识别时扩展性差的问题,同时用相同的方法进行关系识别,最终可得到三元组和事件单元。和事件单元。和事件单元。

【技术实现步骤摘要】
一种基于掩码语言模型的文本三元组提取方法及装置


[0001]本专利技术涉及文本三元组提取领域,尤其涉及一种基于掩码语言模型的文本三元组提取方法及装置。

技术介绍

[0002]在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,目前的技术针对少量标注样本的场景还没有成熟的方案,面对这样的现状,如何更有效的对实体和关系识别进行建模,是一个热门的研究方向。
[0003]目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。将掩码语言模型的方法应用到实体识别时,遇到的最大问题是候选词过多,计算效率低。本专利技术基于掩码语言模型进行实体和关系识别,并得到三元组或事件单元,在少量样本的情形下达到高准确率。

技术实现思路

[0004]本专利技术目的在于针对现有技术的不足,提出一种基于掩码语言模型的文本三元组提取方法及装置。
[0005]本专利技术的目的是通过以下技术方案来实现的:第一方面,本专利技术提供了一种基于掩码语言模型的文本三元组提取方法,该方法包括以下步骤:(1)样本准备:获取文本S中的全部候选实体及其实体类型,将“文本S

实体E

实体类型T”作为一个样本,用候选实体的自定义模板将样本整理成新的文本,将文本S与候选实体的自定义模板用自定义分隔符连接,并将多个候选实体的自定义模板合并连接为一条文本,从文本S中截取文本片段S2,文本片段S2为包含多个候选实体的片段,文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;(2)样本向量化表示:将训练样本转为文本向量,将实体类型T作为掩模,记录其在训练样本中的位置以及实体E的向量;(3)掩码语言模型训练:将文本向量输入语言表征模型,得到输出向量,将输出向量输入预训练语言模型,再从得到的语言模型向量中取出掩模对应位置的值,输入线性分类网络,得到掩模位置上为模型词表中某个字符的置信度,其长度为模型词表大小,与训练样本中实体E的向量比较,用交叉熵得到训练损失;(4)掩码语言模型预测:选取各实体类型名称对应位置的置信度,取最大值对应的实体类型名称,作为文本S2

实体E对中实体E的类型,该最大值为实体类型结果的置信度;(5)关系识别:预设语料中标注了实体以及实体间的关系,对每一条文本,取出全部实体对,将“文本S

实体E1

实体E2

关系类型R”作为一个样本,用实体对的自定义模板将
样本整理成一个新的文本,将文本S与实体对的自定义模板用自定义分隔符连接,并将多个实体对的自定义模板合并连接为一条文本,从文本S中截取文本片段S3,文本片段S3为包含多个候选实体的片段,文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;将关系类型R作为掩模,采用步骤(2)

(4)相同的方式进行掩码语言模型的训练和预测,得到预测的实体之间的关系类型;(6)将实体和实体之间的关系形成三元组。
[0006]进一步地,步骤(1)中,通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。
[0007]进一步地,步骤(1)中,所述候选实体的自定义模板包括“其中E是__的实体”、“E是__”、“实体E为__”。
[0008]进一步地,步骤(1)中,将候选实体的自定义模板中的“__”用符号[MASK]表示,[MASK]的个数与实体类型名称的字符个数相同,实体类型名称用统一长度的字符表示。
[0009]进一步地,步骤(1)中,所述自定义分隔符为不存在于实体中的分隔符,包括“;”、“:”或“[SEP]”。
[0010]进一步地,步骤(2)中,将训练文本转为文本向量的过程为将训练文本中的字、标点符号和英文单词转为模型词表中的子词并用对应的数字序列表示。
[0011]进一步地,步骤(4)中,掩码语言模型预测时,采用bart生成模型,样本构造选择如下两种情况之一:1)将“文本S2”为掩码语言模型中编码层的输入,候选实体的自定义模板的样本为掩码语言模型中解码层的输入;2)将文本S2与候选实体的自定义模板用自定义分隔符连接后的文本作为掩码语言模型编码层输入,实体类型名称为解码层输入;掩码语言模型输出为与候选实体的自定义模板的样本长度相同的置信度向量,置信度向量中每个位置的长度为模型词表的大小,用动态规划方法计算得到向量中各实体类型名称的置信度,选取最大值作为实体E的实体类型。
[0012]进一步地,步骤(4)中,掩码语言模型预测时,采用bert序列标注模型,在输入时对序列标注模型的每一层加入固定长度的前缀,该前缀作为可调参数,序列标注模型输出时忽略前缀部分,只选取文本部分对应位置的输出,输入crf网络层得到序列标签,与文本的BIO序列标注对比,产生交叉熵损失,对前缀参数,或前缀参数和bert序列标注模型参数进行调节;其中前缀由随机产生的数值输入到embedding网络、线性网络和非线性激活函数得到的向量。
[0013]第三方面,本专利技术还提供了一种基于掩码语言模型的文本三元组提取装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的基于掩码语言模型的文本三元组提取方法。
[0014]第三方面,本专利技术还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于掩码语言模型的文本三元组提取方法。
[0015]本专利技术的有益效果:本专利技术利用掩码语言模型对上下文的建模能力进行文本实体识别和关系识别,可在少量标注样本场景下的达到高准确率,将多种实体的识别在相同的框架下建模,扩展灵活,减少了通常的用分类层进行多种类型识别时扩展性差的问题,同时
用相同的方法进行关系识别,最终可得到三元组和事件单元。
附图说明
[0016]图1为本专利技术提供的一种基于掩码语言模型的文本三元组提取方法流程图。
[0017]图2为本专利技术实体类型识别的流程示意图。
[0018]图3为本专利技术提供的一种基于掩码语言模型的文本三元组提取装置结构示意图。
具体实施方式
[0019]以下结合附图对本专利技术具体实施方式作进一步详细说明。
[0020]如图1和图2所示,本专利技术提供的一种基于掩码语言模型的文本三元组提取方法,针对具有少量标注语料的场景进行三元组的提取,包括实体识别和关系提取。该方法包括以下步骤:(1)样本准备:通过分词、ngram语言模型或短语挖掘计算文本S中的全部候选实体,得到一条文本S中的全部候选实体及其实体类型,如果不是实体类型,则定义其类型为“其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于掩码语言模型的文本三元组提取方法,其特征在于,该方法包括以下步骤:(1)样本准备:获取文本S中的全部候选实体及其实体类型,将“文本S

实体E

实体类型T”作为一个样本,用候选实体的自定义模板将样本整理成新的文本,将文本S与候选实体的自定义模板用自定义分隔符连接,并将多个候选实体的自定义模板合并连接为一条文本,从文本S中截取文本片段S2,文本片段S2为包含多个候选实体的片段,文本片段S2加上若干个候选实体的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;(2)样本向量化表示:将训练样本转为文本向量,将实体类型T作为掩模,记录其在训练样本中的位置以及实体E的向量;(3)掩码语言模型训练:将文本向量输入语言表征模型,得到输出向量,将输出向量输入预训练语言模型,再从得到的语言模型向量中取出掩模对应位置的值,输入线性分类网络,得到掩模位置上为模型词表中某个字符的置信度,其长度为模型词表大小,与训练样本中实体E的向量比较,用交叉熵得到训练损失;(4)掩码语言模型预测:选取各实体类型名称对应位置的置信度,取最大值对应的实体类型名称,作为文本S2

实体E对中实体E的类型,该最大值为实体类型结果的置信度;(5)关系识别:预设语料中标注了实体以及实体间的关系,对每一条文本,取出全部实体对,将“文本S

实体E1

实体E2

关系类型R”作为一个样本,用实体对的自定义模板将样本整理成一个新的文本,将文本S与实体对的自定义模板用自定义分隔符连接,并将多个实体对的自定义模板合并连接为一条文本,从文本S中截取文本片段S3,文本片段S3为包含多个候选实体的片段,文本片段S3加上若干个实体对模板的长度要小于掩码语言模型允许输入的最大长度,得到用于掩码语言模型训练的训练样本;将关系类型R作为掩模,采用步骤(2)

(4)相同的方式进行掩码语言模型的训练和预测,得到预测的实体之间的关系类型;(6)将实体和实体之间的关系形成三元组。2.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,通过分词、ngram语言模型或短语挖掘计算文本中的候选实体。3.根据权利要求1所述的一种基于掩码语言模型的文本三元组提取方法,其特征在于,步骤(1)中,所述候选实体的自定义模板包括“其中E是__的实体”、“E是_...

【专利技术属性】
技术研发人员:韩瑞峰杨红飞金霞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1