一种实体抽取模型的训练方法、装置、设备和存储介质制造方法及图纸

技术编号:35947033 阅读:8 留言:0更新日期:2022-12-14 10:37
本发明专利技术公开了一种实体抽取模型的训练方法、装置、设备和存储介质。该方法包括:利用预设的无监督算法在样本集合中选取实体关键词;根据选取的所述实体关键词,建立实体与标签映射表;基于所述实体与标签映射表为目标文本标注实体标签;利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模型。本发明专利技术将NER任务看作原始预训练的语言模型任务,通过能表示标签的词汇结果空间映射,实现任务转化,消除下游任务与原始LM任务的差距,缓解了代表标签的词汇结果空间映射强相关问题。结果空间映射强相关问题。结果空间映射强相关问题。

【技术实现步骤摘要】
一种实体抽取模型的训练方法、装置、设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种实体抽取模型的训练方法、装置、设备和存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(Natural Language Processing,简称NLP)应用中的重要步骤,该步骤不仅可以检测出命名实体边界,还可以检测出命名实体的类型,是文本意义理解的基础。如何更好地处理这种任务已经成为NLP领域中的一个热点研究方向。
[0003]NER本质上属于一种分类任务,但是在实际应用场景中,数据往往存在低资源特性。具体表现为:1)Long

tail Scenario(领域长尾分布),在分类类别中只有少数类别有足够的标注样本,而大多数类别只有极少样本;2)Few

shot Scenario(少量样本)和Zero

shot Scenario(零样本),即数据中只有少量的标注样本,甚至没有标注样本。
[0004]为了解决上述问题,现有很多方法结合预训练语言模型(Pretrained Language Models)强大的泛化能力探索低资源场景下NER问题的解决方案。预训练语言模型虽然已成为非常重要的基础技术,然而预训练语言模型并不是针对NER场景进行设计,其与下游中NER的分类目标存在较大差异。具体而言,现有预训练语言模型均包含屏蔽语言模型(Masked Language Model,简称MLM)损失函数,但是下游的分类任务并未采用MLM,而是需要引入新的分类器,这使得上游预训练语言模型的目标任务和下游NER的分类任务出现了不一致,这种不一致导致上游预训练语言模型对于下游NER的贡献量较低。

技术实现思路

[0005]本专利技术的主要目的在于提出一种实体抽取模型的训练方法、装置、设备和存储介质,旨在解决现有预训练语言模型的目标任务与NER的分类任务存在差异的问题。
[0006]为实现上述技术问题,本专利技术是通过以下技术方案来实现的:
[0007]本专利技术实施例提供了一种实体抽取模型的训练方法,包括:利用预设的无监督算法在样本集合中选取实体关键词;根据选取的所述实体关键词,建立实体与标签映射表;基于所述实体与标签映射表为目标文本标注实体标签;利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模型。
[0008]其中,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:在所述样本集合的每个样本中提取关键词;针对每个所述关键词,利用基于词袋加权的TF

IDF算法,确定所述关键词的词频以及所述关键词的逆向文件频率,并且,根据所述关键词的词频和逆向文件频率,确定所述关键词对应的权重;针对多个所述关键词,按照权重从大到小的顺序,对多个所述关键词进行排序,获取预设第一数量的所述关键词都作为实体关键词。
[0009]其中,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:针对所述样本集合中的每个所述样本执行如下步骤:根据考虑关联网络的TextRank算法,在所述样
本中抽取关键词并且为抽取得到的所述关键词构建关键词无向图;确定所述关键词无向图中每条边的权重;其中,每条边用于连接所述关键词无向图中的两个关键词;按照权重从大到小的顺序,对多个所述权重进行排序,获取预设第二数量的所述权重;在获取的每个所述权重中,将每个所述权重对应的边所连接的关键词都确定为实体关键词。
[0010]其中,在将每个所述权重对应的边所连接的关键词都确定为实体关键词之后,还包括:将各个所述实体关键词在所述样本中分别进行标记;根据所述样本中的标记,查询相邻的所述实体关键词,将所述相邻的所述实体关键词组成的词组也作为实体关键词。
[0011]其中,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:针对所述样本集合中的每个所述样本执行如下步骤:根据结合语义编码的KeyBert算法,在所述样本中提取文档嵌入;基于N

Gram方式,在所述文档嵌入中提取词向量;利用预设的相似度算法,对提取到的所述词向量进行相似度聚合处理,得到至少一个词向量集合;将包含词向量数量最多的词向量集合中的词向量作为实体关键词。
[0012]其中,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:利用预设的多种无监督算法分别在样本集合中选取实体关键词;其中,预先设置多个文本类别,所述样本集合中的每个样本对应一个文本类别;所述根据选取的所述实体关键词,建立实体与标签映射表,包括:在多种无监督算法分别选取的实体关键词中,获取实体关键词的并集;在所述实体关键词的并集中,针对每个实体关键词,确定所述实体关键词在每个文本类别的出现占比,并在所述出现占比大于预设的占比阈值时,将所述实体关键词确定为所述出现占比对应的文本类别中的命名实体;针对每个文本类别,为所述文本类别中的命名实体对应设置的实体标签,并形成所述文本类别对应的实体与标签映射表。
[0013]其中,所述实体抽取模型用于:接收文本字词序列;对所述文本字词序列中的各个字词进行顺序预测;如果当前位置的字词为命名实体,则输出所述命名实体以及所述命名实体的实体标签;反之,则输出所述命名实体。
[0014]本专利技术还提供了一种实体抽取模型的训练装置,包括:选取模块,用于利用预设的无监督算法在样本集合中选取实体关键词;建立模块,用于根据选取的所述实体关键词,建立实体与标签映射表;标注模块,用于基于所述实体与标签映射表为目标文本标注实体标签;训练模块,用于利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模型。
[0015]本专利技术还提供了一种实体抽取模型的训练设备,所述实体抽取模型的训练设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的实体抽取模型的训练程序,以实现上述所述的实体抽取模型的训练方法。
[0016]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的实体抽取模型的训练方法。
[0017]本专利技术有益效果如下:
[0018]在本专利技术实施例中,针对低资源场景下的NER任务,提出无模板的提示学习机制,利用预设的无监督算法在样本集合中选取实体关键词;根据选取的所述实体关键词,建立实体与标签映射表;基于所述实体与标签映射表为目标文本标注实体标签;利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模
型。本专利技术实施例将NER任务看作原始预训练的语言模型任务,通过能表示标签的词汇结果空间映射,实现任务转化,消除下游任务与原始LM任务的差距,缓解了代表标签的词汇结果空间映射强相关问题。
附图说明
[0019]此处所说明的附图用来提供对本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体抽取模型的训练方法,其特征在于,包括:利用预设的无监督算法在样本集合中选取实体关键词;根据选取的所述实体关键词,建立实体与标签映射表;基于所述实体与标签映射表为目标文本标注实体标签;利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模型。2.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:在所述样本集合的每个样本中提取关键词;针对每个所述关键词,利用基于词袋加权的TF

IDF算法,确定所述关键词的词频以及所述关键词的逆向文件频率,并且,根据所述关键词的词频和逆向文件频率,确定所述关键词对应的权重;针对多个所述关键词,按照权重从大到小的顺序,对多个所述关键词进行排序,获取预设第一数量的所述关键词都作为实体关键词。3.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:针对所述样本集合中的每个所述样本执行如下步骤:根据考虑关联网络的TextRank算法,在所述样本中抽取关键词并且为抽取得到的所述关键词构建关键词无向图;确定所述关键词无向图中每条边的权重;其中,每条边用于连接所述关键词无向图中的两个关键词;按照权重从大到小的顺序,对多个所述权重进行排序,获取预设第二数量的所述权重;在获取的每个所述权重中,将每个所述权重对应的边所连接的关键词都确定为实体关键词。4.根据权利要求3所述的方法,其特征在于,在将每个所述权重对应的边所连接的关键词都确定为实体关键词之后,还包括:将各个所述实体关键词在所述样本中分别进行标记;根据所述样本中的标记,查询相邻的所述实体关键词,将所述相邻的所述实体关键词组成的词组也作为实体关键词。5.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:针对所述样本集合中的每个所述样本执行如下步骤:根据结合语义编码的KeyBert算法,在所述样本中提取文档嵌入;基于N

Gram方式,在所述文档嵌入中提取词向量;利用预设的相似度算法,对提取...

【专利技术属性】
技术研发人员:沙九梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1