一种实体抽取模型的训练方法、装置、设备和存储介质制造方法及图纸

技术编号：35947033 阅读：8 留言：0更新日期：2022-12-14 10:37

本发明专利技术公开了一种实体抽取模型的训练方法、装置、设备和存储介质。该方法包括：利用预设的无监督算法在样本集合中选取实体关键词；根据选取的所述实体关键词，建立实体与标签映射表；基于所述实体与标签映射表为目标文本标注实体标签；利用已经被标注实体标签的目标文本训练预设的预训练语言模型，以便在训练完成之后得到实体抽取模型。本发明专利技术将NER任务看作原始预训练的语言模型任务，通过能表示标签的词汇结果空间映射，实现任务转化，消除下游任务与原始LM任务的差距，缓解了代表标签的词汇结果空间映射强相关问题。结果空间映射强相关问题。结果空间映射强相关问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体抽取模型的训练方法、装置、设备和存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种实体抽取模型的训练方法、装置、设备和存储介质。

技术介绍

[0002]命名实体识别(Named Entity Recognition，简称NER)是自然语言处理(Natural Language Processing，简称NLP)应用中的重要步骤，该步骤不仅可以检测出命名实体边界，还可以检测出命名实体的类型，是文本意义理解的基础。如何更好地处理这种任务已经成为NLP领域中的一个热点研究方向。
[0003]NER本质上属于一种分类任务，但是在实际应用场景中，数据往往存在低资源特性。具体表现为：1)Long
‑
tail Scenario(领域长尾分布)，在分类类别中只有少数类别有足够的标注样本，而大多数类别只有极少样本；2)Few
‑
shot Scenario(少量样本)和Zero
‑
shot Scenario(零样本)，即数据中只有少量的标注样本，甚至没有标注样本。
[0004]为了解决上述问题，现有很多方法结合预训练语言模型(Pretrained Language Models)强大的泛化能力探索低资源场景下NER问题的解决方案。预训练语言模型虽然已成为非常重要的基础技术，然而预训练语言模型并不是针对NER场景进行设计，其与下游中NER的分类目标存在较大差异。具体而言，现有预训练语言模型均包含屏蔽语言模型(Masked Language M...

【技术保护点】

【技术特征摘要】
1.一种实体抽取模型的训练方法，其特征在于，包括：利用预设的无监督算法在样本集合中选取实体关键词；根据选取的所述实体关键词，建立实体与标签映射表；基于所述实体与标签映射表为目标文本标注实体标签；利用已经被标注实体标签的目标文本训练预设的预训练语言模型，以便在训练完成之后得到实体抽取模型。2.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：在所述样本集合的每个样本中提取关键词；针对每个所述关键词，利用基于词袋加权的TF
‑
IDF算法，确定所述关键词的词频以及所述关键词的逆向文件频率，并且，根据所述关键词的词频和逆向文件频率，确定所述关键词对应的权重；针对多个所述关键词，按照权重从大到小的顺序，对多个所述关键词进行排序，获取预设第一数量的所述关键词都作为实体关键词。3.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：针对所述样本集合中的每个所述样本执行如下步骤：根据考虑关联网络的TextRank算法，在所述样本中抽取关键词并且为抽取得到的所述关键词构建关键词无向图；确定所述关键词无向图中每条边的权重；其中，每条边用于连接所述关键词无向图中的两个关键词；按照权重从大到小的顺序，对多个所述权重进行排序，获取预设第二数量的所述权重；在获取的每个所述权重中，将每个所述权重对应的边所连接的关键词都确定为实体关键词。4.根据权利要求3所述的方法，其特征在于，在将每个所述权重对应的边所连接的关键词都确定为实体关键词之后，还包括：将各个所述实体关键词在所述样本中分别进行标记；根据所述样本中的标记，查询相邻的所述实体关键词，将所述相邻的所述实体关键词组成的词组也作为实体关键词。5.根据权利要求1所述的方法，其特征在于，所述利用预设的无监督算法在样本集合中选取实体关键词，包括：针对所述样本集合中的每个所述样本执行如下步骤：根据结合语义编码的KeyBert算法，在所述样本中提取文档嵌入；基于N
‑
Gram方式，在所述文档嵌入中提取词向量；利用预设的相似度算法，对提取...

【专利技术属性】
技术研发人员：沙九，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人