基于多语言预训练模型的事件触发词检测与分类方法技术

技术编号：34515998 阅读：34 留言：0更新日期：2022-08-13 21:03

本发明专利技术涉及自然语言处理技术领域，具体涉及一种基于多语言预训练模型的事件触发词检测与分类方法，首先构建事件触发词与事件要素的向量池，再使用现有的工具对事件进行语义角色标注，最后再以相似度计算方法将它们映射到给定的事件类型进行分类。本发明专利技术有效地减弱了人工进行事件标注的工作量，并且方便拓展到其他事件类型；使用多语言的预训练模型进行编码，让多种语言可以在一个向量池上进行相似性挖掘与预测，减少了一种语言训练一个模型的工作量；使用多语言的预训练模型，准备阶段中使用中英等外部新闻语料库丰富的数据量，避免了稀缺语言资源使用该方法却没有丰富新闻语料库扩充向量池的问题。库扩充向量池的问题。库扩充向量池的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于多语言预训练模型的事件触发词检测与分类方法

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于多语言预训练模型的事件触发词检测与分类方法。

技术介绍

[0002]随着科学技术的进步，互联网用户的增长，互联网上新闻信息呈现爆炸式增长。如何从大量繁杂的新闻事件中提取出有效的信息成为研究的热点。研究者提出了信息抽取技术：从非结构化的文本中抽取出结构化的信息。事件抽取作为信息抽取技术中最具挑战性的一项任务，以研究如何从非结构化的文本中抽取出事件的基本信息为主，包括事件触发词检测，事件触发词分类，事件元素识别和事件元素角色识别。
[0003]现有的事件触发词检测分类方法主要集中面向单个语种，极少数面向多语言；极大多数在研究资源丰富的语言，极少数研究资源稀缺语言。但是随着深度学习技术的发展，对于稀缺资源语言的事件抽取研究的重要性逐渐增加。并且现有的事件抽取模型往往严重依赖于劳动密集型、特定领域的注释，只对训练时使用的标签分类和领域有效，不能有效地迁移到其他领域的标签。

技术实现思路

[0004]...

【技术保护点】

【技术特征摘要】
1.一种基于多语言预训练模型的事件触发词检测与分类方法，其特征在于，包括如下步骤：使用词向量模型分别获得事件触发词的近义词和事件要素的近义词，从而分别得到第一集合和第二集合；定义所述第一集合为第一锚点词，定义所述第二集合为第二锚点词；对外部的新闻语料分别以所述第一锚点词和所述第二锚点词为中心进行挖掘，分别获得包含锚点词的第一句子集合和第二句子集合；定义所述第一句子集合为第一锚点句，定义所述第二句子集合为第二锚点句；分别对所述第一锚点句和所述第二锚点句进行跨语言向量编码，从而分别得到第一跨语言句向量和第二跨语言句向量；将所述第一跨语言句向量和所述第二跨语言句向量存入向量池；使用语义角色标注工具对待预测句子进行语义标注；对所述待预测句中进行语义标注得到的词汇使用多语言预训练模型进行编码得到跨语言词向量；将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句向量进行相似度比对，相似度最高的即为预测结果。2.如权利要求1所述的基于多语言预训练模型的事件触发词检测与分类方法，其特征在于，所述使用词向量模型分别获得事件触发词的近义词和事件要素的近义词，从而分别得到第一集合和第二集合，包括：使用Word2Vec词向量模型寻找发现预定义的所述事件触发词的同义词和所述事件要素的同义词；人工进行筛选得到所述第一集合和所述第二集合。3.如权利要求2所述的基于多语言预训...

【专利技术属性】
技术研发人员：黄永忠，张晨昊，秦韬，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人