【技术实现步骤摘要】
基于多语言预训练模型的事件触发词检测与分类方法
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于多语言预训练模型的事件触发词检测与分类方法。
技术介绍
[0002]随着科学技术的进步,互联网用户的增长,互联网上新闻信息呈现爆炸式增长。如何从大量繁杂的新闻事件中提取出有效的信息成为研究的热点。研究者提出了信息抽取技术:从非结构化的文本中抽取出结构化的信息。事件抽取作为信息抽取技术中最具挑战性的一项任务,以研究如何从非结构化的文本中抽取出事件的基本信息为主,包括事件触发词检测,事件触发词分类,事件元素识别和事件元素角色识别。
[0003]现有的事件触发词检测分类方法主要集中面向单个语种,极少数面向多语言;极大多数在研究资源丰富的语言,极少数研究资源稀缺语言。但是随着深度学习技术的发展,对于稀缺资源语言的事件抽取研究的重要性逐渐增加。并且现有的事件抽取模型往往严重依赖于劳动密集型、特定领域的注释,只对训练时使用的标签分类和领域有效,不能有效地迁移到其他领域的标签。
技术实现思路
[0004] ...
【技术保护点】
【技术特征摘要】
1.一种基于多语言预训练模型的事件触发词检测与分类方法,其特征在于,包括如下步骤:使用词向量模型分别获得事件触发词的近义词和事件要素的近义词,从而分别得到第一集合和第二集合;定义所述第一集合为第一锚点词,定义所述第二集合为第二锚点词;对外部的新闻语料分别以所述第一锚点词和所述第二锚点词为中心进行挖掘,分别获得包含锚点词的第一句子集合和第二句子集合;定义所述第一句子集合为第一锚点句,定义所述第二句子集合为第二锚点句;分别对所述第一锚点句和所述第二锚点句进行跨语言向量编码,从而分别得到第一跨语言句向量和第二跨语言句向量;将所述第一跨语言句向量和所述第二跨语言句向量存入向量池;使用语义角色标注工具对待预测句子进行语义标注;对所述待预测句中进行语义标注得到的词汇使用多语言预训练模型进行编码得到跨语言词向量;将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句向量进行相似度比对,相似度最高的即为预测结果。2.如权利要求1所述的基于多语言预训练模型的事件触发词检测与分类方法,其特征在于,所述使用词向量模型分别获得事件触发词的近义词和事件要素的近义词,从而分别得到第一集合和第二集合,包括:使用Word2Vec词向量模型寻找发现预定义的所述事件触发词的同义词和所述事件要素的同义词;人工进行筛选得到所述第一集合和所述第二集合。3.如权利要求2所述的基于多语言预训...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。