【技术实现步骤摘要】
面向汉越跨语言事件检索的事件预训练方法
[0001]本专利技术涉及面向汉越跨语言事件检索的事件预训练方法,属于自然语言处理
技术介绍
[0002]汉越跨语言事件检索是指输入中文事件查询短语,检索越南语相关的新闻文本集的任务,跨语言事件检索是为了满足人们跨越语言障碍获取新闻,了解不同国家对同一事件不同看法的主要手段之一。准确检索有关特定事件的新闻文章将有利于舆情事件监控、新闻推荐、事件跟踪等后续任务。
[0003]近年来,跨语言检索已经有了大量的研究工作并取得了很好的进展,主要分为基于机器翻译方法、基于跨语言词嵌入方法、以及基于多语言预训练语言模型的方法。其中,基于机器翻译的方法使用神经机器翻译将查询和文档映射到同一语义空间,然后进行单语检索。按翻译的方式不同又可以分为查询翻译、文档翻译和中间语言翻译。基于机器翻译的方法严重依赖于神经机器翻译的准确性,容易引起词不匹配及翻译歧义问题。且对于汉越等差异性较大的低资源语言来说,机器翻译带来的误差直接影响了检索的结果。为了解决以上问题,有研究者提出了基于预训练跨语言 ...
【技术保护点】
【技术特征摘要】
1.面向汉越跨语言事件检索的事件预训练方法,其特征在于:所述面向汉越跨语言事件检索的事件预训练方法的具体步骤如下:Step1、实验数据集构建:利用爬虫技术从维基百科新闻页面爬取汉越双语新闻数据,并通过人工标注构建实验所需要的数据集,数据集包含事件要素掩码预训数据集、跨语言对比学习数据集和汉越跨语言事件检索数据集;Step2、汉越跨语言事件预训练模型构建:利用事件要素掩码预训练和跨语言对比学习训练了一个汉越跨语言事件预训练模型,改善多语言预训练模型的汉越双语对齐表征,并将事件知识融入模型;Step3、跨语言事件检索模型构建:在Step2的基础上,对汉越跨语言事件预训练模型进行微调,获得汉越跨语言事件检索结果。2.根据权利要求1所述的面向汉越跨语言事件检索的事件预训练方法,其特征在于:所述Step1的具体步骤为:Step1.1、通过爬虫技术从维基百科新闻页面爬取汉越双语新闻数据,将每条新闻样本与其对应日期进拼接,同时把样本中的超链接作为事件要素加入事件要素集,然后使用谷歌在线翻译将每条新闻翻译为对应目标语言,利用fasttext提供的对齐词向量获得跨语言词嵌入,最后将cosine相似度大于0.4的加入事件要素掩码预训练数据集;Step1.2、在Wikidata中找到事件要素集中的每个事件要素所对应的页面,然后判断对应目标语言的同一事件要素是否存在,若存在,则将源语言的事件要素描述作为查询,对应目标语言的链接到的页面的第一个段落作为查询的正例,构成跨语言对比学习事件要素数据集,同时,选取部分数据对齐标注相关性用于微调。3.根据权利要求1所述的面向汉越跨语言事件检索的事件预训练方法,其特征在于:所述Step2包括,利用事件要素掩码预训练emlm和跨语言对比学习ccl对mBERT继续进行预训练,具体为:Step2.1、给定一个中文事件句Sentence
zh
,句子中的事件要素为el
l
(l=1,2,3...),首先用[MASK]标记符将el
l
进行替换,然后与越南语伪平行事件句Sentence
vi
进行拼接,最后的输入是一个包含特殊标记符的序列input
emlm
=[CLS]+Sentence
zh
+[SEP]+Sentence
vi
+[SEP];然后经过嵌入层以及k层Transformer将其转换为对应的上下文表征H
(k)
∈R
N
×
dim
,其中N表示最大序列长度,dim表示隐藏层维度;将得到的最后一层输出的序列表示送至随后的线性层,得到每个被掩码的事件要素的概率;对于在Sentence
zh
中每一个被[MASK]标记替换的位置el
l
,最后对应的表示为H
...
【专利技术属性】
技术研发人员:余正涛,吴少扬,朱恩昌,线岩团,黄于欣,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。