基于阅读理解的汉越跨语言新闻事件要素抽取方法技术

技术编号：30754080 阅读：33 留言：0更新日期：2021-11-10 12:07

本发明专利技术涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法，属于自然语言处理技术领域。本发明专利技术首先进行数据集的构建，然后训练了一个新闻文本句子打分模型，来动态检索出有可能包含答案的序列；同时对源语言和目标语言的训练数据进行建模，从而实现源语言到目标语言的知识迁移，获得新闻事件要素抽取结果，提高越南语新闻事件要素抽取的性能。本发明专利技术提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法在自建的汉越双语新闻事件要素抽取数据集上的实验证明了本文方法的有效性。集上的实验证明了本文方法的有效性。集上的实验证明了本文方法的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
基于阅读理解的汉越跨语言新闻事件要素抽取方法

[0001]本专利技术涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法，属于自然语言处理

技术介绍

[0002]新闻事件要素抽取任务旨在抽取新闻文本中描述主题事件的事件要素，如时间、地点、人物和组织机构名等。新闻事件要素抽取是新闻事件抽取的重要子任务之一，是新闻文本相似度计算、新闻事件关联关系分析以及事件检索等下游任务的基础。
[0003]跨语言事件要素抽取旨在联合多语言训练数据共同训练事件要素抽取模型，以缓解目标语言事件要素标注语料稀缺的问题。目前，在事件要素抽取方面，基于端到端的神经网络模型在有大规模标注数据的语种上取得了很好的效果，如英语和中文，但在只有少量或者无标注数据的小语种上的性能还有很大的提升空间；同时由于篇章级事件要素抽取需要捕获长距离的语义信息，支持跨事件的关联性分析，因此需要更强的语义理解和推断能力。因此，本专利技术将阅读理解的思想应用于新闻事件要素抽取任务，利用中文阅读理解数据集预训练源语言端的阅读理解模型，然后利用mBERT(multilingual BERT)同时建模中文和越南语的关系，并融合两种语言的表示来实现中文到越南语的跨语言知识迁移，完成资源稀缺型语言(越南语)新闻事件要素抽取。

技术实现思路

[0004]本专利技术提供了基于阅读理解的汉越跨语言新闻事件要素抽取方法，以用于解决低资源情境下跨语言新闻事件要素抽取问题。
[0005]本专利技术的技术方案是：基于阅读理解的汉越跨语言新闻事件要素抽取方法...

【技术保护点】

【技术特征摘要】
1.基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述方法的具体步骤如下：Step1、实验数据集构建：构建实验所需要的数据集，数据集包含阅读理解中文数据集、中文事件可比数据集和越南语新闻事件要素抽取数据集；Step2、新闻文本关键句检索模型构建：训练了一个新闻文本句子打分模型，来动态检索出有可能包含答案的序列；Step3、新闻事件要素抽取模型构建：在Step2的基础上，同时对源语言和目标语言的训练数据进行建模，从而实现源语言到目标语言的知识迁移，获得新闻事件要素抽取结果。2.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述Step1包括：Step1.1、阅读理解中文数据集采用CMRC 2018；在越南网站爬取了708篇越南新闻文本，并根据抽取式阅读理解的形式进行标注；Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻，形成了中文事件可比数据集。3.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述Step2的具体步骤为：Step2.1、切分新闻文本数据：使用Step1中的语料作为输入，通过使用动态规划算法将新闻长文本P切分成[X0,X1,
…
,X
T
‑1]；Step2.2、检索关键句子：训练了一个新闻文本句子打分模型，对新闻长文本中的句子序列[X0,X1,
…
,X
T
‑1]进行评分，以实现动态地抽取出和问题高度相关的句子。4.根据权利要求3所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述Step2.2的具体步骤为：Step2.2.1、给定一个问题Q＝{q1,q2,
…
,q
n
},其中n表示问题中序列长度；将打分模型的输入初始化；Step2.2.2、训练一个基于mBERT的一个评分模型，对每个子序列进行评分将得分最高的子序列加到关键子序列中；经过多次迭代推理最终得到新闻长文本的关键子序列。5.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述Step3的具体步骤为：Step3.1、问题生成：将所有的语义角色划分为不同的类别，与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色，然后为每个类别设计不同的问题模板；Step3.2、双语编码器进行编码：利用mBERT对源语言和目标语言进行编码，提取新闻文本特征；Step3.3、双语解码器进行解码：利用多头注意力机制来提取源语言知识，以提高目标语言答案抽取性能；Step3.4、新闻事件要素过滤层进行过滤：通过启发式规则来过滤非法答案，得到新闻事件要素集。6.根据权利要求5所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法，其特征在于：所述步骤Step3....

【专利技术属性】
技术研发人员：余正涛，赵庆珏，朱恩昌，高盛祥，张勇丙，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人