基于阅读理解的汉越跨语言新闻事件要素抽取方法技术

技术编号:30754080 阅读:33 留言:0更新日期:2021-11-10 12:07
本发明专利技术涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理技术领域。本发明专利技术首先进行数据集的构建,然后训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果,提高越南语新闻事件要素抽取的性能。本发明专利技术提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法在自建的汉越双语新闻事件要素抽取数据集上的实验证明了本文方法的有效性。集上的实验证明了本文方法的有效性。集上的实验证明了本文方法的有效性。

【技术实现步骤摘要】
基于阅读理解的汉越跨语言新闻事件要素抽取方法


[0001]本专利技术涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理


技术介绍

[0002]新闻事件要素抽取任务旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。新闻事件要素抽取是新闻事件抽取的重要子任务之一,是新闻文本相似度计算、新闻事件关联关系分析以及事件检索等下游任务的基础。
[0003]跨语言事件要素抽取旨在联合多语言训练数据共同训练事件要素抽取模型,以缓解目标语言事件要素标注语料稀缺的问题。目前,在事件要素抽取方面,基于端到端的神经网络模型在有大规模标注数据的语种上取得了很好的效果,如英语和中文,但在只有少量或者无标注数据的小语种上的性能还有很大的提升空间;同时由于篇章级事件要素抽取需要捕获长距离的语义信息,支持跨事件的关联性分析,因此需要更强的语义理解和推断能力。因此,本专利技术将阅读理解的思想应用于新闻事件要素抽取任务,利用中文阅读理解数据集预训练源语言端的阅读理解模型,然后利用mBERT(multilingual BERT)同时建模中文和越南语的关系,并融合两种语言的表示来实现中文到越南语的跨语言知识迁移,完成资源稀缺型语言(越南语)新闻事件要素抽取。

技术实现思路

[0004]本专利技术提供了基于阅读理解的汉越跨语言新闻事件要素抽取方法,以用于解决低资源情境下跨语言新闻事件要素抽取问题。
[0005]本专利技术的技术方案是:基于阅读理解的汉越跨语言新闻事件要素抽取方法,所述基于阅读理解的汉越跨语言新闻事件要素抽取方法的具体步骤如下:
[0006]Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集(即和越南语描述的相同类型事件的中文新闻文本)和越南语新闻事件要素抽取数据集;
[0007]Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;
[0008]Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果。
[0009]作为本专利技术的优选方案,所述Step1包括:
[0010]Step1.1、除了阅读理解中文数据集采用CMRC 2018之外,到目前为止还没有公开的汉越双语新闻事件要素抽取数据集,因此首先在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;
[0011]Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,
形成了中文事件可比数据集。
[0012]作为本专利技术的优选方案,所述Step2的具体步骤为:
[0013]Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,

,X
T
‑1];
[0014]Step2.2、检索关键句子:训练了一个评分模型,对新闻长文本中的句子序列[X0,X1,

,X
T
‑1]进行评分,以实现动态地抽取出和问题高度相关的句子。
[0015]作为本专利技术的优选方案,所述Step2.2的具体步骤为:
[0016]Step2.2.1、给定一个问题Q={q1,q2,

,q
n
},其中n表示问题中序列长度。将评分模型的输入初始化为Z
+
=[[CLS]Q[SEP][X0,X1,

,X
T
‑1]];
[0017]Step2.2.2、训练一个基于mBERT(multilingual BERT)的一个评分模型judge,对每个子序列进行评分judge([Z
+
[SEP]X
i
])[X
i
],将得分最高的子序列加到Z中,其中len(Z)≤L。经过多次迭代推理最终得到新闻长文本的关键子序列Z。
[0018][0019]每个子序列的分数为序列中每个词的平均分,将其表示为:judge(Z
+
)[X
i
]。
[0020]作为本专利技术的优选方案,所述Step3的具体步骤为:
[0021]Step3.1、问题生成:使用一种基于模板的问题生成方法,将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;
[0022]Step3.2、双语编码器:利用mBERT(multilingual BERT)对源语言和目标语言进行编码,提取新闻文本特征;
[0023]Step3.3、双语解码器:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;
[0024]Step3.4、新闻事件要素过滤层:通过启发式规则来过滤非法答案,得到新闻事件要素集。
[0025]作为本专利技术的优选方案,所述Step3.2的具体步骤为:
[0026]使用mBERT(multilingual BERT)对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码。给定越南语的问题Q
T
和关键子序列Z
T
,使用特殊字符[CLS]和[SEP]拼接成P
T
输入到mBERT。
[0027]P
T
=[CLS]Q
T
[SEP]Z
T
[SEP][0028]相应地将中文问题Q
S
和关键子序列Z
S
拼接成P
S
输入到mBERT中。P
T
和P
S
经过编码后分别得到隐层表示其中L表示输入关键文本的长度,h表示mBERT的隐层大小。
[0029]作为本专利技术的优选方案,所述Step3.3的具体步骤为:
[0030]Step3.3.1、分别将目标语言BERT的深度表示B
T
和源语言BERT的深度表示B
S
看作多头注意力机制中的键和值,将其视为一个解码的过程,为了将中文的表示融合到越南语表示中,计算B
T
和B
S
的自注意力,来过滤过滤和答案抽取无关的冗余信息;
[0031][0032][0033]Step3.3.2、为进一步提升注意力计算的精度,计算A
T
和A
S
之间的注意力得到
[0034][0035]Step3.3.3、在Step3.3.2的基础上,计算和B
S
之间的注意力权重R

,W
r
为权重;
[0036][0037]R=W
r本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述方法的具体步骤如下:Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集和越南语新闻事件要素抽取数据集;Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果。2.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step1包括:Step1.1、阅读理解中文数据集采用CMRC 2018;在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。3.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2的具体步骤为:Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,

,X
T
‑1];Step2.2、检索关键句子:训练了一个新闻文本句子打分模型,对新闻长文本中的句子序列[X0,X1,

,X
T
‑1]进行评分,以实现动态地抽取出和问题高度相关的句子。4.根据权利要求3所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2.2的具体步骤为:Step2.2.1、给定一个问题Q={q1,q2,

,q
n
},其中n表示问题中序列长度;将打分模型的输入初始化;Step2.2.2、训练一个基于mBERT的一个评分模型,对每个子序列进行评分将得分最高的子序列加到关键子序列中;经过多次迭代推理最终得到新闻长文本的关键子序列。5.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step3的具体步骤为:Step3.1、问题生成:将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;Step3.2、双语编码器进行编码:利用mBERT对源语言和目标语言进行编码,提取新闻文本特征;Step3.3、双语解码器进行解码:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;Step3.4、新闻事件要素过滤层进行过滤:通过启发式规则来过滤非法答案,得到新闻事件要素集。6.根据权利要求5所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述步骤Step3....

【专利技术属性】
技术研发人员:余正涛赵庆珏朱恩昌高盛祥张勇丙
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1