【技术实现步骤摘要】
基于过滤和文本增强的跨语言摘要数据集构建方法及系统
[0001]本专利技术涉及新一代信息技术人工智能应用中的跨语言数据处理
,特别涉及一种基于过滤和文本增强的跨语言摘要数据集构建方法及系统。
技术介绍
[0002]跨语言摘要(Cross
‑
lingual Summarization,CLS)指将一种语言的文本转换成另一种语言的摘要,使人们快速有效地从陌生语言的文本中获取信息。其研究方法已从管道方法向端到端方法发展,而端到端方法正引入Transformer等深度学习模型。大量工作表明,标注数据的质量和规模直接影响深度学习模型性能。故CLS数据集的质量和规模均极为重要。
[0003]目前,研究者们已通过收集法和转换法构建了一些CLS数据集。其中,最具代表性的是采用转换法构建的NCLS数据集。收集法所得数据集质量较高,但成本亦高,故规模普遍较小。转换法从其他任务数据集中产生CLS数据集,成本低且能保证规模。然而,转换法所得数据集通常包含更多低质量样本,严重影响了相关研究方法的性能。造成此现象的原因有 ...
【技术保护点】
【技术特征摘要】
1.一种基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,包含:利用过滤策略从字符和语义角度对原始单语摘要数据集进行过滤,并通过翻译系统将过滤后的数据转换为跨语言摘要数据集;使用自注意力机制和掩码语言模型对跨语言摘要数据集进行动态同义词替换并生成新的跨语言摘要文本数据。2.根据权利要求1所述的基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,利用过滤策略从字符和语义角度对原始单语摘要数据集进行过滤,包含:利用无关词统计、关键词统计和语义度量策略分别从字符和语义角度对原始单语摘要数据集进行分析和过滤。3.根据权利要求2所述的基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,利用无关词统计策略对原始单语摘要数据集进行分析过滤,包含:首先,将原始单语摘要数据集中未在文本中出现的摘要单词作为无关词,计算摘要中无关词占摘要单词总数的比例;然后,过滤掉比例大于第一预设阈值的样本对。4.根据权利要求2所述的基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,利用关键词统计策略对原始单语摘要数据集进行分析过滤,包含:首先,通过Word2Vec词向量模型从语义角度提取原始单语摘要数据集中文本的关键词,并计算摘要中属于文本关键词的单词占摘要单词总数的比例;然后,过滤掉比例小于第二预设阈值的样本对。5.根据权利要求4所述的基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,通过Word2Vec词向量模型从语义角度提取原始单语摘要数据集中文本的关键词,包含:首先,通过Word2Vec词向量模型对文本进行编码,并获取单词表示序列;接着,对单词表示序列中全部单词进行聚类,以簇中心为主要关键词,计算其他单词与簇中心的欧式距离;然后,选取距离聚类中心最近的p个单词作为关键词,其中,p为预设整数。6.根据权利要求2所述的基于过滤和文本增强的跨语言摘要数据集构建方法,其特征在于,利用语义度量策略对原始单语摘要数据集进行分析过滤,包含:首先,利用BERT词嵌入模型来获取原始单语摘要数...
【专利技术属性】
技术研发人员:席耀一,潘航宇,葛磊,曹蓉,南煜,周会娟,王博,陈宇飞,徐金铭,尤惠彬,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。