基于融合空间位置注意力机制的图表英语摘要生成方法技术

技术编号:32235019 阅读:24 留言:0更新日期:2022-02-09 17:39
本发明专利技术公开了一种基于融合空间位置注意力机制的图表英语摘要生成方法,包括1)创建图表英语摘要描述数据集;2)数据变量替换图表数据值;3)基于空间关系的词向量位置编码;4)采用Diverse Beam Search搜索词向量结果。这种方法基于融合空间位置注意力机制,采用数据变量替换图表数据值、采用空间注意力机制的方式学习词之间的关系、增强词向量与词向量之间的空间位置关系和正确的词位置排序、采用Diverse Beam Search搜索更好的词向量结果,能提高生成图表英语摘要的质量。能提高生成图表英语摘要的质量。能提高生成图表英语摘要的质量。

【技术实现步骤摘要】
基于融合空间位置注意力机制的图表英语摘要生成方法


[0001]本专利技术涉及计算机自然语言生成技术,具体是一种基于融合空间位置注意力机制的图表英语摘要生成方法。

技术介绍

[0002]数据可视化将高维复杂的数据以条形图、折线图等直观形式呈现,但据有关研究表明:实践过程中对图表的解析和利用存在一定的困难且利用不充分。在图表语料库上的研究表明,通过传统视觉方式观察图表,存在35%的描述不能表达出文本传达的关键信息,26%的描述下只能表达小部分图表预期信息。但采用英文摘要的形式分析描述图表内容,就可以达到降低图表解析难度的目的,使得图表更加直观易懂。
[0003]近年来,许多研究者对数据到文本的生成任务中作了大量的研究,它逐渐成为自然语言的多项任务中一项非常重要自然语言生成NlG(Natural Language Generation,简称NlG) 子任务。NLG任务主要分为传统英语摘要生成方法和基于时间序列英语摘要生成方法。其中,传统英语摘要生成方法利用语料库关注数据表“说了什么”和“用什么方式说的”,它们采用统计学习的方法,搜索描述数据表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于融合空间位置注意力机制的图表英语摘要生成方法,其特征在于,包括如下步骤:1)创建图表英语摘要描述数据集:选择公开网站的数据作为模型训练的数据来源,创建图表英语摘要描述数据集,该数据集由条形图和折线图组成,采用爬虫框架抓取8300条数据,8300条数据分别包括广告业、农业、化工业、建造业、消费业、电子商务业、经济业、能源与环境业、金融与保险业、健康与医疗业、互联网业、生活业、媒体业、金属与电子业、房地产业、零售业、服务业、社会业、运动休闲业、科技与电信业、运输与物流业、旅行、旅游与酒店业22个行业的数据统计表格、表格标题和对图表描述的英语摘要,采用TransChartText的英语摘要生成任务通过给定结构化的数据生成描述性的英语摘要:模型输入的结构化数据由记录表组成,其中,每条记录表包括标题r
i
(0)、表格单元格的值r
i
(1)、列索引值r
i
(2)、图表的类型r
i
(3),输出的w=w1+.....+w
i
是基于图表的描述性英语摘要向量,i表示文本的长度,数据到英语摘要的生成概率权重如公式(1)、公式(2)所示:公式(2)所示:其中w=w1+.....+w
i
表示生成的英语摘要向量、W表示模型参数;2)数据变量替换图表数据值:采用数据变量替换图表数据值,在数据变量中定义七类数据变量,它们分别是标题实体变量、日期、x轴标签、y轴标签、表格单元格的数据、条形图和折线图趋势、占比,对于所定义的七个变量,采用命名识别构建变量模板数据库,在数据进入编码器的时候,首先,修改英语摘要,用预选设置的变量模板来替换摘要中的数值,将数值映射到某类别变量,然后,将修改后的摘要用来模型的训练和预测,最后,将生成的索引和预定义的数据变量进行匹配,生成摘要;3)基于空间关系的词向量位置编码:采用空间注意力机制的方式学习词之间的关系,其中表示词向量r
i
的空间位置关系特征,表示词向量r
i
的词向量特征,表示词向量r
j
的空间位置关系特征,表示词向量r
j
的词向量特征,表示词向量r
i
与其它词向量之间的位置关系,在位置嵌入编码模块,对于向量r
i
,1≤i≤n,计算向量r
i
空间注意力权重,获取与其它单词的空间位置关系,并融合r
i
的词向量特征,作为向量r
i
的最终语义表示进行输出,定义如公式(3)所示进行变换操作:其中w
A
表示词向量的长度,计算给定单词向量r
i
和r
...

【专利技术属性】
技术研发人员:王鑫许文全覃琴冯意颜靖柯王琴
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1