【技术实现步骤摘要】
基于AMR对比学习的文本摘要生成的方法
[0001]本专利技术属于自然语言处理
,特别是涉及一种基于AMR对比学习的文本摘要生成的方法。
技术介绍
[0002]进入21世纪以来,高速发展的数字技术不断推动人类社会从工业时代迈进数字时代。在数字时代,新闻、微博、网页以及其他各类社交网络平台等云资源积累了海量数据,这些数据呈现出指数级增长的趋势。信息过载使得人们在获取自己需要的信息时必须花费大量的时间去浏览各种繁琐的文章,同时需要过滤掉冗余的信息,这极大降低人们获取信息的效率。对于图片、视频、表格等比较直观的数据,读者可以很容易地理解其中表达的含义。但对于文本形式的数据,例如新闻、学术论文、法律政策文件等,读者往往需要花费大量的时间去阅读、思考,才可能理解文章的内容,从而获取其中的关键信息。人们每天面对的文本数据无法估量,如何对文本数据进行总结和压缩,快速定位并获取文本中的关键信息变得紧迫而重要。
[0003]为了快速获取知识,人们通常首先阅读文本对应的摘要,但并非每一篇文章都有配备摘要,而依靠人工进行摘要 ...
【技术保护点】
【技术特征摘要】
1.一种基于AMR对比学习的文本摘要生成的方法,其特征在于,包括以下步骤:S1、使用AMR图解析器获得每一条数据对应的AMR图;对输入的所有文本数据进行分词,并将文本序列向量化;S2、将给定的文本D输入文本编码器对其进行编码;S3、将AMR解析结果中的概念实体和联系都映射为新图的节点,概念实体和联系之间的连接直接作为新图的边,对该图进行建模获得相应的AMR图嵌入表示;S4、构建正负样本对,并将构建好的正负样本对输入对比学习模块计算对比损失;S5、将原文文本上下文表示向量输入解码器模块,在每个解码步骤中生成新的目标摘要向量。2.根据权利要求1所述的基于AMR对比学习的文本摘要生成的方法,其特征在于,所述S1的具体步骤如下:S11、AMR生成:选择AMR解析器对每条数据生成对应的AMR,其中每个句子生成一个AMR图;将AMR图中的概念实体和联系都映射为节点,概念实体和联系之间的连接映射为边,得到一个单根有向无环且边没有信息的图;S12、分词器特殊Token添加:向分词器中添加AMR的所有联系表示,使分词器将AMR序列中的联系表示正确分词;S13、关键词列表构建:结合对应的参考摘要从原文中抽取出所有与参考摘要相关的词,并记住关键词所在位置;对原文中的命名实体进行识别并记住所在位置,合并到关键词列表中。3.根据权利要求1所述的基于AMR对比学习的文本摘要生成的方法,其特征在于,所述S2的具体步骤如下为:输入文本D=[w1,w2,...,w
k
,
…
,w
m
],其中w
k
表示输入文本中的第k个词,w
m
表示输入文本的最后一个词,m为输入序列的初始长度;对输入序列进行嵌入操作,得到输入序列的Token表示:X=[x1,x2,...,x
i
,
…
,x
n
],其中x
i
表示文本中的第i个Token,n为输入Token序列的长度;在文本每个句子前后分别添加“[CLS]”和“[SEP]”标签,标记句子的开始和结束;对输入的所有文本序列进行编码,得到文本上下文表示:H=[h
cls
,h1,h2,
…
,h
i
,h
cls
,
…
,h
n
],其中h
i
为文本序列的第i个Token的上下文表示,h
cls
为每个句子头部的[CLS]的隐藏状态,为整个句子的上下文表示:x
i
=Embdding(Wordpiece(w
k
)),k∈[1,m],i∈[1,n]h
i
=BERT(x
i
),i∈[1,n]其中,Wordpiece为分词操作,Embdding为嵌入操作,BERT为基于预训练语言模型BERT的文本编码器。4.根据权利要求3所述的基于AMR对比学习的文本摘要生成的方法,其特征在于,每个向量被分配了三种嵌入层:Token Embedding、Segme...
【专利技术属性】
技术研发人员:张璇,农琼,杜鲲鹏,王小波,朱锐,高宸,王旭,朱玲,
申请(专利权)人:云南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。