一种生成式文本摘要方法技术

技术编号:33627506 阅读:8 留言:0更新日期:2022-06-02 01:15
一种生成式文本摘要方法,属于自然语言处理技术领域。本发明专利技术在Word2Vec的CBOW模型基础上进行改进,融入了音节标注信息增强了文本的特征表示能力;采用基于LSTM的Encoder

【技术实现步骤摘要】
一种生成式文本摘要方法


[0001]本专利技术属于自然语言处理
,具体涉及一种生成式文本摘要方法。

技术介绍

[0002]随着当今时代在计算机硬件设备技术的提升下计算机性能也随之飞速提高,以及互联网行业的蓬勃发展。个人计算机的普及和迅速发展的互联网行业导致了各种文本信息通过各种各样的载体出现在人们的日常生活中。由于这个时代信息量巨大,人们面临着一个不可避免的、具有挑战性的信息过载问题,同时由于网络上庞大的信息量,也给信息检索带来了困难。因此,如何解决信息过载造成的数据灾难问题,有效解决人们从文本中获取信息困难的问题,是目前全球领域内关注的热点内容之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,该技术的出现解决了信息过载的问题。
[0003]早期自动文本摘要技术研究采用基于规则的方法和基于传统机器学习的方法,但其因为很难按照人类理解文章那样来学习文章导致其生成摘要不尽人意。随着深度学习相关研究的发展,循环神经网络模型具有灵活的计算步骤,其输出依赖于之前的计算,这使得它能够捕获语言中的上下文依赖关系,并能够对各种文本长度建模。但传统的基于循环神经网络的框架存在一个潜在的问题,在实际模型预测过程中,由于在预测时模型预测的词汇是开放的,假如预测文本中存在没有在生成单词的词表中的词,模型将无法对其进行处理和生成,这就是未登录词(Out

Of

Vocabulary,OOV)问题。因为在摘要生成过程中原文某些生僻词可能包含重要的信息,但是因为其频率比较低导致在训练时无法加入词表,并且由于现在模型越来越大,加入新词后模型重新训练代价十分高,导致传统方法并不能很好解决OOV问题。

技术实现思路

[0004]本专利技术的目的在于,针对
技术介绍
存在的缺陷,提出了一种生成式文本摘要方法。
[0005]为实现上述目的,本专利技术采用的技术方案如下:
[0006]一种生成式文本摘要方法,包括以下步骤:
[0007]步骤1、数据爬取:
[0008]数据源网站爬取新闻文本原始语料,进行解析后,得到新闻文本;
[0009]步骤2、数据预处理:
[0010]S21.数据清洗:对步骤1得到的新闻文本进行数据清洗,得到清洗后的新闻文本;
[0011]S22.数据格式处理:对清洗后的新闻文本进行数据格式处理,得到处理后的新闻文本;
[0012]S23.分词:对处理后的新闻文本采用语法分析分词算法进行分词处理,得到分词后的新闻文本;
[0013]S24.音节标注:对分词后的新闻文本,采用语音和谐规律处理算法进行音节标注,采用1表示元音、0表示辅音,构造与分词后的新闻文本相同维度的音节向量,得到新闻文本
音节数据;
[0014]步骤3、文本特征表示:
[0015]S31.初始化:首先,遍历步骤S23得到的分词后的新闻文本,得到分词后的新闻文本中词的个数V以及每个词的词频,将V个词按照词频从大到小的顺序排列,构建词汇表Vocab:{w1,w2,

,w
i


,w
V
},w
i
代表词汇表中的第i个词;根据词在词汇表中的位置,生成V维度的One

Hot编码,对于第i个词w
i
,其生成的One

Hot编码记为one_hot
i

[0016]S32.生成词向量并迭代训练:采用步骤S31中生成的One

Hot编码进行词向量的生成;对于词w
i
,生成过程具体为:
[0017]a.定义词向量的长度为N,窗口大小为c;
[0018]b.随机初始化权重矩阵W
V
×
N
,计算得到中间层的隐藏向量h
i

[0019][0020]c.随机初始化权重矩阵W

N
×
V
,计算词w
i
的概率分布y:
[0021]y=softmax(h
i
·
W

N
×
V
)
[0022]d.迭代训练:采用梯度下降的方法,不断迭代训练,当one_hot
i

y低于预设的阈值时,停止迭代,得到训练后的中间层的隐藏向量h
i

,训练后的中间层的隐藏向量h
i

为词w
i
训练后的词向量h
i


[0023]S33.音节信息的融入:将步骤S24得到的音节向量与步骤S32得到的词向量 h
i

拼接,得到融入音节信息的词向量h

i

[0024]S34.基于神经网络的词向量调整:从分词后的新闻文本中随机抽取一个包含词w
i
的句子W,假设句子W由m个词组成,词w
i
在句子W中排第j位,记为w
j
, W={w1,w2,

w
m
},句子W对应的融入音节信息的句向量为其中表示在句子W中排第j位的词w
j
对应的融入音节信息的词向量;然后,将融入音节信息的句向量H中的每一个词向量输入神经网络中,得到隐层向量G={g1,g2,

,g
j


,g
m
},其中,g
j
为词向量的隐层向量;
[0025]S35.基于注意力机制的词向量调整:
[0026]a.针对隐层向量G={g1,g2,

,g
j


,g
m
},计算注意力权重:
[0027][0028]其中,V

和M

为随机初始化的矩阵,V

为1行、x列的矩阵,M

为x行、1 列的矩阵,x为预设的值,b为随机初始化的值;
[0029]b.采用梯度下降法训练V

、M

和b,得到训练好的注意力权重A

= [a1′
,a2′
...,a
j

...,a
m

];
[0030]c.采用训练好的注意力权重对隐层向量g
j
进行更新,得到更新后的隐层向量g

j

[0031][0032]步骤4、新闻摘要生成:
[0033]S41.词向量表示:假设新闻向量S由k个句向量构成,S={s1,

,s
p

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成式文本摘要方法,其特征在于,包括以下步骤:步骤1、数据爬取:数据源网站爬取新闻文本原始语料,进行解析后,得到新闻文本;步骤2、数据预处理:S21.数据清洗:对步骤1得到的新闻文本进行数据清洗,得到清洗后的新闻文本;S22.数据格式处理:对清洗后的新闻文本进行数据格式处理,得到处理后的新闻文本;S23.分词:对处理后的新闻文本采用语法分析分词算法进行分词处理,得到分词后的新闻文本;S24.音节标注:对分词后的新闻文本,采用语音和谐规律处理算法进行音节标注,采用1表示元音、0表示辅音,构造与分词后的新闻文本相同维度的音节向量,得到新闻文本音节数据;步骤3、文本特征表示:S31.初始化:首先,遍历步骤S23得到的分词后的新闻文本,得到分词后的新闻文本中词的个数V以及每个词的词频,将V个词按照词频从大到小的顺序排列,构建词汇表Vocab:{w1,w2,

,w
i


,w
V
},w
i
代表词汇表中的第i个词;根据词在词汇表中的位置,生成V维度的One

Hot编码,对于第i个词w
i
,其生成的One

Hot编码记为one_hot
i
;S32.生成词向量并迭代训练:采用步骤S31中生成的One

Hot编码进行词向量的生成;对于词w
i
,生成过程具体为:a.定义词向量的长度为N,窗口大小为c;b.随机初始化权重矩阵W
V
×
N
,计算得到中间层的隐藏向量h
i
:c.随机初始化权重矩阵W

N
×
V
,计算词w
i
的概率分布y:y=softmax(h
i
·
W

N
×
V
)d.迭代训练:采用梯度下降的方法,不断迭代训练,当one_hot
i

y低于预设的阈值时,停止迭代,得到训练后的中间层的隐藏向量h
i

,训练后的中间层的隐藏向量h
i

为词w
i
训练后的词向量h
i

;S33.音节信息的融入:将步骤S24得到的音节向量与步骤S32得到的词向量h
i

拼接,得到融入音节信息的词向量h

i
;S34.基于神经网络的词向量调整:从分词后的新闻文本中随机抽取一个包含词w
i
的句子W,假设句子W由m个词组成,词w
i
在句子W中排第j位,记为w
j
,W={w1,w2,

w
m
},句子W对应的融入音节信息的句向量为其中表示在句子W中排第j位的词w
j
对应的融入音节信息的词向量;然后,将融入音节信息的句向量H中的每一个词向量输入神经网络中,得到隐层向量G={g1,g2,

,g
j


,g
m
},其中,g
j
为词向量的隐层向量;S35.基于注意力机制的词向量调整:a.针对隐层向量G={g1,g2,

,g
j


,g
m
},计算注意力权重:
其中,V

和M

为随机初始化的矩阵,V

为1行、x列的矩阵,M

为x行、1列的矩阵,x为预设的值,b为随机初始化的值;b.采用梯度下降法训练V

、M

和b,得到训练好的注意力权重A

=[a1′
,a2′…
,a
j
′…
,a
m

];c.采用训练好的注意力权重对隐层向量g
j
进行更新,得到更新后的隐层向量g
...

【专利技术属性】
技术研发人员:田玲康昭惠孛孙麟罗光春袁铭潮陈仙莹
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1