【技术实现步骤摘要】
一种文本填充方法及装置
本专利技术主要涉及语言处理
,具体涉及一种文本填充方法及装置。
技术介绍
文本填充,即自动填充文本缺失部分,文本填充的目的是利用缺失部分的上下文信息来填充句子或段落的缺失部分,可以用于许多现实世界中的自然语言生成场景,例如填充空白图像,词汇约束句子生成,古代文本恢复,藏头诗生成。目前的文本填充主要基于循环神经网络,但现有的方法存在填充后的文本缺乏语义连贯性和流畅性较差的问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本填充方法及装置。本专利技术解决上述技术问题的技术方案如下:一种文本填充方法,包括如下步骤:S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;S2:对所述缺失样本进行编码,得到编码层语义向量;S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本专利技术解决上述技术问题的另一技术方案如下:一种文本填充装置,包括:样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白 ...
【技术保护点】
1.一种文本填充方法,其特征在于,包括如下步骤:/nS1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;/nS2:对所述缺失样本进行编码,得到编码层语义向量;/nS3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;/nS4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。/n
【技术特征摘要】
1.一种文本填充方法,其特征在于,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。
2.根据权利要求1所述的文本填充方法,其特征在于,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。
3.根据权利要求2所述的文本填充方法,其特征在于,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。
4.根据权利要求3所述的文本填充方法,其特征在于,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:
通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct,
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,为新的记忆信息,ct为更新的LSTM网络单元的记忆信息,ct-1为上一时刻的LSTM网络单元的记忆信息,tanh()为双曲正切函数,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息,ht为编码层语义向量。<...
【专利技术属性】
技术研发人员:蔡晓东,田文靖,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。