一种文本填充方法及装置制造方法及图纸

技术编号:26690297 阅读:28 留言:0更新日期:2020-12-12 02:40
本发明专利技术提供一种文本填充方法及装置,方法包括:对输入样本进行预处理,得到带有多个空白位置的缺失样本;对所述缺失样本进行编码,得到编码层语义向量;基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本发明专利技术迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。

【技术实现步骤摘要】
一种文本填充方法及装置
本专利技术主要涉及语言处理
,具体涉及一种文本填充方法及装置。
技术介绍
文本填充,即自动填充文本缺失部分,文本填充的目的是利用缺失部分的上下文信息来填充句子或段落的缺失部分,可以用于许多现实世界中的自然语言生成场景,例如填充空白图像,词汇约束句子生成,古代文本恢复,藏头诗生成。目前的文本填充主要基于循环神经网络,但现有的方法存在填充后的文本缺乏语义连贯性和流畅性较差的问题。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种文本填充方法及装置。本专利技术解决上述技术问题的技术方案如下:一种文本填充方法,包括如下步骤:S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;S2:对所述缺失样本进行编码,得到编码层语义向量;S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本专利技术解决上述技术问题的另一技术方案如下:一种文本填充装置,包括:样本处理模块,用于对输入样本进行预处理,得到带有多个空白位置的缺失样本;缺失样本编码模块,用于对所述缺失样本进行编码,得到编码层语义向量;向量处理模块,用于基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;填充文本获得模块,用于根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。本专利技术的有益效果是:通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。附图说明图1为本专利技术一实施例提供的文本填充方法的流程示意图;图2为本专利技术一实施例提供的文本填充装置的模块框图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。图1为本专利技术一实施例提供的文本填充方法的流程示意图。如图1所示,一种文本填充方法,包括如下步骤:S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;S2:对所述缺失样本进行编码,得到编码层语义向量;S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。应理解地,所述填充词的数量与所述空白位置的数量相同。具体地,解码端利用注意力机制算法捕获所述编码层语义向量并逐一填充缺失空白部分,在填充过程中,解码器会逐一填补空白;对于每个片段的填充,解码器自动回归地填充缺失的标记,对stemplete中已填充的内容进行调整更新。上述实施例中,通过对输入样本的预处理得到带有多个空白位置的缺失样本,对缺失样本的编码得到编码层语义向量,基于注意力机制算法对编码层语义向量中的多个空白位置的填充得到预测层语义向量和多个用于填充空白位置的填充词,并分别对各个填充至空白位置词的标记得到多个标记填充词,根据多个标记填充词对编码层语义向量和预测层语义向量的损失分析得到填充文本,迭代减小语义损失,能捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。可选地,作为本专利技术的一个实施例,所述步骤S1的过程包括:利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。优选地,所述预设第一占位符可以为_m_占位符,所述预设第二占位符可以为<boa>,所述预设第三占位符可以为<eoa>,所述预设第四占位符可以为<EOS>,所述预设第五占位符可以为<BOS>。应理解地,所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。具体地,采用随机屏蔽的方式,用_m_占位符表示空白,并随机替换所述输入样本中的词,其中每个空白缺失的词数是任意的,同时用<boa>和<eoa>分别表示每个空白的开头和结尾,用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾,从而得到所述缺失样本。应理解地,所述随机指的是随机替换所述输入样本中的词。上述实施例中,利用预设的占位符对输入样本进行预处理,为之后的处理提供素材,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。可选地,作为本专利技术的一个实施例,所述步骤S2的过程包括:S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。上述实施例中,利用词嵌入算法对所述缺失样本的词向量化处理得到词向量矩阵;并将所述词向量矩阵输入至双向LSTM网络中得到编码层语义向量,为后续处理提供重要的参数,实现了捕获文本长距离关系且网络结构简单,相对现有技术,能够提升填充后的文文本语义连贯性和流畅性。可选地,作为本专利技术的一个实施例,所述步骤S22的过程包括:通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;其中,通过第一式得到遗忘门输出,所述第一式为:ft=σ(Wfwt+Ufht-1+bf),通过第二式得到输入门输出,所述第二式为:it=σ(Wiwt+Uiht-1+bi),通过第三式得到输出门输出,本文档来自技高网...

【技术保护点】
1.一种文本填充方法,其特征在于,包括如下步骤:/nS1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;/nS2:对所述缺失样本进行编码,得到编码层语义向量;/nS3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;/nS4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。/n

【技术特征摘要】
1.一种文本填充方法,其特征在于,包括如下步骤:
S1:对输入样本进行预处理,得到带有多个空白位置的缺失样本;
S2:对所述缺失样本进行编码,得到编码层语义向量;
S3:基于注意力机制算法对所述编码层语义向量中的多个空白位置进行填充,得到预测层语义向量和多个用于填充所述空白位置的填充词,并分别对各个填充至所述空白位置的词进行标记,得到多个标记填充词;
S4:根据多个所述标记填充词对所述编码层语义向量和所述预测层语义向量进行损失分析,得到填充文本。


2.根据权利要求1所述的文本填充方法,其特征在于,所述步骤S1的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
S11:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
S12:将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
S13:将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
S14:将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
S15:将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。


3.根据权利要求2所述的文本填充方法,其特征在于,所述步骤S2的过程包括:
S21:利用词嵌入算法对所述缺失样本进行词向量化处理,得到词向量矩阵;
S22:将所述词向量矩阵输入至双向LSTM网络中,得到编码层语义向量。


4.根据权利要求3所述的文本填充方法,其特征在于,所述步骤S22的过程包括:
通过第一方程组对所述词向量矩阵进行计算,得到编码层语义向量,所述第一方程组包括第一式、第二式、第三式、第四式、第五式和第六式;
其中,通过第一式得到遗忘门输出,所述第一式为:
ft=σ(Wfwt+Ufht-1+bf),
通过第二式得到输入门输出,所述第二式为:
it=σ(Wiwt+Uiht-1+bi),
通过第三式得到输出门输出,所述第三式为:
ot=σ(Wowt+Uoht-1+bo),
通过第四式得到新的记忆信息,所述第四式为:



通过第五式得到更新的LSTM网络单元的记忆信息,所述第五式为:
ct=ft⊙ct-1+it⊙ct,
通过第六式得到编码层语义向量,所述第六式为:
ht=ottanh(ct),
其中,ft为遗忘门输出,it为输入门输出,ot为输出门输出,Wf为遗忘门权重矩阵,Wi为输入门权重矩阵,Wo为输出门权重矩阵,Wc为选择门权重矩阵,bf为遗忘门偏置向量,bi为输入门偏置向量,bo为输出门偏置向量,bc为选择门偏置向量,Uf为遗忘门权重矩阵,Ui为输入门权重矩阵,Uo为输出门权重矩阵,Uc为选择门权重矩阵,为新的记忆信息,ct为更新的LSTM网络单元的记忆信息,ct-1为上一时刻的LSTM网络单元的记忆信息,tanh()为双曲正切函数,σ为sigmoid激活函数,⊙为元素乘积,ht-1为t-1时刻的隐藏层输出,wt为t时刻的输入信息,ht为编码层语义向量。<...

【专利技术属性】
技术研发人员:蔡晓东田文靖
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1