一种缺失文本生成方法及系统技术方案

技术编号:26690296 阅读:19 留言:0更新日期:2020-12-12 02:40
本发明专利技术提供一种缺失文本生成方法及系统,方法包括:对输入样本的预处理得到缺失样本;通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量;分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量;根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量;对输入样本向量和缺失样本向量的模型训练得到完整文本。本发明专利技术网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量。

【技术实现步骤摘要】
一种缺失文本生成方法及系统
本专利技术主要涉及语言处理
,具体涉及一种缺失文本生成方法及系统。
技术介绍
缺失文本生成旨在填充缺失的文本片段,适用于许多现实的自然语言生成场景,以往对缺失文本生成任务的研究一般限制在特定环境中,目前的缺失文本生成模型主要基于循环神经网络,它的序列特性很适合学习长距离文本上下文信息,但也排除了实例内的并行化,使训练和推理都很慢,对实时应用的部署带来很大挑战。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种缺失文本生成方法及系统。本专利技术解决上述技术问题的技术方案如下:一种缺失文本生成方法,包括如下步骤:对输入样本进行预处理,得到缺失样本;通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。本专利技术解决上述技术问题的另一技术方案如下:一种文本填充系统,包括:输入样本处理模块,用于对输入样本进行预处理,得到缺失样本;词向量化处理处理模块,用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;位置编码处理模块,用于分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;向量处理模块,用于根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;完整文本生成模块,用于对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。本专利技术的有益效果是:通过对输入样本的预处理得到缺失样本,并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量,能够转化为网络能够识别的数据信息句向量,分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量,准确地定位了缺失空白的位置,根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量,对输入样本向量和缺失样本向量的模型训练得到完整文本,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。附图说明图1为本专利技术一实施例提供的缺失文本生成方法的流程示意图;图2为本专利技术一实施例提供的缺失文本生成系统的模块框图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。图1为本专利技术一实施例提供的缺失文本生成方法的流程示意图。如图1所示,一种缺失文本生成方法,包括如下步骤:对输入样本进行预处理,得到缺失样本;通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。应理解地,采用embedding词嵌入算法对所述输入样本和所述缺失样本进行词向量化表示,转化为网络能够识别的数据信息句向量。上述实施例中,通过对输入样本的预处理得到缺失样本,并通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量,能够转化为网络能够识别的数据信息句向量,分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量,准确地定位了缺失空白的位置,根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量,对输入样本向量和缺失样本向量的模型训练得到完整文本,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。可选地,作为本专利技术的一个实施例,所述对输入样本进行预处理,得到缺失样本的过程包括:利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。优选地,所述预设第一占位符可以为_m_占位符,所述预设第二占位符可以为<boa>,所述预设第三占位符可以为<eoa>,所述预设第四占位符可以为<EOS>,所述预设第五占位符可以为<BOS>。应理解地,所述预设第一占位符、所述预设第二占位符和所述预设第三占位符均为多个。具体地,采用随机屏蔽的方式,用_m_占位符表示空白,并随机替换所述输入样本中的词,其中每个空白缺失的词数是任意的,同时用<boa>和<eoa>分别表示每个空白的开头和结尾,用<EOS>和<BOS>分别作为每个缺失样本的开头和结尾,从而得到所述缺失样本。应理解地,所述随机指的是随机替换所述输入样本中的词。上述实施例中,利用预设的占位符对输入样本进行预处理,为之后的处理提供素材,相对现有技术,能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量,且网络结构简单,能够捕获文本的长距离依赖关系,并可以并行计算,解决了时效性的问题。可选地,作为本专利技术的一个实施例,所述分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量的过程包括:通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量,具体为:通过第一式分别对所述输入样本和所述缺失样本进行计算,得到输入样本偶数位置向量和缺失样本偶数位置向量,所述第一式为:<本文档来自技高网...

【技术保护点】
1.一种缺失文本生成方法,其特征在于,包括如下步骤:/n对输入样本进行预处理,得到缺失样本;/n通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;/n分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;/n根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;/n对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。/n

【技术特征摘要】
1.一种缺失文本生成方法,其特征在于,包括如下步骤:
对输入样本进行预处理,得到缺失样本;
通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理,得到输入样本句向量和缺失样本句向量;
分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量;
根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量;
对所述输入样本向量和所述缺失样本向量进行模型训练,得到完整文本。


2.根据权利要求1所述的缺失文本生成方法,其特征在于,所述对输入样本进行预处理,得到缺失样本的过程包括:
利用随机屏蔽算法对所述输入样本进行预处理,得到缺失样本,具体为:
通过预设第一占位符随机对所述输入样本中的词进行替换,得到第一缺失样本;
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头,得到第二缺失样本;
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾,得到第三缺失样本;
将预设第四占位符添加至所述第三缺失样本的开头,得到第四缺失样本;
将预设第五占位符添加至所述第四缺失样本的结尾,得到缺失样本。


3.根据权利要求2所述的缺失文本生成方法,其特征在于,所述分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量的过程包括:
通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理,得到输入样本位置向量和缺失样本位置向量,具体为:
通过第一式分别对所述输入样本和所述缺失样本进行计算,得到输入样本偶数位置向量和缺失样本偶数位置向量,所述第一式为:



其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
通过第二式分别对所述输入样本和所述缺失样本进行计算,得到输入样本奇数位置向量和缺失样本奇数位置向量,所述第二式为:



其中,PE为二维矩阵,行为词语,列为词向量,pos为词语在句子中的位置;dmodel为词向量的维度;i为词向量的位置;
根据所述输入样本偶数位置向量和所述输入样本奇数位置向量得到输入样本位置向量;
根据所述缺失样本偶数位置向量和所述缺失样本奇数位置向量得到缺失样本位置向量。


4.根据权利要求1或3所述的缺失文本生成方法,其特征在于,所述根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理,得到输入样本向量和缺失样本向量的过程包括:
将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理,得到输入样本隐藏信息;
将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理,得到输入样本特征向量;
将所述输入样本特征向量和所述输入样本位置向量进行相加计算,得到输入样本向量;
将所述缺失样本句向量和所述缺失样本位置向量进行相加计算,得到缺失样本向量。


5.根据权利要求...

【专利技术属性】
技术研发人员:蔡晓东郑淑婷
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1