一种缺失文本生成方法及系统技术方案

技术编号：26690296 阅读：19 留言：0更新日期：2020-12-12 02:40

本发明专利技术提供一种缺失文本生成方法及系统，方法包括：对输入样本的预处理得到缺失样本；通过embedding词嵌入算法分别对输入样本和缺失样本的词向量化处理得到输入样本句向量和缺失样本句向量；分别对输入样本和缺失样本的位置编码处理得到输入样本位置向量和缺失样本位置向量；根据输入样本句向量对缺失样本句向量、输入样本位置向量和缺失样本位置向量的增强句向量处理得到输入样本向量和缺失样本向量；对输入样本向量和缺失样本向量的模型训练得到完整文本。本发明专利技术网络结构简单，能够捕获文本的长距离依赖关系,并可以并行计算，解决了时效性的问题，相对现有技术，能够在提升模型的训练和推理速率的同时显著提升缺失文本生成的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种缺失文本生成方法及系统
本专利技术主要涉及语言处理
，具体涉及一种缺失文本生成方法及系统。
技术介绍
缺失文本生成旨在填充缺失的文本片段，适用于许多现实的自然语言生成场景，以往对缺失文本生成任务的研究一般限制在特定环境中，目前的缺失文本生成模型主要基于循环神经网络，它的序列特性很适合学习长距离文本上下文信息，但也排除了实例内的并行化，使训练和推理都很慢，对实时应用的部署带来很大挑战。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足，提供一种缺失文本生成方法及系统。本专利技术解决上述技术问题的技术方案如下：一种缺失文本生成方法，包括如下步骤：对输入样本进行预处理，得到缺失样本；通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理，得到输入样本句向量和缺失样本句向量；分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量；根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量；对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本。本专利技术解决上述技术问题的另一技术方案如下：一种文本填充系统，包括：输入样本处理模块，用于对输入样本进行预处理，得到缺失样本；词向量化处理处理模块，用于通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量...

【技术保护点】
1.一种缺失文本生成方法，其特征在于，包括如下步骤：/n对输入样本进行预处理，得到缺失样本；/n通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理，得到输入样本句向量和缺失样本句向量；/n分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量；/n根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量；/n对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本。/n

【技术特征摘要】
1.一种缺失文本生成方法，其特征在于，包括如下步骤：
对输入样本进行预处理，得到缺失样本；
通过embedding词嵌入算法分别对所述输入样本和所述缺失样本进行词向量化处理，得到输入样本句向量和缺失样本句向量；
分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量；
根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量；
对所述输入样本向量和所述缺失样本向量进行模型训练，得到完整文本。

2.根据权利要求1所述的缺失文本生成方法，其特征在于，所述对输入样本进行预处理，得到缺失样本的过程包括：
利用随机屏蔽算法对所述输入样本进行预处理，得到缺失样本，具体为：
通过预设第一占位符随机对所述输入样本中的词进行替换，得到第一缺失样本；
将预设第二占位符添加至所述第一缺失样本中所述预设第一占位符的开头，得到第二缺失样本；
将预设第三占位符添加至所述第二缺失样本中所述预设第一占位符的结尾，得到第三缺失样本；
将预设第四占位符添加至所述第三缺失样本的开头，得到第四缺失样本；
将预设第五占位符添加至所述第四缺失样本的结尾，得到缺失样本。

3.根据权利要求2所述的缺失文本生成方法，其特征在于，所述分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量的过程包括：
通过相对位置编码算法分别对所述输入样本和所述缺失样本进行位置编码处理，得到输入样本位置向量和缺失样本位置向量，具体为：
通过第一式分别对所述输入样本和所述缺失样本进行计算，得到输入样本偶数位置向量和缺失样本偶数位置向量，所述第一式为：

其中，PE为二维矩阵，行为词语，列为词向量，pos为词语在句子中的位置；dmodel为词向量的维度；i为词向量的位置；
通过第二式分别对所述输入样本和所述缺失样本进行计算，得到输入样本奇数位置向量和缺失样本奇数位置向量，所述第二式为：

其中，PE为二维矩阵，行为词语，列为词向量，pos为词语在句子中的位置；dmodel为词向量的维度；i为词向量的位置；
根据所述输入样本偶数位置向量和所述输入样本奇数位置向量得到输入样本位置向量；
根据所述缺失样本偶数位置向量和所述缺失样本奇数位置向量得到缺失样本位置向量。

4.根据权利要求1或3所述的缺失文本生成方法，其特征在于，所述根据所述输入样本句向量对所述缺失样本句向量、所述输入样本位置向量和所述缺失样本位置向量进行增强句向量处理，得到输入样本向量和缺失样本向量的过程包括：
将所述输入样本句向量输入至预先构建的双向LSTM网络中提取隐藏信息处理，得到输入样本隐藏信息；
将所述输入样本句向量和所述样本隐藏信息输入至预先构建的信息增强网络中提取特征向量处理，得到输入样本特征向量；
将所述输入样本特征向量和所述输入样本位置向量进行相加计算，得到输入样本向量；
将所述缺失样本句向量和所述缺失样本位置向量进行相加计算，得到缺失样本向量。

5.根据权利要求...

【专利技术属性】
技术研发人员：蔡晓东，郑淑婷，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人