一种文本重构训练方法及系统技术方案

技术编号:25551103 阅读:63 留言:0更新日期:2020-09-08 18:50
本发明专利技术公开了一种文本重构训练方法及系统,所述方法包括:构建训练样本;采用神经网络文本序列模型,对原始文本和发音序列的拼接进行编码;采用sigmoid前馈神经网络分类器,获取分词分类结果;以预设的GEN_LENGTH为最大生成序列长度,从头至尾循环生成序列的每一位字符;神经网络参数的优化,计算分词损失和文本生成损失,生成损失加权求和,得到联合损失,对联合损失使用梯度下降算法优化神经网络的参数。本发明专利技术提供的文本重构训练方法及系统,使用文本编码和生成神经网络,将给定的原始文本转换成目标文本,纠正原始文本中的错别字,补充缺漏的字,去除多余的字,并规范用词,以达到消除文本错误提高文本质量的目的。

【技术实现步骤摘要】
一种文本重构训练方法及系统
本专利技术涉及文本生成和深度学习
,特别是涉及一种文本重构训练方法及系统。
技术介绍
在信息化时代,文本是互联网多媒体中重要的信息载体,数据规模巨大,来源及作者众多。由于形近字、音近字、笔误、口误、语音识别不准、作者水平参差不齐等问题,导致文本中的错误字、用词不规范现象时有发生,引起了信息的误传和误解。现有的基于树模型或深度神经网络的文本纠错方法,对于文本中漏字、多字、语音识别结果发音错误、用词不规范的情况,不能有效的解决。
技术实现思路
本专利技术的目的是提供一种文本重构训练方法及系统,使用文本编码和生成神经网络,将给定的原始文本转换成目标文本,纠正原始文本中的错别字,补充缺漏的字,去除多余的字,并规范用词,以达到消除文本错误提高文本质量的目的。为实现上述目的,本专利技术提供了如下方案:一种文本重构训练方法,该方法包括以下步骤:S1,构建训练样本,包括原始文本、发音序列、分词标注序列、目标文本;S2,基于训练样本,采用神经网络文本序列模型,对原始文本和发音序本文档来自技高网...

【技术保护点】
1.一种文本重构训练方法,其特征在于,包括以下步骤:/nS1,构建训练样本,包括原始文本、发音序列、分词标注序列、目标文本;/nS2,基于训练样本,采用神经网络文本序列模型,对原始文本和发音序列的拼接进行编码,得到第一编码序列,然后根据原始文本在所述拼接序列的起止位置截断第一编码序列,得到对应于原始文本的第二编码序列;/nS3,采用sigmoid前馈神经网络分类器,对所述第二编码序列中的每一个向量进行二分类,得到分词分类结果,所述分词分类结果表示所述原始文本中对应位置的字符是否是词的结束字符;/nS4,生成文本,以预设的GEN_LENGTH为最大生成序列长度,从头至尾循环生成序列的每一位字符,...

【技术特征摘要】
1.一种文本重构训练方法,其特征在于,包括以下步骤:
S1,构建训练样本,包括原始文本、发音序列、分词标注序列、目标文本;
S2,基于训练样本,采用神经网络文本序列模型,对原始文本和发音序列的拼接进行编码,得到第一编码序列,然后根据原始文本在所述拼接序列的起止位置截断第一编码序列,得到对应于原始文本的第二编码序列;
S3,采用sigmoid前馈神经网络分类器,对所述第二编码序列中的每一个向量进行二分类,得到分词分类结果,所述分词分类结果表示所述原始文本中对应位置的字符是否是词的结束字符;
S4,生成文本,以预设的GEN_LENGTH为最大生成序列长度,从头至尾循环生成序列的每一位字符,具体包括:
S401,将前一字符对应的数字ID转为第一输入向量;
S402,使用注意力机制计算所述第一输入向量对所述第二编码序列中分词结束字符的注意力作为第二输入向量,将第一输入向量与第二输入向量相加的结果使用层归一化技术归一化得到第三输入向量;
S403,基于第三输入向量,得到LSTM输出向量;
S404,对所述LSTM输出向量进行分类,生成后一字符;
判断生成字符的数量是否超过最大生成字符数,如果未超过,跳转到步骤S401,以新生成的后一字符作为前一字符,循环生成后一字符,否则,进入下一步骤;
S5,神经网络参数的优化,具体包括:
S501,使用交叉熵根据真实的分词标注序列和预测的分词结果计算分词损失;
S502,使用交叉熵根据真实的目标文本和生成的文本计算文本生成损失;
S503,对分词损失和文本生成损失加权求和,得到联合损失;
S504,对联合损失使用梯度下降算法优化神经网络的参数。


2.根据权利要求1所述的文本重构训练方法,其特征在于,所述步骤S1,构建训练样本,包括原始文本、发音序列、分词标注序列、目标文本,具体包括:
S101,采集文章、段落和句子汇总成文本集,将文本集切分成句子集,句子集中的每个句子作为原始文本;
S102,对原始文本标注发音,得到发音序列;
S103,对原始文本分词,并将每个词的结束字符标注为1,非结束字符标注为0,得到分词标注序列;
S102,如果存在规范文本,将所述规范文本作为目标文本,否则复制原始文本为目标文本。


3.根据权利要求2所述的文本重构训练方法,其特征在于,所述步骤S1还包括:
S104,判断原始文本是否被改写过,如果未被改写过,则进入下一步骤;
S105,生成一个0到1之间的随机数,如果该随机数大于改写阈值,则进入下一步骤;
S106,对原始文本改写得到新文本,并将...

【专利技术属性】
技术研发人员:王丙栋游世学
申请(专利权)人:北京中科汇联科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1