【技术实现步骤摘要】
一种基于文本摘要生成与双向语料改善对话文本生成的方法
本专利技术属于人工智能
,涉及自然语言处理以及人机对话,特别涉及一种基于文本摘要生成与双向语料改善对话文本生成的方法。
技术介绍
自然语言处理是人工智能领域的研究热点之一,其应用场景十分广阔。所谓自然语言,就是人类在发展过程中形成的一种信息交流方式,涵盖的范围非常大,所有的语种、语言都属于自然语言。随着新浪微博、百度贴吧、推特和Ubuntu社区等社交平台的飞速发展,网络上出现了大量一问一答和连续问答形式的短文本对话数据,这为短文本对话的研究提供了良好的数据基础。研究自然语言处理的目的在于利用计算机强大的计算性能来代替人类处理大规模自然语言信息。不同于图像和视频的研究,语言的表达具有随机性和语义性,它既有一定的语言范式,但又不被固定的语言范式所约束。同一种语意常存在多种表达,而同一个表达在不同的场景下也可能对应着不同的语意。因此,如何让计算机准确的理解自然语言中蕴含的信息,并返回用户所期望的结果,是自然语言处理领域最主要的难点。对话系统是自然语言处理的研究热点 ...
【技术保护点】
1.一种基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于,包括如下步骤:/n步骤1,处理文本摘要数据,并进行预训练,构建预训练文本摘要生成模型,其中文本摘要数据包含原始新闻文本数据和人为编写的抽象文本摘要数据;/n步骤2,处理短文本对话语料,并构建语句依赖关系判别器,短文本对话语料由对话历史文本和响应文本组成,将两者进行正向和反向拼接,构建语句依赖关系判别器,由此获取具有强双向依赖关系和强单向依赖关系的语料对;/n步骤3,加载部分预训练文本摘要生成模型,构建短文本对话生成模型,并使用步骤2得到的语料,使短文本对话生成模型学习到强的上下文依赖关系,同时不失多样性, ...
【技术特征摘要】
1.一种基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于,包括如下步骤:
步骤1,处理文本摘要数据,并进行预训练,构建预训练文本摘要生成模型,其中文本摘要数据包含原始新闻文本数据和人为编写的抽象文本摘要数据;
步骤2,处理短文本对话语料,并构建语句依赖关系判别器,短文本对话语料由对话历史文本和响应文本组成,将两者进行正向和反向拼接,构建语句依赖关系判别器,由此获取具有强双向依赖关系和强单向依赖关系的语料对;
步骤3,加载部分预训练文本摘要生成模型,构建短文本对话生成模型,并使用步骤2得到的语料,使短文本对话生成模型学习到强的上下文依赖关系,同时不失多样性,通过梯度反向传播,更新短文本对话生成模型;
步骤4,使用短文本对话生成模型完成对话生成任务,获取训练好的短文本对话生成模型,并固定所有模型参数,输入对话历史文本,生成对应的响应文本。
2.根据权利要求1所述基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于,所述步骤1中,处理文本摘要数据包括:
步骤1.1,文本摘要数据预处理;
步骤1.2,文本摘要数据加噪声处理;
步骤1.3,针对模型的数据处理。
3.根据权利要求2所述基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于:
所述步骤1.1中,预处理对象包括文本摘要数据中的原始新闻文本数据和抽象文本摘要数据,其流程主要包括文本分句、文本分词、过滤停用词、词干提取和词性还原,该过程使用StanfordNLP实现,而后将所有单词转为小写;
所述步骤1.2中,去掉所有文本摘要数据中的原始新闻文本的首句,并对预处理后新闻文本语句数量大于5的语料分别进行随机打乱、随机删除、随机翻转三项加噪声数据增强操作,加噪声处理后,单个文本摘要语句最多会被扩充为10个文本摘要语句,且分散在整个训练语料中,从而将原始文本摘要数据进一步扩大;
所述步骤1.3中,使用BERT标注器将对应的单词转为词序号,对于原始新闻文本x=[x1,x2,...,xn],在句子之间采用[SEP]进行分隔,添加[CLS]标志作为整个新闻文本数据的开头,添加[SEP]标志作为整个新闻文本数据的结尾,针对模型输入长度限制,对新闻文本数据进行剪裁,生成一个与处理后的原始新闻文本等长的向量,按句子的奇偶位置分别填充为全0和全1,得到句位置编码向量SentPosEmb(x),按照BERT模型的词位置向量编码方式,采用正余弦函数生成每个词的词位置向量TokenPosEmb(x),使用Word2Vec词嵌入模型将词转为对应的编码向量TokenEmb(x),将编码向量、词位置向量和句位置向量相加,从而得到预训练文本摘要生成模型的输入z=[z1,z2,...,zn'];
z=TokenEmb(x)+TokenPosEmb(x)+SentPosEmb(x)
抽象文本摘要数据y=[y1,y2,...,ym]采用自定义的标识符同样进行句子间的分割,以及抽象文本摘要数据开头和结尾的添加,对每个输入模型的语料批次,均进行打乱处理。
4.根据权利要求1或2或3所述基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于,所述预训练文本摘要生成模型采用编码器-解码器框架,编码器采用BERT模型,BERT模型由多个Transformer-Encoder模块和前馈神经网络层组成,Transformer-Block使用多头注意力机制;解码器采用Transformer-Decoder结构堆叠而成,共堆叠6层,后接线性映射层,从而将生成概率映射到对应的词典中,基于原始新闻文本,选择概率最高的摘要文本作为模型的输出。
5.根据权利要求4所述基于文本摘要生成与双向语料改善对话文本生成的方法,其特征在于,所述编码器采用预训练bert-large-uncased模型,其中TransformerLayer+FeedForward的层数为24层,隐藏层维度为1024,16个注意力头,总共包含340M个训练参数;解码器的注意力掩盖矩阵为斜三角矩阵,其中隐藏层维度为768,8个注意力头,前向传播的隐藏层维度为1024,在解码器中,使用束搜索以增强对话生成文本的多样性,解码器的线性映射层起初加载与编码器中W...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。