多场景文本摘要生成方法技术

技术编号:23891822 阅读:32 留言:0更新日期:2020-04-22 06:47
一种多场景文本摘要生成方法,包括模型学习与模型使用,通过该方法,充分考虑了不同场景下不同信息偏好,可以实现对同一篇文档不同场景下的差异化摘要抽取,在训练文本摘要生成系统时,未使用文本摘要一一对应的数据,降低了数据成本。

【技术实现步骤摘要】
多场景文本摘要生成方法
本专利技术涉及自然语言处理与文本数据挖掘
,具体涉及一种多场景文本摘要生成方法。
技术介绍
随着信息化的飞速发展,信息爆炸的问题也逐渐摆在了人们的面前,如何在大量的数据中快速准确地提取出想要的数据成了提高当今信息获取效率的关键。现有的文本摘要生成系统,无论有监督或无监督,其生成摘要的信息偏好固定,难以适应于需要不断切换场景的领域,比如在医疗领域同样一份病历,不同科室的医生在查看的时候侧重点就有着明显的不同,而传统的无论基于有监督还是无监督方法训练出来的摘要系统,其信息抽取偏好固定,无法适应不同科室医生的需求。
技术实现思路
本专利技术为了克服以上技术的不足,提供了一种实现对同一篇文档不同场景下的差异化摘要抽取的多场景文本摘要生成方法。本专利技术克服其技术问题所采用的技术方案是:一种多场景文本摘要生成方法,包括模型学习与模型使用,具体的模型学习包括如下步骤:a-1)获取未经标记过的原始语料数据集,原始语料数据集中为若干篇完整的文章,将原始语料数据集中出现的文字去除重本文档来自技高网...

【技术保护点】
1.一种多场景文本摘要生成方法,其特征在于包括模型学习与模型使用,具体的模型学习包括如下步骤:/na-1)获取未经标记过的原始语料数据集,原始语料数据集中为若干篇完整的文章,将原始语料数据集中出现的文字去除重复部分后对每个文字进行不重复编码,编码为连续的正整数,将文字与编码一一对应后保存为字典;/na-2)通过得到的原始语料数据集训练神经网络的通顺性判别模型使通顺性判别模型的误差达到最小;/na-3)通过得到的原始语料数据集进行高维语义空间训练;/na-4)获取所需各个摘要的场景语料数据集,将摘要的场景语料数据集表示为{T

【技术特征摘要】
1.一种多场景文本摘要生成方法,其特征在于包括模型学习与模型使用,具体的模型学习包括如下步骤:
a-1)获取未经标记过的原始语料数据集,原始语料数据集中为若干篇完整的文章,将原始语料数据集中出现的文字去除重复部分后对每个文字进行不重复编码,编码为连续的正整数,将文字与编码一一对应后保存为字典;
a-2)通过得到的原始语料数据集训练神经网络的通顺性判别模型使通顺性判别模型的误差达到最小;
a-3)通过得到的原始语料数据集进行高维语义空间训练;
a-4)获取所需各个摘要的场景语料数据集,将摘要的场景语料数据集表示为{T1,T2,T3,......,Tm},其中Ti为第i个场景下的文章集合,其中1≤i≤m,i为正整数,m为场景的个数,将摘要的场景语料数据集中每个场景下的文章数量为向量{l1,l2,l3,......,lm},其中li为Ti的文档数量,针对字典构建每个场景下的权重向量{λi0,λi1,λi2,......,λin},其中λij为第i个场景下字典中编码为j的文字对应的摘要权重,0≤j≤n,n为字典中文字的个数,Nij为字典编码为j的文字出现在第i个场景的文章的个数,lk为Tk的文档数量,Tk为第k个场景下的文章集合;
a-5)初始化神经网络的编码-解码模型,从原始语料数据集中抽取一篇文章,在该文章中抽取若干句子,将若干句子组成句子集合;
a-6)将句子集合输入编码-解码模型中的编码器,利用解码算法对解码器进行解码,记录解码结果和解码过程中每个位置的文字概率分布;
a-7)将解码结果的文字依次输入通顺性判别模型中,记录通顺性判别模型输出的每个位置的文字概率分布;
a-8)计算解码过程中每个位置的文字概率分布及通顺性判别模型输出的每个位置的文字概率分布对应位置的误差;
a-9)利用神经网络优化算法调整编码-解码模型,对步骤a-8)中的误差进行优化,如果误差最小则停止训练,否则跳转执行步骤a-5);
模型使用包括如下步骤:
b-1)给定等待摘要的文章,将待摘要的文章断句后依照句子出现的顺序组成集合{S1,S2,S3,......,So},o为句子的个数,第i个句子Si的长度为Li,1≤i≤o;b-2)待摘要的文章中第一个句子S1对应的字的集合为将第一个句子的每个文字从字典中查找到对应编号,从训练后的高维语义空间中取出对应的向量,将取出的向量按照其对应文字出现的顺序依次排列,组成向量序列;
b-3)重复步骤b-2)得到待摘要的文章的每个句子S1到So的对应的向量序列,使用VSij表示第i个句子中的第j个向量;
b-4)从步骤a-4)的权重向量{λi0,λi1,λi2,......,λin}中取出k场景的字权重向量表示为{λk0,λk1,λk2,......,λkn};
b-5)定义长度为o的句子选择向量为{h1,h2,h3,......,ho},如果第i个句子的选择向量hi等于0则表明集合{S1,S2,S3,......,So}中的第i个句子Si不在抽出的关键语句集内,如果hi等于...

【专利技术属性】
技术研发人员:樊昭磊吴军张伯政张述睿张福鑫
申请(专利权)人:山东众阳健康科技集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1