【技术实现步骤摘要】
一种长文本摘要生成方法、系统、设备及存储介质
[0001]本专利技术实施例涉及文本信息处理
,具体涉及一种长文本摘要生成方法、系统、设备及存储介质。
技术介绍
[0002]随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行“降维”处理显得非常必要,而文本摘要就是其中一个重要的手段。
[0003]文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,是缓解文本信息过载的一个重要手段。根据输入数据领域,文本摘要可以分为新闻摘要、专利摘要、论文摘要、对话摘要等等。自动文本摘要可以看作是一个信息压缩的过程,将输入的一篇或多篇文档自动压缩为一篇简短的摘要,该过程不可避免地存在信息损失,但要求保留尽可能多的重要信息。
[0004]当前自动文本摘要技术一般需要将整个文本作为输入,在摘要生成任务、训练数据集的构建、模型训练等过程中均没有约束条件,这样,在处理长文本信息时存在的输入长度限制的问题,也容易导致最终生成的摘要不符合预期。
技术实现思路
[0005]为此,本专利技术实 ...
【技术保护点】
【技术特征摘要】
1.一种长文本摘要生成方法,其特征在于,所述方法包括:基于预设领域采集的第一预设数量的第一长文本,分别进行第一文本处理,得到关键词/短语序列;将各个关键词/短语序列与相应第一长文本中对应的原始关键词/短语进行对比,得到第一动作标记序列;基于各个第一动作标记序列对相应的关键词/短语序列进行动作标记执行,生成第一中间结果序列;利用各个第一长文本以及对应的所述关键词/短语序列、所述第一动作标记序列、所述第一中间结果序列,形成四元组训练数据;由所有四元组训练数据作为训练集,对编码器和解码器进行训练,得到摘要生成模型;接收待处理的第二长文本,进行第二文本处理,得到关键词组/短语组序列,所述第二长文本属于与所述第一长文本相同的预设领域;利用所述关键词组/短语组序列输入训练后的摘要生成模型中,生成摘要。2.如权利要求1所述的一种长文本摘要生成方法,其特征在于,基于预设领域采集的第一预设数量的第一长文本,分别进行第一文本处理,得到关键词/短语序列,包括:对各个第一长文本进行数据清洗,去除文档中的噪音信息;对清洗后的各个第一长文本数据进行段落划分,得到对应的第一段落集合;将每个第一段落集合中各个第一分段数据进行分词/短语划分,得到对应的第一词/短语集合;取所有第一长文本对应的第一词/短语集合,形成所述预设领域的语料库C;计算每个第一词/短语集合中各个词/短语的第一TF
‑
IDF值;基于各个词/短语的第一TF
‑
IDF值,从各个第一词/短语集合中抽取第三预设数量的关键词/短语;从抽取到的关键词/短语选取预设比例的字进行随机替换;将替换后的关键词/短语按照第一长文本原文出现的顺序进行排序,得到各个第一长文本对应的关键词/短语序列。3.如权利要求2所述的一种长文本摘要生成方法,其特征在于,接收待处理的第二长文本,进行第二文本处理,得到关键词组/短语组序列,包括:基于无向图对所述第二长文本进行语义分割,得到候选词组/短语组集合;从所述候选词组/短语组集合选出第二预设数量的关键词组/短语组,生成关键词组/短语组集合;将各个关键词组/短语组按照段落划分,得到至少一个关键词组/短语组分组;对于各个关键词组/短语组分组,计算对应关键词组/短语组的重要程度评价结果的平均值;按照所述平均值从大到小的次序,将各个关键词组/短语组以关键词组/短语组分组为单位进行排序;对于同一关键词组/短语组分组内的各个关键词组/短语组,按照在段落中出现的次序进行排序,得到关键词组/短语组序列。4.如权利要求3所述的一种长文本摘要生成方法,其特征在于,基于无向图对所述第二
长文本进行语义分割,得到候选词组/短语组集合,包括:接收待处理的第二长文本,进行分句处理,得到分句集合;将所述分句集合中的各个句子作为无向图G中的节点;将所述分句集合中的各个句子两两组合得到至少一个句子对,进行第一语义相关性分析;基于第一语义相关性分析结果,在所述分句集合中选取句子对并添加节点边,将所述无向图G中的节点划分为至少一个团;在整个无向图G上提取出不被任一其余团所包含的极大团并形成集合Q;基于所述集合Q中各个极大团两两组合,进行第二语义相关性分析并对各个极大团进行筛选更新;将所述集合Q中处理后的每一个极大团作为一个重新整合后的段落,得到至少一个第二分段数据并形成第二段落集合,得到段落划分的输出;将所述第二段落集合中的各个第二分段数据进行分词/短语划分,得到第二词/短语集合;从所述第二词/短语集合,依次抽取相邻两项组合,得到至少一个词组/短语组;将至少一个词组/短语组放入候选列表中,形成候选词组/短语组集合。5.如权利要求4所述的一种长文本摘要生成方法,其特征在于,将所述分句集合中的各个句子两两组合得到至少一个句子对,进行第一语义相关性分析,包括:将所述分句集合中的各个句子两两组合得到至少一个句子对并形成句子对集;逐一针对所述句子对集中每个句子对的两个句子S1和S2,按照预设规则进行词/短语对齐,获取最佳对齐词/短语对集A;利用所述最佳对齐词/短语对集A,对两个句子S1和S2进行第一语义相关性分析,得到第一语义相关性评估得分sr(S1,S2),所述第一语义相关性评估得分sr(S1,S2)的计算公式为:其中,w1和w2表示最佳对齐词/短语对集A中对齐词/短语对中的两个词/短语,v1表示利用预设词/短语向量模型得到的词/短语w1的词/短语向量,v2表示利用预设词/短语向量模型得到的词/短语w2的词/短语向量,ic(w1)表示词/短语w1的信息内容,ic(w2)表示词/短语w2的信息内容,min(ic(w1),ic(w2))表示ic(w1)和ic(w2)中的最小值;对所述第一语义相关性评估得分sr(S1,S2)进行归一化处理,得到两个句子S1和S2的相似度rel(S1,S2)。6.如权利要求5所述的一种长文本摘要生成方法,其特征在于,基于第一语义相关性分析结果,在所述分句集合中选取句子对并添加节点边,将所述无向图G中的节点划分为至少一个团,包括...
【专利技术属性】
技术研发人员:金玉赫,徐青伟,严长春,裴非,范娥媚,
申请(专利权)人:知呱呱天津大数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。