摘要生成方法及装置制造方法及图纸

技术编号:24683886 阅读:100 留言:0更新日期:2020-06-27 08:05
本申请实施例提供一种摘要生成方法及装置,通过从目标文本对象的主题分布中获取至少部分目标主题编号,并由此生成目标文本对象的多个主题簇,主题簇与目标文本对象中的分句相关联,由此可以充分考虑到文本对象的分句结构信息及其主题分布信息。此后,对多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名,相较于传统方案中直接采用长文本构建图模型的方式,能够有效提升获取分句排名的时间效率。在此基础上根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要,使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。

Abstract generating method and device

【技术实现步骤摘要】
摘要生成方法及装置
本申请涉及数据分析
,具体而言,涉及摘要生成方法及装置。
技术介绍
众所周知,一篇文档往往是由多个主题构成的,体现为文档的主题分布。在传统的摘要生成方案中,获得文档中每个分句的重要程度排名,但按照该方案生成的摘要无法直接体现文档的不同主题信息。例如,重要程度排名靠前的分句可能只体现了文档的某个或某些主题,故而导致生成的摘要主题覆盖度较低。此外,在实际场景中,采用文本图模型进行自动摘要生成的过程大多是用于长文本,而在处理长文本时,由于文本图模型中节点过多,会导致摘要生成过程的收敛较慢。基于潜在语义分析的方法提取的摘要与原始文本具有一定的主题相关性,但依然存在主题覆盖度较低的问题,同时该方法没有考虑到文本的分句结构信息,具有一定的局限性。
技术实现思路
有鉴于此,本申请的目的在于提供一种摘要生成方法及装置,充分考虑到文本对象的分句结构信息及其主题分布信息,并有效提升获取分句排名的时间效率,同时使得摘要的生成方式更加合理,且生成的文本摘要具有更高的主题覆盖度。根据本申请的第一方面,提供一种摘要生成方法,应用于电子设备,所述方法包括:根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;>对所述多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名;根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。在第一方面的一种可能的实施方式中,所述方法还包括:根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布,得到不同预设主题下的单词分布,作为预设主题模型信息存储在所述电子设备中。在第一方面的一种可能的实施方式中,,所述设定主题模型的潜在狄利克雷分布通过以下公式计算得到:当所述设定主题模型采样收敛后,每个预设主题下的单词分布通过以下公式计算得到:其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;代表去除第i个单词的语料库主题向量;代表语料库中单词的特征向量;nm,~i(k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i(t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,代表第k个主题的单词分布。在第一方面的一种可能的实施方式中,所述从所述主题分布中获取至少部分目标主题编号的步骤,包括:从所述主题分布中,选取概率值大于设定概率值的主题编号作为目标主题编号。在第一方面的一种可能的实施方式中,所述根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇的步骤,包括:以主题分布形式向量化各个目标主题编号以得到多个主题向量;对所述目标文本对象进行分句,计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇。在第一方面的一种可能的实施方式中,所述计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇的步骤,包括:计算每个分句中每个单词在各个主题下的概率分布;根据所述每个单词在各个主题下的概率分布计算每个分句的主题分布;将所述多个主题向量作为聚类中心,根据所述主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对所述每个分句的主题分布进行聚类,得到多个主题簇。在第一方面的一种可能的实施方式中,所述对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名的步骤,包括:将所述多个主题簇中的分句作为图顶点,并以每两个分句间的相似度、分句的位置信息及分句与主题簇的簇中心之间的距离的综合权重作为两个图顶点之间的边的权重,构造一个有权图;从所述有权图中获得指向每个图顶点的第一顶点集合和指向其它图顶点的第二顶点集合,并根据所述第一顶点集合、所述第二顶点集合以及每两个图顶点之间的边的权重,计算得到各个图顶点对应的分句的主题分值;根据每个主题簇中各个分句的主题分值,得到每个主题簇中的分句排名。在第一方面的一种可能的实施方式中,所述各个图顶点对应的分句的主题分值通过以下公式计算得到:其中,WS(Vi)代表图顶点Vi对应的分句的主题分值,V代表图顶点,In(Vi)为指向图顶点Vi的第一顶点集合,Out(Vi)代表图顶点Vi向其它图顶点的第二顶点集合,d为阻尼因子,wji代表从图顶点Vj到图顶点Vi的边的权重,α、β、η代表平衡因子,满足α+β+η=1,α∈[0.1,0.2],β∈[0.6,0.8],η∈[0.1,0.2],Bji表示图顶点Vj或图顶点Vi是否为文本段落的开头句,若是则其值为1,若否则其值为0,Sim(Vj,Vi)代表图顶点Vj与图顶点Vi所对应的分句之间的相似度,Cji代表图顶点Vj与图顶点Vi所对应的分句所在的主题簇的中心向量,Dis(Vi,Cji)代表图顶点Vi所对应的分句到Cji的余弦距离。在第一方面的一种可能的实施方式中,所述根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要的步骤,包括:根据所述目标主题编号的编号顺序,依次确定待抽取的文本摘要所在的每个目标主题簇;根据所述每个主题簇中的分句排名,依次从每个主题簇中选择对应的分句,生成所述目标文本对象的文本摘要。根据本申请的第二方面,提供一种摘要生成装置,应用于电子设备,所述装置包括:获得模块,用于根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;获取生成模块,用于从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;构建模块,用于对所述多个主题簇分别构建对应的图模型,以得到每个主题簇中的分句排名;摘要生成模块,用于根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。根据本申请的第三方面,提供一种电子设备,所述电子设备包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该电子设备实现第一方面或者第一方面的任意一种可能的实施方式中的摘要生成方法。根据本申请的第四方面,提供一种可读存储介质,所述可读存储介质中存储有机器可执行指本文档来自技高网...

【技术保护点】
1.一种摘要生成方法,其特征在于,应用于电子设备,所述方法包括:/n根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;/n从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;/n对所述多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名;/n根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。/n

【技术特征摘要】
1.一种摘要生成方法,其特征在于,应用于电子设备,所述方法包括:
根据预设主题模型信息获得目标文本对象的主题分布,其中,所述预设主题模型信息包括不同预设主题下的单词分布,所述主题分布包括目标文本对象在不同主题编号下的概率值;
从所述主题分布中获取至少部分目标主题编号,并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇,其中,所述主题簇与所述目标文本对象中的分句相关联;
对所述多个主题簇分别构建对应的图模型,得到每个主题簇中的分句排名;
根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。


2.根据权利要求1所述的摘要生成方法,其特征在于,所述方法还包括:
根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布,得到不同预设主题下的单词分布,作为预设主题模型信息存储在所述电子设备中。


3.根据权利要求2所述的摘要生成方法,其特征在于,所述设定主题模型的潜在狄利克雷分布通过以下公式计算得到:



当所述设定主题模型采样收敛后,每个预设主题下的单词分布通过以下公式计算得到:



其中,i=(m,n)是一个二维下标,对应于预设语料训练库第m篇文档的第n个单词;zi代表语料库中第i个词对应的主题编号;代表去除第i个单词的语料库主题向量;代表语料库中单词的特征向量;nm,~i(k)代表去掉第i个单词第m篇文档编号为k的单词个数;αk代表主题k的超参数;K代表模型主题数;V代表语料库总词数;nk,~i(t)代表去掉第i个词后主题k中词为t的个数;βt代表词t的超参数,代表第k个主题的单词分布。


4.根据权利要求1所述的摘要生成方法,其特征在于,所述从所述主题分布中获取至少部分目标主题编号的步骤,包括:
从所述主题分布中,选取概率值大于设定概率值的主题编号作为目标主题编号。


5.根据权利要求1所述的摘要生成方法,其特征在于,所述根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇的步骤,包括:
以主题分布形式向量化各个目标主题编号以得到多个主题向量;
对所述目标文本对象进行分句,计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇。


6.根据权利要求5所述的摘要生成方法,其特征在于,所述计算获得的每个分句的主题分布,并将所述多个主题向量作为聚类中心,对所述每个分句的主题分布进行聚类,得到多个主题簇的步骤,包括:
计算每个分句中每个单词在各个主题下的概率分布;
根据所述每个单词在各个主题下的概率分布计算每个分句的主题分布;
将所述多个主题向量作为聚类中心,根据所述主题向量的余弦距离确定以每个分句到聚类中心的距离,并根据确定的距离对所述...

【专利技术属性】
技术研发人员:朱永强王天祥郑童瀚
申请(专利权)人:成都网安科技发展有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1