摘要生成方法及装置制造方法及图纸

技术编号：24683886 阅读：118 留言：0更新日期：2020-06-27 08:05

本申请实施例提供一种摘要生成方法及装置，通过从目标文本对象的主题分布中获取至少部分目标主题编号，并由此生成目标文本对象的多个主题簇，主题簇与目标文本对象中的分句相关联，由此可以充分考虑到文本对象的分句结构信息及其主题分布信息。此后，对多个主题簇分别构建对应的图模型，得到每个主题簇中的分句排名，相较于传统方案中直接采用长文本构建图模型的方式，能够有效提升获取分句排名的时间效率。在此基础上根据目标主题编号的编号顺序以及每个主题簇中的分句排名生成目标文本对象的文本摘要，使得摘要的生成方式更加合理，且生成的文本摘要具有更高的主题覆盖度。

Abstract generating method and device

全部详细技术资料下载

【技术实现步骤摘要】
摘要生成方法及装置
本申请涉及数据分析
，具体而言，涉及摘要生成方法及装置。
技术介绍
众所周知，一篇文档往往是由多个主题构成的，体现为文档的主题分布。在传统的摘要生成方案中，获得文档中每个分句的重要程度排名，但按照该方案生成的摘要无法直接体现文档的不同主题信息。例如，重要程度排名靠前的分句可能只体现了文档的某个或某些主题，故而导致生成的摘要主题覆盖度较低。此外，在实际场景中，采用文本图模型进行自动摘要生成的过程大多是用于长文本，而在处理长文本时，由于文本图模型中节点过多，会导致摘要生成过程的收敛较慢。基于潜在语义分析的方法提取的摘要与原始文本具有一定的主题相关性，但依然存在主题覆盖度较低的问题，同时该方法没有考虑到文本的分句结构信息，具有一定的局限性。
技术实现思路
有鉴于此，本申请的目的在于提供一种摘要生成方法及装置，充分考虑到文本对象的分句结构信息及其主题分布信息，并有效提升获取分句排名的时间效率，同时使得摘要的生成方式更加合理，且生成的文本摘要具有更高的主题覆盖度。根据本申请...

【技术保护点】
1.一种摘要生成方法，其特征在于，应用于电子设备，所述方法包括：/n根据预设主题模型信息获得目标文本对象的主题分布，其中，所述预设主题模型信息包括不同预设主题下的单词分布，所述主题分布包括目标文本对象在不同主题编号下的概率值；/n从所述主题分布中获取至少部分目标主题编号，并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇，其中，所述主题簇与所述目标文本对象中的分句相关联；/n对所述多个主题簇分别构建对应的图模型，得到每个主题簇中的分句排名；/n根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。/n

【技术特征摘要】
1.一种摘要生成方法，其特征在于，应用于电子设备，所述方法包括：
根据预设主题模型信息获得目标文本对象的主题分布，其中，所述预设主题模型信息包括不同预设主题下的单词分布，所述主题分布包括目标文本对象在不同主题编号下的概率值；
从所述主题分布中获取至少部分目标主题编号，并根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇，其中，所述主题簇与所述目标文本对象中的分句相关联；
对所述多个主题簇分别构建对应的图模型，得到每个主题簇中的分句排名；
根据所述目标主题编号的编号顺序以及所述每个主题簇中的分句排名生成所述目标文本对象的文本摘要。

2.根据权利要求1所述的摘要生成方法，其特征在于，所述方法还包括：
根据预设语料训练库预训练设定主题模型的潜在狄利克雷分布，得到不同预设主题下的单词分布，作为预设主题模型信息存储在所述电子设备中。

3.根据权利要求2所述的摘要生成方法，其特征在于，所述设定主题模型的潜在狄利克雷分布通过以下公式计算得到：

当所述设定主题模型采样收敛后，每个预设主题下的单词分布通过以下公式计算得到：

其中，i＝(m，n)是一个二维下标，对应于预设语料训练库第m篇文档的第n个单词；zi代表语料库中第i个词对应的主题编号；代表去除第i个单词的语料库主题向量；代表语料库中单词的特征向量；nm,～i(k)代表去掉第i个单词第m篇文档编号为k的单词个数；αk代表主题k的超参数；K代表模型主题数；V代表语料库总词数；nk,～i(t)代表去掉第i个词后主题k中词为t的个数；βt代表词t的超参数，代表第k个主题的单词分布。

4.根据权利要求1所述的摘要生成方法，其特征在于，所述从所述主题分布中获取至少部分目标主题编号的步骤，包括：
从所述主题分布中，选取概率值大于设定概率值的主题编号作为目标主题编号。

5.根据权利要求1所述的摘要生成方法，其特征在于，所述根据所述至少部分目标主题编号生成所述目标文本对象的多个主题簇的步骤，包括：
以主题分布形式向量化各个目标主题编号以得到多个主题向量；
对所述目标文本对象进行分句，计算获得的每个分句的主题分布，并将所述多个主题向量作为聚类中心，对所述每个分句的主题分布进行聚类，得到多个主题簇。

6.根据权利要求5所述的摘要生成方法，其特征在于，所述计算获得的每个分句的主题分布，并将所述多个主题向量作为聚类中心，对所述每个分句的主题分布进行聚类，得到多个主题簇的步骤，包括：
计算每个分句中每个单词在各个主题下的概率分布；
根据所述每个单词在各个主题下的概率分布计算每个分句的主题分布；
将所述多个主题向量作为聚类中心，根据所述主题向量的余弦距离确定以每个分句到聚类中心的距离，并根据确定的距离对所述...

【专利技术属性】
技术研发人员：朱永强，王天祥，郑童瀚，
申请(专利权)人：成都网安科技发展有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人