生成文档摘要的方法和装置制造方法及图纸

技术编号:18350213 阅读:29 留言:0更新日期:2018-07-01 23:17
本发明专利技术涉及一种生成文档摘要的方法,包括对文档集进行预处理并通过潜在狄利克雷模型或者向量空间模型对词表集合进行处理,得到每个词汇对应的权重,将句子集合中每个句子对应的所有词汇权重相加,得到对应的内部信息量得分,根据预设相似度阈值,确定每个句子对应的相似句及相似句数量,计算得到对应的重要性得分,将每个句子的相似句数量与每个句子的所有相似句各自对应的相似句数量进行比较,计算得到每个句子的多样性得分,进而计算得到每个句子的综合性得分,最后根据每个句子的综合性得分和预设的摘要长度进行筛选并生成文档摘要。此外还提供一种生成文档摘要的装置。上述生成文档摘要的方法和装置,从整体上降低了摘要的冗余度。

【技术实现步骤摘要】
生成文档摘要的方法和装置
本专利技术涉及语言文字处理领域,特别是涉及一种生成文档摘要的方法和装置。
技术介绍
随着互联网技术的快速发展,计算机网络中的数据呈现出爆炸性增长的态势,严重的信息过载问题不容忽视。当浏览属于同一个主题的网页时,一些网页具有很多相同的信息,却包含比较少的不同信息,此时则需要一个概括信息的工具来快速浏览信息。因此,有必要将这些页面中的内容形成文档摘要以提高信息获取的效率。在网络数据中,文本数据占据了很重要的一部分。多文档摘要是将属于同一个主题的多个文档所描述的主要信息按照一定的压缩比最终提炼出一个文本的自然语言处理技术。然而传统的多文档摘要处理过程中,一般往往将文档集划分为若干个意义相似句子的子集合,然后从不同的句子的子集合中抽取句子形成摘要,这种处理方法仅仅从文档全局角度考虑句子是否具有代表性,最终导致生成的文档摘要存在冗余度过高的问题。
技术实现思路
基于此,有必要针对上述问题,提供一种生成文档摘要的方法和装置,能够同时考虑句子的内部信息量和句子的全局代表性,降低文档摘要的冗余度。一种生成文档摘要的方法,所述方法包括:对文档集进行预处理,得到所述文档集对应的句子集合以及词表集合;通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理,得到所述词表集中每个词汇对应的权重;将所述句子集合中每个句子对应的所有词汇权重相加,得到所述句子集合中每个句子的内部信息量得分;计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选形成文档摘要。在一个实施例中,所述根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分的步骤包括:依次获取所述句子集合中的每个句子作为待处理句,如果所述待处理句在所述多样性参考集合中,则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分;如果所述待处理句不在所述多样性参考集合中,则在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。在一个实施例中,所述根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为:S_S(i)=M1logaS_I(i)+M2logaS_D(i)+M3logaS_C(i)其中,S为所述句子集合,s(i)为S中第i个句子,S_S(i)为s(i)的综合性得分,S_I(i)为s(i)的内部信息量得分,S_D(i)为s(i)的重要性得分,S_C(i)为s(i)的多样性得分,M1、M2和M3为预设系数值,a大于0且不等于1。在一个实施例中,所述根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选形成文档摘要的步骤包括:根据所述综合性得分和预设的摘要长度,采用动态规划算法,将所述句子集合中的所有句子进行筛选形成文档摘要。在一个实施例中,所述方法还包括:计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述第i个句子Si的长度代价得分;获取所述长度代价得分,根据所述长度代价得分、所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。一种生成文档摘要的装置,所述装置包括:文档预处理模块,用于对文档集进行预处理,得到所述文档集对应的句子集合以及词表集合;内部信息量得分计算模块,用于通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理,得到所述词表集中每个词汇对应的权重,并将所述句子集合中每个句子对应的所有词汇的权重相加,得到所述句子集合中每个句子的内部信息量得分;重要性得分计算模块,用于计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到每个句子对应的重要性得分;多样性参考集合计算模块,用于依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应的句子加入多样性参考集合;多样性得分计算模块,用于根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;综合性得分计算模块,用于根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。文档摘要生成模块,用于根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选形成文档摘要。在其中一个实施例中,所述多样性得分计算模块包括:判断单元,用于依次获取所述句子集合中的每个句子作为待处理句,判断所述待处理句是否在所述多样性参考集合,如果所述待处理句在所述多样性参考集合中,则进入第一处理单元,否则进入第二处理单元;第一处理单元,用于在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句之间的相似度值计算所述待处理句的多样性得分;第二处理单元,用于在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。在其中一个实施例中,所述综合性得分计算模块中根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的公式为:S_S(i)=M1logaS_I(i)+M2logaS_D(i)+M3logaS_C(i)其中,S为所述句子集合,s(i)为S中第i个句子,S_S(i)为s(i)的综合性得分,S_I(i)为s(i)的内部信息量得分,S_D(i)为s(i)的重要性得分,S_C(i)为s(i)的多样性得分,M1、M2和M3为预设系数值,a大于0且不等于1。在其中一个实施例中,所述文档摘要生成模块还用于根据所述综合性得分和预设的摘要长度,采用动态规划算法,将所述句子集合中的所有句本文档来自技高网...
生成文档摘要的方法和装置

【技术保护点】
1.一种生成文档摘要的方法,所述方法包括:对文档集进行预处理,得到所述文档集对应的句子集合以及词表集合;通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理,得到所述词表集中每个词汇对应的权重;将所述句子集合中每个句子对应的所有词汇权重相加,得到所述句子集合中每个句子的内部信息量得分;计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到所述句子集合中每个句子对应的重要性得分;依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应句加入多样性参考集合;根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选生成文档摘要。

【技术特征摘要】
1.一种生成文档摘要的方法,所述方法包括:对文档集进行预处理,得到所述文档集对应的句子集合以及词表集合;通过潜在狄利克雷模型或者向量空间模型对所述词表集合进行处理,得到所述词表集中每个词汇对应的权重;将所述句子集合中每个句子对应的所有词汇权重相加,得到所述句子集合中每个句子的内部信息量得分;计算所述句子集合中两两句子间的相似度值,并根据预设的相似度阈值,确定所述句子集合中每个句子对应的相似句及相似句数量,并根据所述相似句数量计算得到所述句子集合中每个句子对应的重要性得分;依次获取所述句子集合中的每个句子作为当前处理句,将所述当前处理句的相似句数量与所述当前处理句的所有相似句各自对应的相似句数量加入同一个比较集合中,查找得到所述比较集合的最大值,并将所述比较集合的最大值对应句加入多样性参考集合;根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分;根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分;根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选生成文档摘要。2.根据权利要求1所述的方法,其特征在于,所述根据所述句子集合和所述多样性参考集合,计算所述句子集合中每个句子的多样性得分的步骤包括:依次获取所述句子集合中的每个句子作为待处理句,如果所述待处理句在所述多样性参考集合中,则在所述句子集合中找到与所述待处理句之间具有最小相似度的第一参考句,根据所述待处理句与所述第一参考句的相似度值计算所述待处理句的多样性得分;如果所述待处理句不在所述多样性参考集合中,则在所述多样性参考集合中找到与所述待处理句之间具有最大相似度的第二参考句,根据所述待处理句与所述第二参考句之间的相似度值计算出所述待处理句的多样性得分。3.根据权利要求1所述的方法,其特征在于,所述根据所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分的计算公式为:S_s(i)=M1logaS_I(i)+M2logaS_D(i)+M3logaS_C(i)其中,S为所述句子集合,s(i)为S中第i个句子,S_S(i)为s(i)的综合性得分,S_I(i)为s(i)的内部信息量得分,S_D(i)为s(i)的重要性得分,S_C(i)为s(i)的多样性得分,M1、M2和M3为预设系数值,a大于0且不等于1。4.根据权利要求1所述的方法,所述根据所述综合性得分和预设的摘要长度,将所述句子集合中的所有句子进行筛选形成文档摘要的步骤包括:根据所述综合性得分和预设的摘要长度,采用动态规划算法,将所述句子集合中的所有句子进行筛选形成文档摘要。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:计算所述句子集合中每个句子去除停用词之后的有效长度值与所述有效长度值的最大值的比例,根据预设的第一阈值、第二阈值以及所述比例,计算所述句子集合中每个句子的长度代价得分,所述第一阈值小于所述第二阈值,所述长度代价得分计算公式为:其中,a为底数且a>1,S为所述句子集合,Si为所述集合S中的第i个句子,L1为所述第一阈值,L2为所述第二阈值,且L2>L1,Li为所述第i个句子的有效长度值,Lmax为所述有效长度Li最大值,S_L(i)为所述Si的长度代价得分;所述根据所述内部信息量得分、所述重要性得分以及所述多样性得分计算所述句子集合中每个句子的综合性得分的步骤包括:获取所述长度代价得分,根据所述长度代价得分、所述内部信息量得分、所述重要性得分和所述多样性得分计算所述句子集合中每个句子的综合性得分。6.一种生成文档摘要的装置,所述装置包括:文档预处...

【专利技术属性】
技术研发人员:张剑刘轶王宝岩黄石磊
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1