The invention discloses a novel English Abstract generation method, which belongs to the technical field of English novels Abstract generation, the method can automatically generate the English novels, and the generation of faster. Abstract: the process definition is first given English long summarization problem; then the English novel chapter, sentence segmentation, word segmentation and stop words and stem of data preprocessing; then the theme modeling process to discover novel English said relevant topics, and then obtain the candidate sentences the set of candidate sentences and form; then from the candidate set of topic modeling output sentence selection the largest amount of information, select the sentence again after the composition English novels abstract machine; finally introduce the external language resources, and construct the internal data structure of external language resources corresponding to optimize the automatic summarization, thereby generating effective automatic summarization.
【技术实现步骤摘要】
英文长篇小说摘要生成方法
本专利技术涉及英文长篇小说摘要生成
,具体涉及英文长篇小说摘要生成方法。
技术介绍
随着网上英文长篇小说数量的爆炸式增长,如果读者要想快速了解一篇英文长篇小说的主要内容,就得借助该英文长篇小说的摘要。目前,对英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说的主要内容。
技术实现思路
本专利技术是为了解决现有英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说主要内容的不足,提供一种英文长篇小说摘要生成方法,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。以上技术问题是通过下列技术方案解决的:英文长篇小说摘要生成方法,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。本方案能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。作为优选,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:作为优选,所述问题定义还包括 ...
【技术保护点】
英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。
【技术特征摘要】
1.英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。2.根据权利要求1所述英文长篇小说摘要生成方法,其特征在于,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:3.根据权利要求2所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括主题分布定义,所述主题分布定义如下:记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:其中4.根据权利要求3所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括摘要主题多样性定义,所述摘要主题多样性定义如下:给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:其中,5.根据权利要求4所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括抽取式自动摘要问题定义,所述抽取式自动摘要问题定义如下:英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文...
【专利技术属性】
技术研发人员:吴宗大,雷力,郑城仁,
申请(专利权)人:温州大学瓯江学院,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。