英文长篇小说摘要生成方法技术

技术编号:15391528 阅读:67 留言:0更新日期:2017-05-19 04:48
本发明专利技术公开了英文长篇小说摘要生成方法,属于英文长篇小说摘要生成技术领域,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快。所述摘要生成过程为:先给出英文长篇自动摘要的问题定义;然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;再采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;然后从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;最后引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。

Method of abstracting English novel Abstracts

The invention discloses a novel English Abstract generation method, which belongs to the technical field of English novels Abstract generation, the method can automatically generate the English novels, and the generation of faster. Abstract: the process definition is first given English long summarization problem; then the English novel chapter, sentence segmentation, word segmentation and stop words and stem of data preprocessing; then the theme modeling process to discover novel English said relevant topics, and then obtain the candidate sentences the set of candidate sentences and form; then from the candidate set of topic modeling output sentence selection the largest amount of information, select the sentence again after the composition English novels abstract machine; finally introduce the external language resources, and construct the internal data structure of external language resources corresponding to optimize the automatic summarization, thereby generating effective automatic summarization.

【技术实现步骤摘要】
英文长篇小说摘要生成方法
本专利技术涉及英文长篇小说摘要生成
,具体涉及英文长篇小说摘要生成方法。
技术介绍
随着网上英文长篇小说数量的爆炸式增长,如果读者要想快速了解一篇英文长篇小说的主要内容,就得借助该英文长篇小说的摘要。目前,对英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说的主要内容。
技术实现思路
本专利技术是为了解决现有英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说主要内容的不足,提供一种英文长篇小说摘要生成方法,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。以上技术问题是通过下列技术方案解决的:英文长篇小说摘要生成方法,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。本方案能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。作为优选,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:作为优选,所述问题定义还包括主题分布定义,所述主题分布定义如下:记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:其中作为优选,所述问题定义还包括摘要主题多样性定义,所述摘要主题多样性定义如下:给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:其中,作为优选,所述问题定义还包括抽取式自动摘要问题定义,所述抽取式自动摘要问题定义如下:英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文长篇小说原文的所有主题,在最极端情况下,直接使用原文作自动摘要,此时主题多样性达到了最大值1;为此,需要用一个抽取式自动摘要问题公式将高压缩率和高压缩质量这两个相互矛盾的目标统一起来,设该抽取式自动摘要问题的计算公式为:其中,α∈[0,1]为平衡参数,用来平衡这两个相互矛盾的目标的影响,当公式(6)的值越大时则主题多样性目标越重要;反之,当公式(6)的值越小时则高压缩率目标越重要;至此,高压缩率和高压缩质量这两个相互矛盾的目标就是如何从给定英文长篇小说中快速搜索出满足以上公式的自动摘要。作为优选,主题建模处理过程如下:在自动摘要生成过程中,主题建模的主要目的是为了发现英文长篇小说关联的主题词,进而获取摘要的候选句子。具体采用LDA算法对英文长篇小说进行主题建模和句子抽取。作为优选,对自动摘要进行优化过程如下:由于英文中大量存在着多义词和同义词,这对语义分析造成了极大的困扰;考虑到英文长篇小说和参考摘要的书写者、书写年代与词汇使用有极大的差异;有鉴于此,对机器摘要中一些同义词进行了映射,将其转化成了相对简单的单词,并将单词称作基本词,这有利于提高摘要的机器可阅读性;为此需要引入了外部语言资源,并构建外部语言资源相应的内部数据组织结构;为了处理摘要中的同义词问题,构建了一个同义词网;(5.1)语义消歧:语义消歧任务可看作是一个分类任务;利用含有语义、词性标注的训练数据集来训练分类器;这意味着,输入一个目标词以及目标词的上下文信息,通过已经训练好的分类器可得到目标词最合适的语义;(5.2)整合同义词组:从RogetThesaurus在线版中对同义词组进行整合得到同义词网,各个终点节点为基本词,即低级词,连通的节点表示终点词的同义词,并对同义词网的所有单词进行了排序,以加快查找操作;利用该同义词网可将自动摘要中的所有同义词,转换为它们对应的基本词;从而消除了大部分同义词问题,极大地提高了自动摘要的机器的可阅读性。本专利技术能够达到如下效果:1、本专利技术能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。2、本专利技术能处理幅较长、上下文更复杂和涉及主题更多的英文长篇小说,压缩率较高。3、本专利技术引入主题建模,通过获取英文长篇小说关联的上下文主题词,使得据此生成的自动摘要能更好地体现英文长篇小说的上下文场景,提高自动摘要的生成质量。4、本专利技术以主题多样性来表示压缩质量和冗余率来表示压缩率为目标,定义了候选句子的重要性评估函数,给出了NP穷举难题的高效求解算法。5、本专利技术结合SemCor和同义词词典的外部资源对自动摘要进行优化,以克服多义词或同义词引起的自动摘要语义混淆问题,使得最终生成的自动摘要具有更好的机器可读性。附图说明图1为本专利技术英文长篇小说自动生产摘要的一种过程架构示意图。图2为本专利技术同义词网一种示意图。具体实施方式下面结合附图与实施例对本专利技术作进一步的说明。实施例,英文长篇小说摘要生成方法,参见图1所示,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。(一)问题定义过程如下:所述问题定义包括摘要压缩率定义、主题分布定义、摘要主题多样性定义和抽取式自动摘要问题定义,(1.1)所述摘要压缩率定义如下:英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:(1.2)所述主题分布定义如下:记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:其中(1.3)所述摘要主题多样性定义如下:给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:其中,(1.4)所述抽取式自动摘要问题定义如下:英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高本文档来自技高网...
英文长篇小说摘要生成方法

【技术保护点】
英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。

【技术特征摘要】
1.英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。2.根据权利要求1所述英文长篇小说摘要生成方法,其特征在于,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:3.根据权利要求2所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括主题分布定义,所述主题分布定义如下:记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:其中4.根据权利要求3所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括摘要主题多样性定义,所述摘要主题多样性定义如下:给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:其中,5.根据权利要求4所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括抽取式自动摘要问题定义,所述抽取式自动摘要问题定义如下:英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文...

【专利技术属性】
技术研发人员:吴宗大雷力郑城仁
申请(专利权)人:温州大学瓯江学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1