一种新闻综述生成方法与系统技术方案

技术编号：15691062 阅读：110 留言：0更新日期：2017-06-24 03:57

本发明专利技术公开了一种新颖的基于段落进行新闻综述生成的方法与系统，涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道，且新闻报道的综述都是由人工编辑的，经济成本高，且很难保证时效性。本发明专利技术提出基于段落重新分割，排序，选择并融合的新闻综述生成方法与系统，有效提高新闻综述的时效性，降低编辑成本。其包括如下步骤：针对原始新闻材料的段落重新分割构建；对新闻材料重新构建出的段落进行重要性预测；根据段落重要性进行段落选择，融合；对选择出来的段落进行重排序，构成新闻综述。本发明专利技术适用于介绍同一事件的大量新闻报道。

Method and system for generating News Summarization

The invention discloses a novel method and a system for generating News Summarization Based on paragraphs, and relates to the field of language processing. There are a lot of news reports about the same event, and the news reports are edited by people. The cost is high, and it is difficult to guarantee timeliness. The invention provides a method and a system for generating News Summarization Based on segmentation, sorting, selection and fusion of paragraphs, so as to effectively improve the timeliness of news review and reduce the editing cost. It includes the following steps: according to the original news material paragraphs re segmentation of news material construction; re constructed paragraph importance prediction; section selection, according to the importance of paragraph fusion; to reorder the selected paragraph, a news summary. The invention is suitable for introducing a large number of news reports of the same event.

全部详细技术资料下载

【技术实现步骤摘要】
一种新闻综述生成方法与系统
本专利技术涉及语言文字处理领域，特别涉及一种新闻综述生成方法与系统。
技术介绍
目前有很多关于同一事件的新闻报道，并且新闻摘要可以帮助读者更好地了解新闻内容。但是传统的新闻摘要多局限在100-150字左右，内容覆盖面小，不可很好得使读者多方面全面的了解事件发展过程，综述生成应运而生。与综述生成的方法最相近的是传统的多文档摘要方法。多文档摘要方法多基于句子进行抽取，基于句子的方法在面对生成文章长度较长时会出现句子过多，不容易进行排序等问题。经典的多文档摘要方法包括：基于图的排序方法，例如Erkan和Radev在2004年提出的LexRank方法，Mihalcea和Tarau在2004年提出的TextRank方法；YouOuyang等人在2007年提出的基于句子分类回归的模型；Gillick和Favre在2009年提出的基于整数线性规划的方法等。除了多文档摘要的方法，相关的工作还有Sauper和Barzilay提出的自动生成结构完整的维基百科的工作。
技术实现思路
本专利技术提供一种新闻综述生成方法，该方法通过对面向同一事件的新闻的段落重新分割...
一种新闻综述生成方法与系统

【技术保护点】
一种新闻综述生成方法，其特征在于，该方法通过对面向同一事件的新闻的段落重新分割，重要性排序，选择并且合并以及最后的重新排序，最终基于重组得到的新闻段落构建新闻综述；该方法方便快捷，可行性强，效果明显好于原先的多文档摘要方法所得到的新闻综述，有效节省人力物力。

【技术特征摘要】
1.一种新闻综述生成方法，其特征在于，该方法通过对面向同一事件的新闻的段落重新分割，重要性排序，选择并且合并以及最后的重新排序，最终基于重组得到的新闻段落构建新闻综述；该方法方便快捷，可行性强，效果明显好于原先的多文档摘要方法所得到的新闻综述，有效节省人力物力。2.一种新闻综述生成方法，其特征在于包括如下步骤：(1)针对原始新闻材料的段落重新分割构建；(2)对新闻材料重新构建出的段落进行重要性预测；(3)根据段落重要性进行段落选择，融合；(4)对选择出来的段落进行重排序，构成新闻综述。3.根据权利要求2所述的新闻综述生成方法，其特征在于，针对原始新闻材料的段落重新分割构建，其目的在于将原来新闻材料中有关于同一个子话题的相邻的句子或者小段落构建成新的意义更加完整的段落，避免使用句子为综述构建单位造成语言过于零散；就语言通顺性来讲，从一篇文章中抽取相邻的几句话要比从多个文章中抽取意义相近的多句话更好；针对原始新闻材料的段落重新分割构建，其具体做法包括四个部分：对新闻材料进行分词(预处理)，计算句子间隔的语义学分数，计算句子间隔的“深度”分数，最后对新闻进行划分；第一步：原始新闻材料进行分词等预处理；如果是英文的语料需要将单词都转化为小写字母，然后进行词干化，即将经过各种人称及时态变化的单词转化为其词干，如果是中文语料那么只需要进行分词；第二步：计算句子间隔的语义学分数；由于句子是表达语义的较完整的单位，所以段落重新分割以句子的结束作为潜在的分割点是合理的；句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度；而由于文章原有句子的长短十分不统一，不可以直接作为评价语义学相似度的单元，所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容；对于每一个语义间隔，其前后的文本单位分别用b1和b2表示，那么句子间隔的语义学相似度可以用如下公式表示；其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语；并且wt,b代表词语t在语义单元b中的权重，这里的权重用词语t在语义单元b中出现的频数决定；这个权重的取值在0到1之间；第三步：计算句子间隔i的“深度”分数di；对于句子间隔所谓的“深度”分数代表了前后两个子话题在这个句子间隔发生改变的程度；这个分数取决于如果这个句子间隔是谷底的话，相对于两边的最高峰的语义相似度分数距离；相对的，这个“深度”分数越大，那么说明这个句子间隔最为最终进行段落分割的分割点越合适，反之越不合适；计算过程中首先寻找相对于句子间隔i的左边的高峰位置l和右边的高峰位置r；左边的高峰位置l就是相对于i向左找到第一个位置，使其满足dl-1<dl；那么di＝(dl-di)+(dr-di)。第四步：对新闻进行划分；在得到每一个句子间隔的“深度”分数di之后，我们根据不同新闻类型可以取不同的“深度”分数阈值来决定划分段落的个数，即设置阈值为d，如果句子间隔的“深度”分数大于d，那么说明这个间隔前后的子话题变化足够大，可以作为新的段落分割；我们可以假...

【专利技术属性】
技术研发人员：张建敏，万小军，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人