一种基于抽取式多文档摘要方法的自动化写作方法技术

技术编号:22000464 阅读:100 留言:0更新日期:2019-08-31 05:27
本发明专利技术涉及一种基于抽取式多文档摘要方法的自动化写作方法,包括如下步骤:A1、用户输入与数据预处理:接收用户输入的关键词,在数据检索平台检索相关数据,并对检索出来的相关数据进行初步处理;A2、图排序:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分;A3、去冗余:如果句子中存在的两个或多个相似度超过预定阈值的句子,则只保留其中一个,输出去除了冗余句的有序句子列表;A4、构造输出:按照篇幅限制在上一阶段提供的有序句子列表中从前到后选择最重要的句子,并对这些句子进行重新排序,输出排好序的句子所构成的文稿。

An Automated Writing Method Based on Extraction of Multi-Document Abstracts

【技术实现步骤摘要】
一种基于抽取式多文档摘要方法的自动化写作方法
本专利技术属于计算机应用,计算机系统,因特网,信息处理及其技术产品。
技术介绍
针对新闻的自动化写作指的是计算机软件系统与大数据资源相互配合的智能算法应用,写作系统通过数据的收集、整理、分析整合等步骤完成一篇新闻稿件的写作。2010年以来国外媒体如美联社,国内媒体如新华社和腾讯新闻等相继推出了各自的写作机器人,目前的写作主要是面向财经、体育、突发事件如极端天气与地震等领域的写作。目前这些自动写作系统的特点是信息源格式固定且高度精炼,输出稿件普遍篇幅较短,实现方式多是借助领域专家人工定制的模板,将信息源产生的新数据填入相应模板的对应位置,效果类似手机话费查询时的回复短信。特点是快速可靠,确保保证了重要信息的及时发布。缺点则是只能处理简单消息,格式千篇一律,且只能根据消息源的特点花费大量人力创建模板,而在其他领域这些模板又完全不适用。总的来讲,这些系统无法实现一般性新闻的稿件写作。从人类进行新闻稿件写作的过程来看,主要分为信息收集与写作两个阶段。我们目前处于的大数据时代,得益于搜索引擎,网络爬虫等技术,信息收集的自动化过程是非常容易做到的。然而如何模拟人的能力,对收集到的数据进行整理,整合重要信息“写”出新闻稿件则是相当困难的一件事。定位文本中的重要信息并以较短的篇幅输出的技术在学术研究领域称为自动文档摘要技术。文档摘要技术的学术研究与新闻写作的不同之处在于,文档摘要需要系统找到重要信息,要控制输出篇幅,而对语义上的连贯性则不甚重视。而新闻稿件的写作则力求语义连贯、无重复地叙述一件事,篇幅方面则有较大灵活性。实践中,文档摘要技术通常用于新闻资讯的“总结概括”以辅助用户对原文的理解。摘要技术分为两类,一类是基于原句抽取的系统,优点是句子作为处理单位不会存在可读性问题,但是句子之间的排列方式可能会带来阅读上不通顺的问题;另一类则是借助自然语言生成的生成式摘要系统,句子所用的词汇不必来源于原文,借助于近年来深度学习在自然语言生成方面的巨大成功,生成式摘要开始在各种评测中接近抽取式摘要的效果。基于深度学习,尤其是循环神经网络的语言生成技术的自然语言生成技术近来有很多写作方面的新奇应用,如自动写诗,图片描述等任务。然而,目前来讲,基于深度学习的生成式摘要距离实际部署应用仍有较大距离,一是无法处理较长的文本,对多文档更是无能为力,二是泛化能力很差,在一个数据集上训练测试的效果,在别的数据集上往往效果很差,最后,所生成的语言本身也经常出现语病、局部重复等现象。
技术实现思路
本专利技术的目的在于提出一种基于抽取式多文档摘要方法的自动化写作方法,在已拥有大数据文本检索平台的基础上,实现可以根据用户提供的话题,自动按话题生成一篇或多篇完整新闻稿件的自动化撰写。为此,本专利技术提出一种基于抽取式多文档摘要方法的自动化写作方法,包括如下步骤:A1、用户输入与数据预处理:接收用户输入的关键词,在数据检索平台检索相关数据,并对检索出来的相关数据进行初步处理;A2、图排序:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分;A3、去冗余:如果句子中存在的两个或多个相似度超过预定阈值的句子,则只保留其中一个,输出去除了冗余句的有序句子列表;A4、构造输出:按照篇幅限制在上一阶段提供的有序句子列表中从前到后选择最重要的句子,并对这些句子进行重新排序,输出排好序的句子所构成的文稿。在一些实施例中,本专利技术还包括如下特征:步骤A1中所述数据预处理包括:对检索出的数据进行如下初步处理:垃圾数据的过滤及有效文档的聚类。步骤A2中图排序包括:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分。图排序的算法属于通过构造文本图并在文本图上运行排序算法。步骤A3中去冗余的做法是:对于输入的句子列表,先保留排名最高的句子到输出列表中,然后挨个对后面的所有句子进行如下处理:挨个比较与输出列表中的句子的相似度,若当前被分析的句子与输出列表中的某个句子相似度大于所设置阈值,那么当前句子被过滤,反之,则加入输出列表的末尾。所述步骤A4中,构造输出包括:从步骤A3中的有序句子列表的头部开始,选择句子,计算字数,直到加入某个句子后,总字数大于或等于篇幅限制,然后停止选择过程。在选取了足够篇幅要求的句子之后,对句子之间的前后顺序进行最终的调整,句子调整的原则如下:首先,对于两个句子来讲,若这两个句子来自于同一篇原文,那么前后关系基本可以按照原始的前后关系来;而若两个句子S1,S2来自于不同的文章,首先以S1分析对象,若S1与S2的上文的某个句子S3非常相似,那么S1应该排到S2之前的必要性应正比于S1与S3的相似度,且反比于S3与S2在原文中相隔的句子数目,同时若S1与S2的下文中的某个句子S4的相似度很高,那么S1应该排到S2后面的必要性应正比于S1与S4的相似度,同时反比于S4到S2的距离。把所有句子看做节点,对于任意两个节点,从一个节点到另一节点按上面方式构造一条有向边,该有向边起始于开始节点并指向结束节点,并且该有向边的权值用“必要性”指标表示,基于所有输出句构建一个有向文本图,边的方向代表起始节点“应该”位于末尾节点之前,权值代表其“应该”的必要程度,即代表了语义连贯性;在这样一个有向、带权、可能有环的文本图上进行路径选择,即根据这个图选择一个节点作为起始节点,然后从这个节点出发不重复地加入其它节点,并保留文本图中节点之间的边,输出的句子节点列表可以看做一条带权的路径。路径构造算法基于图排序理论,选择贪心搜索的方式遍历文本图构造主路径,若遇到环,则停止贪心过程,将剩余节点按照多重规则加入主路径。本专利技术还包括一种计算机程序,其特征在于,存储有计算机程序,所述程序可以被执行以实现上述的方法。本专利技术的有益效果有:本专利技术提供的一种基于大量相关文本“素材”进行自动化的文章生成的方法,能帮助用户快速了解相关资讯的重点及大致发展历程,可帮助普通用户用于跟进新闻热点,也可以辅助专业的新闻编辑,即提供一个或多个大致的“文章草稿”。附图说明图1是本专利技术实施例自动写作系统的算法框架示意图。图2是本专利技术实施例应用TextRank的文本图示意图。图3是本专利技术实施例用于句子顺序调整的语义图示意图。具体实施方式本专利技术下述实施例致力于基于抽取式多文档摘要技术为基础构建新闻的自动写作系统,不仅要实现摘要系统的普遍要求即找出重要信息,同时也要确保信息的完整性与连贯性,基本的功能是用户给定一个话题,系统自动收集相关数据,并以适合人类阅读的方式输出对应的完整文章。本方法可以帮助用户对复杂新闻事件快速了解全貌,也可以用来对感兴趣的新闻话题的持续跟踪,即可以随着事件的发展借助我们的系统对不同阶段加以描述。也可以作为新闻编辑人员的辅助工具,即可以先借助我们的系统基于当前新闻热点进行写作,以辅助编辑人员了解事情的最新进展或者帮助查漏补缺发现之前未注意的方面。本方法的实施前提是已经存在了大数据文本检索平台,其具体实现方式不做限制,只要满足资讯数据的充足与基本的全文检索接口即可。本方法属于文本大数据平台的具体应用方案,其具体实施方案包括四个阶段:用户输入与数据预处理,图排序,去冗余,构造输出。用户输入与数据预处理阶段:本阶段主要本文档来自技高网
...

【技术保护点】
1.一种基于抽取式多文档摘要方法的自动化写作方法,其特征在于包括如下步骤:A1、用户输入与数据预处理:接收用户输入的关键词,在数据检索平台检索相关数据,并对检索出来的相关数据进行初步处理;A2、图排序:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分;A3、去冗余:如果句子中存在的两个或多个相似度超过预定阈值的句子,则只保留其中一个,输出去除了冗余句的有序句子列表;A4、构造输出:按照篇幅限制在上一阶段提供的有序句子列表中从前到后选择最重要的句子,并对这些句子进行重新排序,输出排好序的句子所构成的文稿。

【技术特征摘要】
1.一种基于抽取式多文档摘要方法的自动化写作方法,其特征在于包括如下步骤:A1、用户输入与数据预处理:接收用户输入的关键词,在数据检索平台检索相关数据,并对检索出来的相关数据进行初步处理;A2、图排序:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分;A3、去冗余:如果句子中存在的两个或多个相似度超过预定阈值的句子,则只保留其中一个,输出去除了冗余句的有序句子列表;A4、构造输出:按照篇幅限制在上一阶段提供的有序句子列表中从前到后选择最重要的句子,并对这些句子进行重新排序,输出排好序的句子所构成的文稿。2.如权利要求1所述的基于抽取式多文档摘要方法的自动化写作方法,其特征在于,步骤A1中所述数据预处理包括:对检索出的数据进行如下初步处理:垃圾数据的过滤及有效文档的聚类。3.如权利要求1所述的基于抽取式多文档摘要方法的自动化写作方法,其特征在于,步骤A2中图排序包括:对多个文档的输入,系统首先识别出所有句子,并对所有句子的重要性进行评分。4.如权利要求3所述的基于抽取式多文档摘要方法的自动化写作方法,其特征在于,图排序的算法属于通过构造文本图并在文本图上运行排序算法。5.如权利要求1所述的基于抽取式多文档摘要方法的自动化写作方法,其特征在于,步骤A3中去冗余的做法是:对于输入的句子列表,先保留排名最高的句子到输出列表中,然后挨个对后面的所有句子进行如下处理:挨个比较与输出列表中的句子的相似度,若当前被分析的句子与输出列表中的某个句子相似度大于所设置阈值,那么当前句子被过滤,反之,则加入输出列表的末尾。6.如权利要求1所述的基于抽取式多文档摘要方法的自动化写作方法,其特征在于,所述步骤A4中,构造输出包括:从步骤A3中的有序句子列表的头部开始,选择句子,计算字数,直到加入某个句子后,总字...

【专利技术属性】
技术研发人员:韩旭旺郑海涛赵从志
申请(专利权)人:清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1