当前位置: 首页 > 专利查询>西华大学专利>正文

一种采用多策略自动生成摘要的网络新闻概要系统技术方案

技术编号:22884044 阅读:65 留言:0更新日期:2019-12-21 07:19
本发明专利技术属于新闻软件开发技术领域,公开了一种采用多策略自动生成摘要的网络新闻概要系统及方法,进行多新闻网站多领域的数据采集,自动生成文章摘要,生成基于新闻文摘的新闻简讯以及进行阅读分析。本发明专利技术以多种策略自动摘要生成算法为核心,针对每一篇从网络中抓取的原新闻报道,对应生成多种新闻简讯,并且去除掉大篇幅正文内容的新闻简讯,帮助用户快速预览、翻阅感兴趣的新闻报道,有助于提高新闻网站的点击率和阅读率;并且有助于提高多新闻网站聚合后高效、规范地分领域分类的使用价值;实现了对大量新闻的快速阅读,节省了用户的大量阅读新闻原文的时间和精力。

A network news summary system using multi strategy to generate summary automatically

【技术实现步骤摘要】
一种采用多策略自动生成摘要的网络新闻概要系统
本专利技术属于新闻软件开发
,尤其涉及一种采用多策略自动生成摘要的网络新闻概要系统。
技术介绍
目前,最接近的现有技术:随着社交类软件、媒体类软件的迅猛发展,海量的网络文本正以惊人的速度增长。在信息爆炸的时代,如何从海量文本中有效提取重要信息,成为一个亟待解决的问题。针对该问题已陆续出现了多种解决方案,其中,自动文本摘要技术是一种热门且广泛被人们接受的方法。在一定程度上,自动文本摘要技术可以帮助用户从接收的信息中快速获取重要的文本信息。获取信息的质量和效率依赖于自动文本摘要算法的好坏。目前,该技术处于探索阶段,自动提取出的文摘句子还存在冗余、片面、混合脏数据等问题。市面上新闻网站繁多,从内容来源上划分,可以大致将新闻网站分为:新闻聚合类网站、专业新闻网站、垂直行业型新闻网站、网络新媒体网站。其中,新闻聚合类网站广泛采集专业新闻网站、垂直行业型新闻网站提供的原始新闻报道,而第三、四种的垂直行业型新闻网站和网络新媒体网站属于泛新闻型网站,非传统的新闻网站。此四类具有代表性的部分网站,如下表1所示:表1四类具有代表性的部分新闻网站市面上存在各式新闻网站,却缺乏一款提供自动文摘服务的新闻软件。用户面对每天出现的海量信息,在时间、精力有限的情况下,常常难以快速找到自己感兴趣的话题新闻。另外,现有新闻网站还普遍缺乏一个关键功能,即基于统计读者过去阅读的新闻内容,对读者的阅读兴趣进行预测、分析的信息服务。因此,读者未能通过统计分析以往的阅读内容来充分了解自身的阅读兴趣。综上所述,现有技术存在的问题是:(1)自动文本摘要技术处于探索阶段,自动提取出的文摘句子存在冗余、片面、混合脏数据等问题。(2)市面上缺乏提供自动文摘服务的新闻软件。新闻读者只能通过依次翻阅新闻标题列表,再点击某一篇可能感兴趣的新闻标题的链接,最后进入一篇新闻报道的详情页进行阅读。这会使读者产生几种阅读体验不畅的情况:其一,用户仅仅通过翻阅新闻标题,也并不能完全确定是否真正感兴趣该篇新闻报道,尤其是客观存在着的部分“标题党”的文章。其二,针对每一篇新闻,用户都必须进入新闻详情页来阅读全文,平均阅读一篇新闻所花费的时间较高。其三,用户不能通过快速预览新闻最重要的节选内容,来确定是否需要精读当前可能感兴趣的新闻报道。(3)现有技术缺乏基于统计读者以往阅读过的内容进行新闻可视化分析的服务。这导致了用户不能通过数据分析手段,充分客观地了解自己所感兴趣的新闻话题。解决上述技术问题的难度:(1)数据采集难度高。其一,对于不同的新闻网站,存在不同的分类、不同的新闻数据属性、不同的网页文档标记结构。其二,现行网站的反爬虫策略丰富多样,如何绕行高难度的网站反爬机制,进而成功下载新闻网页?因此,如何完成对多个新闻网站新闻数据的下载、存储与解析,是一项艰巨的任务。因此,解决上述问题存在总体难度较高。程序设计、实施难度均较大。(2)效果卓著的自动文本摘要难度高。其一,自动文本摘要技术还处于发展、探索阶段。因此,当前阶段未能存在一种完美无瑕的单文档自动文本摘要算法。本方案中,暂通过配置效果相对较优的、多种算法策略的自动文本摘要算法以供用户自行选择。因此,解决上述问题存在总体难度较高。设计效果较优的多种文摘算法与系统功能较高,实施软件功能难度中等。(3)在用户点击一篇新闻详情页链接时,如何提高用户对可能感兴趣新闻进行原文全文阅读的命中率?如何降低用户阅读一则新闻报道的平均阅读时间?如何帮助读者快速预判一篇报道需要全文精读,还是泛读?针对这些问题需要通过如下方式来解决:改造现有新闻网站中对新闻列表页的设计,提高读者对可能感兴趣新闻文摘的快速预览。原有网站仅提供新闻标题信息和新闻详情页链接两大信息,而改造后的新闻列表页,将呈现聚合了新闻标题、新闻详情页链接、新闻预览配图、新闻文摘、文章关键词、发布日期、发布组织等数据属性的新闻简讯列表。这种方法的好处有几点:其一,添加新闻预览配图与关键词。利用人体对图形图像信息的处理、理解速度最快的本质,针对每一则报道,添加一幅新闻相关的报道配图;基于软件工程学中的一些基本软件设计经验:人脑最多能够摄入的菜单项数7±2,因此,在阅读原文前,在每一条新闻简讯中提前展示提取的3-5个原文关键词。添加的新闻预览配图与关键词,能够帮助读者快速确定新闻内容的关键要素。其二,添加新闻文摘。新闻文摘浓缩了原新闻详情页中原文的关键内容,有助于读者短时间内阅读文章概貌,提高读者对感兴趣文章的预判准确度。在解决上述问题的过程中,也产生了新的技术问题:如何提取新闻原文的配图?假设新闻原文中不存在配图,又如何解决?因此,解决上述问题存在总体难度较高。(4)针对每一用户,如何统计分析并可视化其以往的阅读内容?需要细化数据库字段,细化并记录用户的历史阅读数据。在用户需要查看个人阅读数据时,通过数据库SQL查询技术、界面图表展示技术等方法实现本服务。因此,解决上述问题存在总体难度高。解决上述技术问题的意义:1)基于自动文摘的新闻简讯设计,帮助新闻读者快速阅读多篇新闻简讯,降低新闻读者平均阅读一则新闻报道的阅读时间,有助于降低读者阅读所需的时间、精力,提高阅读效率。2)基于自动文摘的新闻简讯设计,帮助新闻读者对可能感兴趣新闻报道的预判,有助于读者决定采取精度,还是泛读策略;避免读者像阅读普通新闻网站时的情况,读到不感兴趣的“标题党”新闻;此举有助于提高用户阅读体验。3)个性化的可视化新闻阅读分析服务,有助于新闻读者通过数据分析手段,充分客观地了解自己所感兴趣的新闻话题。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种采用多策略自动生成摘要的网络新闻概要系统及方法。本专利技术主要目的是面向新闻阅读者,提供能够聚合多个新闻网站的多个新闻领域,以及采集读者近期感兴趣的新闻话题的相关新闻信息。通过分析每一篇网络新闻报导,自动生成含该报导的新闻摘要、新闻原文链接、文章关键词、新闻标题、新闻作者、发布日期、文章所属领域、新闻原文预览图等概要性信息的新闻简讯。读者通过浏览经过上述方法处理后自动生成的新闻简讯列表,快速了解一篇新闻的重要内容,大幅提高读者的阅读效率、缩减其阅读时间。本专利技术是这样实现的,一种采用多策略自动生成摘要的网络新闻概要系统,所述采用多策略自动生成摘要的网络新闻概要系统包括:数据采集模块,用于采集原始新闻数据。文本分析模块,用于实现对新闻文章的自动摘要生成、关键词提取。新闻阅读模块,对采集、分析完成后的新闻数据进行分类查阅新闻简讯、查阅用户监测话题的新闻简讯、快速查询新闻、新闻摘要生成策略管理、新闻专题监测服务、可视化分析用户阅读过的新闻报道。用户服务模块,为用户提供用户注册、用户登陆、退出、找回密码、修改密码、查看账户信息服务。数据服务子系统,本文档来自技高网
...

【技术保护点】
1.一种采用多策略自动生成摘要的网络新闻概要系统,其特征在于,所述采用多策略自动生成摘要的网络新闻概要系统包括:/n数据采集模块,用于采集原始新闻数据;/n文本分析模块,用于实现对新闻文章的自动摘要生成、关键词提取;/n新闻阅读模块,对采集、分析完成后的新闻数据进行分类查阅新闻简讯、查阅用户监测话题的新闻简讯、快速查询新闻、新闻摘要生成策略管理、新闻专题监测服务、可视化分析用户阅读过的新闻报道;/n用户服务模块,为用户提供用户注册、用户登陆、退出、找回密码、修改密码、查看账户信息服务;/n数据服务子系统,用于采集新闻数据、提供应用子系统所需的新闻数据;/n分析子系统,构建词向量模型、分析新闻内容生成摘要和关键词数据挖掘任务,并向应用子系统提供挖掘的文本数据;/n应用子系统,通过软件界面的形式展示新闻简讯、用户服务信息服务。/n

【技术特征摘要】
1.一种采用多策略自动生成摘要的网络新闻概要系统,其特征在于,所述采用多策略自动生成摘要的网络新闻概要系统包括:
数据采集模块,用于采集原始新闻数据;
文本分析模块,用于实现对新闻文章的自动摘要生成、关键词提取;
新闻阅读模块,对采集、分析完成后的新闻数据进行分类查阅新闻简讯、查阅用户监测话题的新闻简讯、快速查询新闻、新闻摘要生成策略管理、新闻专题监测服务、可视化分析用户阅读过的新闻报道;
用户服务模块,为用户提供用户注册、用户登陆、退出、找回密码、修改密码、查看账户信息服务;
数据服务子系统,用于采集新闻数据、提供应用子系统所需的新闻数据;
分析子系统,构建词向量模型、分析新闻内容生成摘要和关键词数据挖掘任务,并向应用子系统提供挖掘的文本数据;
应用子系统,通过软件界面的形式展示新闻简讯、用户服务信息服务。


2.如权利要求1所述的采用多策略自动生成摘要的网络新闻概要系统,其特征在于,新闻阅读模块还用于提供分行业领域的新闻简讯的阅读,新闻简讯包括:文章所属领域、文章标题、文章关键词、文章摘要、新闻发布组织名称、文章发布时间基本信息;并提供专题阅读新闻简讯服务,实现用户对某些新闻事件的长期跟踪与阅读。


3.一种如权利要求1所述采用多策略自动生成摘要的网络新闻概要系统的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述采用多策略自动生成摘要的网络新闻概要方法包括:
步骤一,多新闻网站多领域的数据采集;
步骤二,采用多种摘要生成策略,自动生成指定策略的文章摘要;
步骤三,生成基于新闻文摘的新闻简讯;
步骤四,阅读分析。


4.如权利要求3所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述步骤一多新闻网站多领域的数据采集的方法包括:
1)新闻领域分类归一化:对多新闻网站,统一不同网站的新闻文章的分类标准;
2)新闻数据的结构归一化:对多新闻网站,统一不同网站新闻数据的数据结构;进行网络爬虫进行统一解析与存储;
3)多网站多领域爬虫设计:使用模板并借用Jsoup、selenium底层网络请求工具,将网络爬虫需要针对不同新闻网站时所需要完成的新闻文章、新闻作者、新闻评论数据的解析、存储任务进行程序逻辑设计;在采集新闻文章时,提前预配置当前网站当前爬行方法的所属领域;
所述网络爬虫的方法包括:定时采集文章链接任务、定时采集文章数据;
所述定时采集文章链接任务的方法包括:
a)任务读取网站网址;
b)下载领域网站网址;
c)解析网页为一份文章链接集合;
d)设置文章链接为待解析状态;
e)存储文章链接集合;存储前,向数据库查询是否已存在该文章链接,若无,则存储;
所述定时采集文章数据的方法包括:
i)任务启动,并查询一条数据库中待解析状态的文章链接;查询得到该链接以后,设置状态为解析中,启用数据库事务,对多线程的采集任务读取到脏数据进行处理;
ii)下载并解析文章链接对应的一篇文章;
iii)待解析文章网页完成时,设置当前文章链接的状态为解析完成。


5.如权利要求3所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述步骤二具体包括:
待数据采集模块解析一篇网络新闻后,便向文本分析模块输入该篇新闻文章;然后在由多种摘要生成策略下,文本分析模块输出分别输出多种摘要算法生成的文摘;将不同摘要生成策略的文摘依次存储至数据库中;当用户阅览网络新闻概要系统的新闻简讯时,网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘。


6.如权利要求5所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘中,摘要策略包括以下四种方法:
a)基于共现词汇与TextRank的经典摘要算法;
b)基于BM25与TextRank的摘要算法;
c)基于Word2Vec词向量与TextRank的摘要算法;
d)融合共现词汇、Word2Vec与TextRank的摘要算法。


7.如权利要求6所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,基于共现词汇与TextRank的经典摘要算法具体包括:
1)文本预处理:
针对输入的一篇新闻文章,进行分句、分词,并清除停用词,生成二维数组格式的句子词汇矩阵;其中,停用词表采用百度停用词表;句子词汇矩阵的每一行代表一条句子;每一条句子以一维数组形式存在;矩阵内每一行句子内的元素是原文章对应句子内的某一词汇;
2)初始化TextRank图模型Graph:
图模型Graph的属性包括:表示句子节点的nodes、表示图模型中边关系的二维邻接矩阵edges、表示节点权重值TR的nodesWeight、经过分词后的句子词汇矩阵sentencesWords、阻尼系数d;初始化edges中每一条边关系的权重值为0,表示暂未建立节点间的边关系;初始化每一节点权重nodesWeight[i]的值为任意常数,取值1.0;
3)计算文本内任意两句子间的关联度得分,构建图模型的边关系edges[i][j];
其中,i、j分别表示文章中的第i条句子和第j条句子;计算出的得分即图模型中边edges[i][j]的权重值;
4)迭代更新图模型:
更新图模型Graph的句子Vi的节点权重nodesWeight[i],为TR(Vi)值;更新的计算公式如下:



其中,Similarity(Vi,Vj)表示句子Vi与句子Vj的关联度得分;Vi表示当前句子;TR(Vi)表示当前节点权重(重要性);d表示阻尼系数,一般默认取值为0.85;{TR(V1),TR(V2),…,TR(Vm)}表示指向当前句子节点Ti的所有节点对应的TR值,即所有的前继节点对应的TR值;
当迭代更新图模型内任一句子节点Vi第N次迭代运算所得权重值的与上一次迭代所得值的最大差值小...

【专利技术属性】
技术研发人员:曾太吴越
申请(专利权)人:西华大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1