【技术实现步骤摘要】
一种采用多策略自动生成摘要的网络新闻概要系统
本专利技术属于新闻软件开发
,尤其涉及一种采用多策略自动生成摘要的网络新闻概要系统。
技术介绍
目前,最接近的现有技术:随着社交类软件、媒体类软件的迅猛发展,海量的网络文本正以惊人的速度增长。在信息爆炸的时代,如何从海量文本中有效提取重要信息,成为一个亟待解决的问题。针对该问题已陆续出现了多种解决方案,其中,自动文本摘要技术是一种热门且广泛被人们接受的方法。在一定程度上,自动文本摘要技术可以帮助用户从接收的信息中快速获取重要的文本信息。获取信息的质量和效率依赖于自动文本摘要算法的好坏。目前,该技术处于探索阶段,自动提取出的文摘句子还存在冗余、片面、混合脏数据等问题。市面上新闻网站繁多,从内容来源上划分,可以大致将新闻网站分为:新闻聚合类网站、专业新闻网站、垂直行业型新闻网站、网络新媒体网站。其中,新闻聚合类网站广泛采集专业新闻网站、垂直行业型新闻网站提供的原始新闻报道,而第三、四种的垂直行业型新闻网站和网络新媒体网站属于泛新闻型网站,非传统的新闻网站。此四类具有代表性的部分网站,如下表1所示:表1四类具有代表性的部分新闻网站市面上存在各式新闻网站,却缺乏一款提供自动文摘服务的新闻软件。用户面对每天出现的海量信息,在时间、精力有限的情况下,常常难以快速找到自己感兴趣的话题新闻。另外,现有新闻网站还普遍缺乏一个关键功能,即基于统计读者过去阅读的新闻内容,对读者的阅读兴趣进行预测、分析的信息服务。因此,读者未能通过统 ...
【技术保护点】
1.一种采用多策略自动生成摘要的网络新闻概要系统,其特征在于,所述采用多策略自动生成摘要的网络新闻概要系统包括:/n数据采集模块,用于采集原始新闻数据;/n文本分析模块,用于实现对新闻文章的自动摘要生成、关键词提取;/n新闻阅读模块,对采集、分析完成后的新闻数据进行分类查阅新闻简讯、查阅用户监测话题的新闻简讯、快速查询新闻、新闻摘要生成策略管理、新闻专题监测服务、可视化分析用户阅读过的新闻报道;/n用户服务模块,为用户提供用户注册、用户登陆、退出、找回密码、修改密码、查看账户信息服务;/n数据服务子系统,用于采集新闻数据、提供应用子系统所需的新闻数据;/n分析子系统,构建词向量模型、分析新闻内容生成摘要和关键词数据挖掘任务,并向应用子系统提供挖掘的文本数据;/n应用子系统,通过软件界面的形式展示新闻简讯、用户服务信息服务。/n
【技术特征摘要】
1.一种采用多策略自动生成摘要的网络新闻概要系统,其特征在于,所述采用多策略自动生成摘要的网络新闻概要系统包括:
数据采集模块,用于采集原始新闻数据;
文本分析模块,用于实现对新闻文章的自动摘要生成、关键词提取;
新闻阅读模块,对采集、分析完成后的新闻数据进行分类查阅新闻简讯、查阅用户监测话题的新闻简讯、快速查询新闻、新闻摘要生成策略管理、新闻专题监测服务、可视化分析用户阅读过的新闻报道;
用户服务模块,为用户提供用户注册、用户登陆、退出、找回密码、修改密码、查看账户信息服务;
数据服务子系统,用于采集新闻数据、提供应用子系统所需的新闻数据;
分析子系统,构建词向量模型、分析新闻内容生成摘要和关键词数据挖掘任务,并向应用子系统提供挖掘的文本数据;
应用子系统,通过软件界面的形式展示新闻简讯、用户服务信息服务。
2.如权利要求1所述的采用多策略自动生成摘要的网络新闻概要系统,其特征在于,新闻阅读模块还用于提供分行业领域的新闻简讯的阅读,新闻简讯包括:文章所属领域、文章标题、文章关键词、文章摘要、新闻发布组织名称、文章发布时间基本信息;并提供专题阅读新闻简讯服务,实现用户对某些新闻事件的长期跟踪与阅读。
3.一种如权利要求1所述采用多策略自动生成摘要的网络新闻概要系统的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述采用多策略自动生成摘要的网络新闻概要方法包括:
步骤一,多新闻网站多领域的数据采集;
步骤二,采用多种摘要生成策略,自动生成指定策略的文章摘要;
步骤三,生成基于新闻文摘的新闻简讯;
步骤四,阅读分析。
4.如权利要求3所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述步骤一多新闻网站多领域的数据采集的方法包括:
1)新闻领域分类归一化:对多新闻网站,统一不同网站的新闻文章的分类标准;
2)新闻数据的结构归一化:对多新闻网站,统一不同网站新闻数据的数据结构;进行网络爬虫进行统一解析与存储;
3)多网站多领域爬虫设计:使用模板并借用Jsoup、selenium底层网络请求工具,将网络爬虫需要针对不同新闻网站时所需要完成的新闻文章、新闻作者、新闻评论数据的解析、存储任务进行程序逻辑设计;在采集新闻文章时,提前预配置当前网站当前爬行方法的所属领域;
所述网络爬虫的方法包括:定时采集文章链接任务、定时采集文章数据;
所述定时采集文章链接任务的方法包括:
a)任务读取网站网址;
b)下载领域网站网址;
c)解析网页为一份文章链接集合;
d)设置文章链接为待解析状态;
e)存储文章链接集合;存储前,向数据库查询是否已存在该文章链接,若无,则存储;
所述定时采集文章数据的方法包括:
i)任务启动,并查询一条数据库中待解析状态的文章链接;查询得到该链接以后,设置状态为解析中,启用数据库事务,对多线程的采集任务读取到脏数据进行处理;
ii)下载并解析文章链接对应的一篇文章;
iii)待解析文章网页完成时,设置当前文章链接的状态为解析完成。
5.如权利要求3所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述步骤二具体包括:
待数据采集模块解析一篇网络新闻后,便向文本分析模块输入该篇新闻文章;然后在由多种摘要生成策略下,文本分析模块输出分别输出多种摘要算法生成的文摘;将不同摘要生成策略的文摘依次存储至数据库中;当用户阅览网络新闻概要系统的新闻简讯时,网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘。
6.如权利要求5所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,所述网络新闻概要系统根据指定的摘要策略查询新闻简讯所需的文摘中,摘要策略包括以下四种方法:
a)基于共现词汇与TextRank的经典摘要算法;
b)基于BM25与TextRank的摘要算法;
c)基于Word2Vec词向量与TextRank的摘要算法;
d)融合共现词汇、Word2Vec与TextRank的摘要算法。
7.如权利要求6所述的采用多策略自动生成摘要的网络新闻概要方法,其特征在于,基于共现词汇与TextRank的经典摘要算法具体包括:
1)文本预处理:
针对输入的一篇新闻文章,进行分句、分词,并清除停用词,生成二维数组格式的句子词汇矩阵;其中,停用词表采用百度停用词表;句子词汇矩阵的每一行代表一条句子;每一条句子以一维数组形式存在;矩阵内每一行句子内的元素是原文章对应句子内的某一词汇;
2)初始化TextRank图模型Graph:
图模型Graph的属性包括:表示句子节点的nodes、表示图模型中边关系的二维邻接矩阵edges、表示节点权重值TR的nodesWeight、经过分词后的句子词汇矩阵sentencesWords、阻尼系数d;初始化edges中每一条边关系的权重值为0,表示暂未建立节点间的边关系;初始化每一节点权重nodesWeight[i]的值为任意常数,取值1.0;
3)计算文本内任意两句子间的关联度得分,构建图模型的边关系edges[i][j];
其中,i、j分别表示文章中的第i条句子和第j条句子;计算出的得分即图模型中边edges[i][j]的权重值;
4)迭代更新图模型:
更新图模型Graph的句子Vi的节点权重nodesWeight[i],为TR(Vi)值;更新的计算公式如下:
其中,Similarity(Vi,Vj)表示句子Vi与句子Vj的关联度得分;Vi表示当前句子;TR(Vi)表示当前节点权重(重要性);d表示阻尼系数,一般默认取值为0.85;{TR(V1),TR(V2),…,TR(Vm)}表示指向当前句子节点Ti的所有节点对应的TR值,即所有的前继节点对应的TR值;
当迭代更新图模型内任一句子节点Vi第N次迭代运算所得权重值的与上一次迭代所得值的最大差值小...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。